在一场疾病暴发中,“第一感染源”是首个被感染的人,找到他们则能帮助阻止这场疾病。然而,不完整的数据意味着那个人通常很难被追踪到。如今,一种算法能在这场追击中派上用场。
来自克罗地亚萨格勒布大学的Mile Sikic及其同事关注的是这样一种场景:由被感染和未被感染的人组成一个网络,但你不知道感染在何时或者谁之间传播。这可以是性传播感染(STI)、信息在一个社会网络中的扩散,或者在激活之前处于休眠状态的电脑病毒。
该团队的算法模拟了通过上述网络的潜在扩散,并将其与真实数据比较,以计算某个人是第一感染源的几率。如果恰好一个人拥有100%的可能性,你就找到了起源。不过,如果多个人有得分,随后你需要更多数据找到第一感染源。
结果证实,如果传染快速传播,起源会更容易找到。“如果传播过程比较慢,你会失去一些类型的信息。”Sikic说。
研究团队利用来自巴西一家网站的STI数据测试了这种方法。在该网站上,人们会匿名发表关于和性工作者相遇的评论。他们发现,有60%的时间上述算法能正确辨认出第一感染源,或者只差一点点。