论文部分内容阅读
目的:诺如病毒是一种常见的肠道病毒,已在世界范围内引起了广泛的流行。但在我国尚未建立针对诺如病毒的专病监测系统。本研究尝试通过互联网监测的新方法探索对诺如病毒预警预测的可行性与有效性。方法:本研究以浙江省嘉兴市2014年诺如疫情作为切入点,收集并分析疫情相关信息;同时利用文本挖掘技术和百度大数据平台获取诺如相关搜索词的百度搜索指数;通过相关分析获取不同滞后期的相关搜索词词组,并构建不同滞后期的复合百度指数;利用统计指标筛选最优滞后期和最终模型,收集并计算全国各省与浙江省各地级市复合百度指数,基于最优模型绘制同期浙江省近年来诺如病毒感染的潜在疫情地图。并选取若干疫情,观察疫情期间复合百度指数的变化情况,并对模型进行验证,探讨互联网监测的有效性与模型实际应用的可能性。结果:1.本次研究选择2014年2月17日发生于嘉兴的诺如疫情,该疫情主要聚集于海盐县和海宁市的13所学校,以腹泻和呕吐为主要症状;通过现场调查,识别首例病例,其发病于2014年2月12日。该起疫情共持续10天,此次暴发共有924例病例,男女性别比为1:1.2。2.通过百度大数据平台和数据挖掘网收集诺如相关的检索词,获取相关百度搜索指数,通过Spearman等级相关,筛选滞后期为0,1,2,3,4的搜索词。结果显示滞后期为0天的纳入关键词有“诺如病毒”、“诺如”、“呕吐出血”;滞后期为1天的纳入关键词有“诺如病毒”、“诺如”;滞后期为2天的纳入关键词有“诺如病毒”、“诺如”、“呕吐腹泻”、“婴儿病毒性腹泻”、“恶心想吐”;滞后期为3天的纳入关键词有“诺如病毒”、“诺如”、“头痛恶心是怎么回事”、“头晕恶心是怎么回事”,滞后期为4天的纳入关键词有“头痛恶心是怎么回事”。3.研究显示复合百度指数最优的时间节点为滞后期为2天(ρ=0.945,P<0.001)和滞后期为1天(ρ=0.924,P<0.001);这两个时间滞后分别被纳入最终的模型构建。进一步的研究显示指数曲线模型是滞后期为1天的最优模型,而增长曲线模型为滞后期为2天的最优模型。为了评估拟合效果,研究构建了总体符合率来评估总体预测效果,结果显示指数曲线模型的总体符合率值为90.69%,而增长曲线模型的值为66.00%,最终滞后期为1天的指数曲线模型被认定为最优模型,在这个模型中复合百度指数每增加1个单位提示诺如感染数增加2.15倍。4.基于最优模型,计算全国与浙江省的舆情分布,并估算浙江省的潜在诺如疫情,结果显示在2014年疫情暴发期间,在浙江省范围内,杭州与嘉兴的舆情指数明显高于省内其他地区;而全国范围内,除浙江省外,江苏省和广东省同样对此次疫情有较高的关注度,在2013、2014、2015、2016和2017年的同期中,浙江省诺如疫情以2014年最高,此外杭州,湖州、衢州和舟山等地也可能存在潜在的诺如疫情。四起疫情暴发期间,复合百度指数均在同期呈现上升趋势并随即出现高峰,对疫情有一定程度的预警作用。利用突发公共卫生事件管理信息系统上的疫情数据对模型进行验证后发现,模型虽然会在一定程度上低估疫情规模,但仍可识别出2015年金华,2017年杭州及湖州的三起聚集性疫情。结论:本研究结果显示在缺乏有效专病监测系统的情况下,基于网络舆情的诺如疫情预警预测具有一定意义。研究以百度大数据技术作为支撑,通过对诺如疫情暴发期间人群网络行为特征的定量采集与分析,识别中国人群对诺如疫情关注度的网络流行特征分布。根据本研究建立的滞后1天的指数曲线模型,复合百度指数每增加1个单位,提示诺如感染数增加2.15倍,这为基于百度搜索引擎关键词的监测和暴发期诺如病毒感染之间提供了定量关系的探索。基于百度搜索引擎开展诺如病毒感染聚集性疫情的监测和预警预测具有可行性,可为现有传染病监测系统提供新的思路和手段。