论文部分内容阅读
互联网技术和高端设备的飞速发展在方便和改善人们生活的同时,产生并积累了超大量的数据。这些数据尽管来源不同,组织形式不同,但是其中蕴藏着无数的价值。而这些积累的数据并没有得到充分的利用,如何对这些数据中的价值进行挖掘,建立合适的模型对海量异构大数据进行智能的利用,将是未来大数据时代人们关心和研究的重点。本文提出了三个不同场景下的多源异构大数据的具体应用方法,主要工作与贡献如下:针对传统传染病监测存在的滞后性,本文提出了一种基于互联网搜索引擎大数据以及国际卫生组织传染病监测数据的隐马尔科夫模型来实现疫情监测。该方法利用传染病在同一国家或地区传播的时间特性,可以实现对单一国家或地区传染病疫情爆发的高准确率实时监测,不具有滞后性。实验对美国甲型和乙型肝炎的爆发风险等级进行监测,准确率分别达到91.9%和98.2%。另外在流感和莱姆病上进行了同样的实验,最终分别实现了91.7%和84.7%的监测准确率。传统传染病监测需要较高的人力物力资源,对于某些发展中国家常常无法实现有效的监测,大量监测数据缺失。针对该问题,本文提出了一种基于国际航班数据、互联网搜索引擎大数据、新闻大数据以及国际卫生组织流感监测数据的多元隐马尔科夫方法,该方法利用了传染病在不同国家和地区间传播的时空相关性特性,可以实现对世界上不同国家和地区的流感疫情高准确率实时监测,预测流感疫情的爆发,同时又解决了监测数据缺失的国家或地区的传染病疫情监测困难的问题。在全世界范围内流感实时监测平均准确率达到93.34%,在全世界范围内流感爆发预测准确率达到89.20%。本文还对金融指数的预测进行了相关研究,建立了深度学习马尔科夫模型对小麦价格、股票价格和比特币价格进行了预测。平均误差率分别为0.35%,2.90%和4.02%。与基于参数模型的传统价格预测方法相比,异构数据驱动的深度学习方法在无需复杂的先验知识的情况下就可以准确的发现不同数据间的关联性,具有适用范围更广,更容易对结构和数据进行扩展的优点。