基于多源异构大数据机器学习的风险预测方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:kuwaning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术和高端设备的飞速发展在方便和改善人们生活的同时,产生并积累了超大量的数据。这些数据尽管来源不同,组织形式不同,但是其中蕴藏着无数的价值。而这些积累的数据并没有得到充分的利用,如何对这些数据中的价值进行挖掘,建立合适的模型对海量异构大数据进行智能的利用,将是未来大数据时代人们关心和研究的重点。本文提出了三个不同场景下的多源异构大数据的具体应用方法,主要工作与贡献如下:针对传统传染病监测存在的滞后性,本文提出了一种基于互联网搜索引擎大数据以及国际卫生组织传染病监测数据的隐马尔科夫模型来实现疫情监测。该方法利用传染病在同一国家或地区传播的时间特性,可以实现对单一国家或地区传染病疫情爆发的高准确率实时监测,不具有滞后性。实验对美国甲型和乙型肝炎的爆发风险等级进行监测,准确率分别达到91.9%和98.2%。另外在流感和莱姆病上进行了同样的实验,最终分别实现了91.7%和84.7%的监测准确率。传统传染病监测需要较高的人力物力资源,对于某些发展中国家常常无法实现有效的监测,大量监测数据缺失。针对该问题,本文提出了一种基于国际航班数据、互联网搜索引擎大数据、新闻大数据以及国际卫生组织流感监测数据的多元隐马尔科夫方法,该方法利用了传染病在不同国家和地区间传播的时空相关性特性,可以实现对世界上不同国家和地区的流感疫情高准确率实时监测,预测流感疫情的爆发,同时又解决了监测数据缺失的国家或地区的传染病疫情监测困难的问题。在全世界范围内流感实时监测平均准确率达到93.34%,在全世界范围内流感爆发预测准确率达到89.20%。本文还对金融指数的预测进行了相关研究,建立了深度学习马尔科夫模型对小麦价格、股票价格和比特币价格进行了预测。平均误差率分别为0.35%,2.90%和4.02%。与基于参数模型的传统价格预测方法相比,异构数据驱动的深度学习方法在无需复杂的先验知识的情况下就可以准确的发现不同数据间的关联性,具有适用范围更广,更容易对结构和数据进行扩展的优点。
其他文献
目的观察针刺治疗泌尿系结石疼痛的镇痛效果。方法随机将78例泌尿系结石疼痛患者分为针刺组40例,药物组38例。针刺组根据结石部位不同分类治疗,右肾结石取志室为主,左肾结石取肓
目的探讨受体大鼠脾脏来源的Treg联合供体大鼠骨髓来源的imDC诱导大鼠同种异体原位肝移植免疫耐受的能力。方法DA→Lewis大鼠同种异体原位肝移植100例,分5组:急排组、mDC组、
尽管我国汽车金融业近年来得以迅猛发展,但我国汽车金融服务体系仍面临诸多现实问题:汽车金融服务功能整体弱化,专业汽车金融机构功能定位不明确,汽车金融制度安排不合理,汽车金融
随着我国国民经济的不断深化发展,煤化工产业作为国民经济中的一员,其在整个经济整体中所占的比重虽然不是很大,但是发展速度却十分迅猛,随之也造成了行业内部竞争日趋激烈。
正1991年德国统一后,柏林重新恢复德国首都的地位,为了重建首都、完善柏林作为欧洲中心城市的功能,以及城市的长远发展,德国联邦政府和地方议会于1992年通过了相关部门制定的
敦煌舞谱在中国古代乐舞史上占有重要的地位,敦煌舞谱亦是古代舞蹈活动、舞蹈文化记忆留存极为宝贵的文献资料。自1900年藏经洞的意外发现,到1909年伯希和敦煌藏经洞资料的公
经济新常态下为加强行政事业单位财务管理,要根据有关法律法规规章,加强单位会计核算和财务管理监督工作。加强制度建设;规范核算,确保单位会计事项真实完整;强化管理,严格执行各项
烟叶生产是烟草行业的重要基础,加强烟叶基础设施的建设与管理,才可以充分发挥其作用与功能。烟叶基础设施的建设与管理必须从管理机构、相关政策与制度等多方面入手,建设先
运用SWAT模型对水土保持、减少化肥农药施用量、减少表层土壤施肥量比例、退耕还林及综合措施对于不同非点源污染在灞河流域的消减效果进行了模拟。结果表明:(1)水保措施对N、P
目的:应用实时荧光定量PCR技术检测大鼠肌肉挫伤后骨骼肌金属硫蛋白1A、2AmRNA相对于管家基因核糖体蛋白L13mRNA的表达量,探寻其时序性表达规律,探讨其表达变化与损伤时间的关