基于短文本的事件探测关键技术研究——以食源性疾病事件探测为例

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hahahuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网短文本数据爆发式的增长,如何从短文本中找出人们关注的有价值的事件,即基于短文本的事件探测技术,成为学术研究领域的热点问题。而微博数据是短文本事件探测的典型数据源,含有丰富的人们日常生活信息。近年来,以食源性疾病为代表的食品安全问题备受人们的关注,常成为微博热点。本文利用微博数据,进行了食源性疾病事件探测的相关研究和实践。  基于微博数据的食源性疾病事件探测主要包括发现食源性疾病事件和食源性疾病事件时空信息。目前从微博数据中探测事件方法主要是利用与特定主题相关的微博进行聚类得到事件关键词;而发现食源性疾病事件时空信息的方法主要是利用微博用户在移动端,如手机的签到信息和个人注册信息。但是由于微博内容的多样性、稀疏性和碎片性,现有的事件探测方法使用的数据源单一且噪声较大,在时空信息的发现上粒度过大导致结果的准确性差。  针对上述几个问题,本文提出了新的基于微博数据的食源性疾病事件探测方法,主要工作和贡献如下所述:  1.在事件探测算法上,提出动态上下文窗口算法构建候选微博来进行事件探测,提高了事件探测的效率和精度。  2.提出利用微博内容发现特定事件地理位置信息的算法,提高了事件时空信息的获取精度。  本文提出了面向短文本数据挖掘的事件探测方法并应用于食源性疾病事件的自动探测中,较之以往的事件探测方法,扩大了数据来源,且时间和空间维度上的准确性得到显著提高。
其他文献
随着企业内以及互联网上电子文档的不断增多,用户亟需有效的检索方式从海量文本信息中快速获取所需的信息。文档检索和文档摘要是信息检索领域中两个基本并且相关的问题,两者结
电子商务是指基于广泛普及的互联网的商务活动。商务活动、金融活动等相关活动等都在网上进行,交易的双方基本上不需要碰面,即可完成一系列商务商业活动。  近年来,由于我国网
基于内容的图像检索(CBIR)系统突破了传统的基于字符表达式检索的局限,用户可通过测览选择示例或自己绘制图形来查询,能从大量分布式数据库中快速检索到有关图像。CBIR数据库系
生物识别技术是根据人体的自身所固有的生物或者行动特征来进行身份识别,如:声音识别、指纹识别、人脸识别、视网膜识别等等。主要应用领域有:银行、海关、公安、电子商务、
Motif识别算法及相应并行算法的研究和优化改进是国家自然科学基金重点项目“当代并行机的并行算法应用基础研究”的主要研究内容之一,寻找motif对于生物信息学的基因表达有着
随着现代气象技术的快速发展,气象数据达到海量规模,合理的管理和组织气象数据是提高气象预报准确率和灾害天气预警能力的关键。近年来,为了解决传统的气象预报方法在计算性能和
通信网络地理信息集成系统以一个省为单位,管理全省的电信通信管线网络。城市的分布范围一般较广,所有的通信设备和通信线路由电信局共享。因此,采用客户机/服务器的体系结构。服
Web服务是一种自描述、自包含和松耦合的计算模式,它提供了一种新的Web应用模型,具有平台和语言无关的特性。随着面向服务架构的研究与应用,越来越多的Web应用和业务流程以Web服
现有传统网络已逐渐无法满足实际业务的需求,软件定义网络(Software-Defined Networking,SDN)的提出,不仅仅是一种革新的理念,它更是一种顺应时代需求而自然孕育的产物。控制转发
异构数据的集成一直都是网络数据通信、信息共享的热点研究问题。数据的异构可分为四个层次:结构异构、语法异构、系统异构和语义异构。如何有效屏蔽或消除数据源不同层次上