论文部分内容阅读
随着互联网短文本数据爆发式的增长,如何从短文本中找出人们关注的有价值的事件,即基于短文本的事件探测技术,成为学术研究领域的热点问题。而微博数据是短文本事件探测的典型数据源,含有丰富的人们日常生活信息。近年来,以食源性疾病为代表的食品安全问题备受人们的关注,常成为微博热点。本文利用微博数据,进行了食源性疾病事件探测的相关研究和实践。 基于微博数据的食源性疾病事件探测主要包括发现食源性疾病事件和食源性疾病事件时空信息。目前从微博数据中探测事件方法主要是利用与特定主题相关的微博进行聚类得到事件关键词;而发现食源性疾病事件时空信息的方法主要是利用微博用户在移动端,如手机的签到信息和个人注册信息。但是由于微博内容的多样性、稀疏性和碎片性,现有的事件探测方法使用的数据源单一且噪声较大,在时空信息的发现上粒度过大导致结果的准确性差。 针对上述几个问题,本文提出了新的基于微博数据的食源性疾病事件探测方法,主要工作和贡献如下所述: 1.在事件探测算法上,提出动态上下文窗口算法构建候选微博来进行事件探测,提高了事件探测的效率和精度。 2.提出利用微博内容发现特定事件地理位置信息的算法,提高了事件时空信息的获取精度。 本文提出了面向短文本数据挖掘的事件探测方法并应用于食源性疾病事件的自动探测中,较之以往的事件探测方法,扩大了数据来源,且时间和空间维度上的准确性得到显著提高。