论文部分内容阅读
目前,网络自媒体在我国已广泛普及。据2016年微博用户发展报告统计,微博月活跃人数已达2.97亿,微博内容遍及社会生活的各个领域。因此,自媒体数据已成为网络舆情系统重要的数据来源,监测、分析自媒体数据中的舆论热点与发展确实成为舆情系统的关键所在。 事件是舆情系统关注的重点,苗头事件是可能发生的某个重大事件的前导事件,可以体现出重大事件发生前的征兆。发现苗头事件并展开分析可以帮助我们及时清晰地了解舆论热点及其发展趋势。而对一个事件来说,子话题可以体现其不同侧面,例如地震事件的子话题有地震详情、救援工作与灾后重建等。这些子话题既是从不同角度对事件的描述,也反映了公众舆论可能的关注热点。对子话题打标签既是对子话题的概括,也便于直观地了解子话题的核心含义。因此,发现苗头事件的子话题并生成相应的子话题标签可以帮助我们深入分析苗头事件。 传统事件发现方法大多基于分类或聚类的思路,所预测的事件也往往局限在某一个特定领域,而且十分依赖特征工程,这导致方法本身有很大的局限性,难以推广到其他事件。苗头事件发现作为舆情系统的关注重点,相较于其他事件,在类别、主题分布与情感倾向性上有其特殊之处,需要设计全新的事件发现算法。而且,现有的话题发现方法在挖掘事件内部的子话题时会受到大量背景词的干扰,导致子话题质量较差。另外,现有方法生成子话题标签时多采用无监督的抽取思路,很难保证标签的可理解性。针对以上困难,本文提出了针对苗头事件的子话题发现方法和子话题标签生成策略。本文的主要工作与具体创新点如下: 1)研究基于多通道卷积神经网络的苗头信息过滤模型DeepFilter,苗头信息是涉及苗头事件的一类特殊的自媒体信息,内容多与突发性事件、关乎社会民生的重大事件或政治敏感问题相关。过滤得到苗头信息有助于从中发现苗头事件。卷积神经网络可以捕捉文本的局部上下文特征,目前已经在文本分类问题上广泛应用。此外苗头信息有其自身的类别信息和情感倾向特点,本文的第一步工作将文本的局部语义信息和文档的全局信息相结合,实现苗头信息过滤。实验表明相对于传统方法,过滤准确率有明显提升。 2)提出一种基于流式聚类的事件发现算法EPass,singlepass聚类是一种常用的增量聚类方法,在此基础之上EPass融合了命名实体信息和关键词信息,实验表明EPass可以显著提高事件发现的效果。 3)研究基于主题模型的事件子话题发现方法,利用PLSA with BackgroundLanguage Model(PLSA-BLM)[1]可以有效去除背景词的干扰,在此基础上结合子话题合并和子话题关键词聚类的方法可以进一步提升子话题的发现效果。实验结果表明本文方法相对与传统的话题发现方法有明显提升。 4)设计基于外部知识库的子话题标签生成算法。借助外部知识库归纳的概念体系可以提升子话题标签的可理解程度,本算法采用有监督的思路借助外部知识库的概念体系为每个子话题自动生成标签,实验表明此方法可以达到较高的准确率。