面向网络自媒体数据的苗头事件发现与分析研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:aheoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,网络自媒体在我国已广泛普及。据2016年微博用户发展报告统计,微博月活跃人数已达2.97亿,微博内容遍及社会生活的各个领域。因此,自媒体数据已成为网络舆情系统重要的数据来源,监测、分析自媒体数据中的舆论热点与发展确实成为舆情系统的关键所在。  事件是舆情系统关注的重点,苗头事件是可能发生的某个重大事件的前导事件,可以体现出重大事件发生前的征兆。发现苗头事件并展开分析可以帮助我们及时清晰地了解舆论热点及其发展趋势。而对一个事件来说,子话题可以体现其不同侧面,例如地震事件的子话题有地震详情、救援工作与灾后重建等。这些子话题既是从不同角度对事件的描述,也反映了公众舆论可能的关注热点。对子话题打标签既是对子话题的概括,也便于直观地了解子话题的核心含义。因此,发现苗头事件的子话题并生成相应的子话题标签可以帮助我们深入分析苗头事件。  传统事件发现方法大多基于分类或聚类的思路,所预测的事件也往往局限在某一个特定领域,而且十分依赖特征工程,这导致方法本身有很大的局限性,难以推广到其他事件。苗头事件发现作为舆情系统的关注重点,相较于其他事件,在类别、主题分布与情感倾向性上有其特殊之处,需要设计全新的事件发现算法。而且,现有的话题发现方法在挖掘事件内部的子话题时会受到大量背景词的干扰,导致子话题质量较差。另外,现有方法生成子话题标签时多采用无监督的抽取思路,很难保证标签的可理解性。针对以上困难,本文提出了针对苗头事件的子话题发现方法和子话题标签生成策略。本文的主要工作与具体创新点如下:  1)研究基于多通道卷积神经网络的苗头信息过滤模型DeepFilter,苗头信息是涉及苗头事件的一类特殊的自媒体信息,内容多与突发性事件、关乎社会民生的重大事件或政治敏感问题相关。过滤得到苗头信息有助于从中发现苗头事件。卷积神经网络可以捕捉文本的局部上下文特征,目前已经在文本分类问题上广泛应用。此外苗头信息有其自身的类别信息和情感倾向特点,本文的第一步工作将文本的局部语义信息和文档的全局信息相结合,实现苗头信息过滤。实验表明相对于传统方法,过滤准确率有明显提升。  2)提出一种基于流式聚类的事件发现算法EPass,singlepass聚类是一种常用的增量聚类方法,在此基础之上EPass融合了命名实体信息和关键词信息,实验表明EPass可以显著提高事件发现的效果。  3)研究基于主题模型的事件子话题发现方法,利用PLSA with BackgroundLanguage Model(PLSA-BLM)[1]可以有效去除背景词的干扰,在此基础上结合子话题合并和子话题关键词聚类的方法可以进一步提升子话题的发现效果。实验结果表明本文方法相对与传统的话题发现方法有明显提升。  4)设计基于外部知识库的子话题标签生成算法。借助外部知识库归纳的概念体系可以提升子话题标签的可理解程度,本算法采用有监督的思路借助外部知识库的概念体系为每个子话题自动生成标签,实验表明此方法可以达到较高的准确率。  
其他文献
该文阐述了缩略图数据模型并对使用缩略图数据模型进行视图的更新进行了算法研究.同样使用条件表表示关系视图,可以将视图更新问题转化为约束满足问题(CSPs),CSPs的解就是对
针对目前网络监控系统的不足,FAAD流异常自动检测网络监控系统在目前流行的网络监控软件的基础上增加了FAAD专家系统,管理员不用事先定义网络管理策略,这种网络监控软件就能
以分布式实时门吊培训仿真系统的研制为背景,围绕视景系统的三维场景建模、实时绘制与交互,着重研究了视景仿真中的面向对象的场景建模、模型的多层次细节简化与显示以及基于
资源分配问题在经济、管理等许多领域都占有非常重要的地位。如何充分利用有限的资源以最大化利润(Revenue)或者社会效益(Social Welfare)一直以来都是各个领域的资源提供者
类脑计算成为学术界和产业界热议话题,脑机融合及其一体化成为智能科学、人工智能发展的一个重要趋势。研究生物智能与机器智能深度融合并协同工作的新型智能系统,是当前人工智
消息传输服务协议栈在网络通信协议层与消息管理层中增加一个消息传输服务层,定义了基于XML的协议规范.消息传输服务层由端点层、解析层、管道层和查询层组成.端点层负责包装
需求工程是软件工程中不可缺少的一环,是保证软件质量、提高软件可靠性的关键。UML是面向对象技术一个重要应用,也是近代软件工程环境中对象分析和设计的重要工具。本文首先讨
该文借鉴了关系数据库中关系模式设计的一些优秀思想,提出了在XML应用中进行模式设计的一套解决思路.把XML模式设计的工作分成概念设计和逻辑设计两个阶段进行,在概念设计阶
国际互联网的快速发展导致了IPSEC技术和NAT技术的广泛应用.IPSEC技术能够为IP报文提供数据源身份验证,数据完整性检查和数据保密功能.NAT技术能有效的缓解目前国际互联网地
从上世纪末数字水印技术出现以来,大量的水印算法不断涌现,为了检验水印的性能,研究者还设计出了各种攻击算法.在对目前一些常用水印算法作了详细分析和评价之后,作者对其取