论文部分内容阅读
当前的舆情分析系统一般都是针对一个行业或整个互联网的,其研究的广度过大导致深度不足。本项课题的目的是实现一种细粒度的舆情分析系统,可以对主题事件为单位的互联网舆情信息进行深度分析。通过本课题研究成果,可以对特定事件的舆情信息进行多维度的深入的分析,可以作为政府或企业的一些决策的建议。本文的研究方法主要是调研当前相关技术背景,分析不足并提出改善方案。在本文中对主题爬虫、命名实体识别、聚类技术和社会关系分析技术进行了重点研究。首先,通过对相关技术的研究,本文提出了基于站内搜索的分布式主题爬虫设计方案,提供了高效且易于使用的爬虫系统,该系统不再需要大量的配置种子链接,并且摒弃了传统的以链接为任务的分布式爬虫任务管理方法。然后,本文实现了基于CRF的命名实体识别算法,添加了一系列结果修正方法,可以对人名和机构名进行较高准确率的识别,并且实现了统计方法与规则词典的结合,大大提高了结果准确率。第三,本文提出了基于LDA降维的聚类分析算法,通过LDA模型进行降维可以提高程序处理效率。聚类算法中实现了改进后的K-MEANS算法,该算法降低了初始质心盲目选择带来的性能损失,可以较普通K-MEANS算法更高效的对文本信息进行聚类。最后本文实现了基于关联规则原理的社会关系分析,通过支持度和置信度两个属性对社会实体的相关度进行分析,通过该算法实现的社会实体关系挖掘模块可以较准确的识别事件相关网页中潜在的社会关系。通过对主题事件舆情分析系统的设计与实现,本文证实了此类舆情分析系统的存在价值,即利用此类舆情分析系统可以为政府或大型企业发现人们对特定主题事件的关注程度,及事件内部存在的一些隐藏的社会关系。同时通过对各个相关技术的研究提出了一系列的完善方案,对相关领域技术的研究具有一定的参考价值。