论文部分内容阅读
互联网以其信息资源丰富、时效性强、覆盖面广的特点成为人们获取信息资源的主要方式。通过对话题发现与跟踪相关理论的研究,建立以话题为索引对信息进行梳理的方式,可以帮助普通用户获取感兴趣的信息,同时可以帮助政府、高校及相关事业单位及时获取网络上的舆情信息,便于维持网络安全,维护社会安定。针对论坛信息完善、用户参与度和活跃度高、覆盖范围广的特点,本文建立基于论坛的话题发现与跟踪模型。主要工作和创新点如下:首先,设计并实现了基于层级聚类算法的话题发现与跟踪模型,并将其成功应用到实际的舆情项目中。针对热点话题的发现,引入话题热度计算公式作为测度标准。其次,提出并实现基于可信关联规则的话题发现算法。针对传统层级聚类算法中存在的缺陷,提出基于可信关联规则的话题发现算法,并基于这种算法,发表EI会议论文《A practical approach to topic detection based on credible association rule mining》。改变传统话题发现方法中基于文档进行文本聚类的思路,通过直接对文档中的词项进行聚类,进行文本聚类。使用这种策略进行在线话题检测时,复杂度较低,且具有很好的聚类效果。通过实验发现,使用这种聚类策略,尤其在针对短文本聚类(如微博信息、论坛信息等)时,性能优于传统的基于文档进行聚类的方法。最后,设计校园舆情项目中的话题发现与跟踪算法模块,并使用基于可信关联规则的话题发现算法作为其核心算法。在实际运行过程.中,通过监测话题发现的性能,发现结果会产生一些垃圾话题信息,在原有对文档特征词进行极大团挖掘的基础上,提出基于极大准团的特征词挖掘算法。在实际应用中发现,使用该算法进行文本聚类和话题发现的效果在性能方面具有明显的提升。