论文部分内容阅读
随着社会化媒体的兴起,人们可以更频繁更便捷的与互联网互动,互联网的资源呈现爆炸式增长。丰富的互联网资源带给人们便捷的社交资源的同时也给人们带来信息冗余的困扰,为了解决以上问题本文进行了分布式话题检测方法研究,在提高话题检测准确率以及提高话题检测速度两方面展开研究。本文主要研究成果包括:首先,开展前期调研,研究了话题检测的起源、相关算法,实现原始Single-Pass话题检测算法,并进行相关研究。其次,由于进行Single-Pass话题检测以后算法能够得到比较高的精度,但是召回率比较低,提出二次检测(Double-Pass)话题检测算法,第一次检测以后再用Single-Pass算法对第一次检测的结果做二次检测,用第一次检测的结果指导二次检测,对某些簇合并,实验证明二次检测可以让算法的准确度有所提高。接着,为了进一步让簇信息加强,把前人运用于分类的CFC(Class FeatureCentroid)思想运用到话题检测中,在第一次检测以后用CFC思想调整簇权重,提出了CFC-DP算法,实验证明,改进后的算法较原始算法F值有所提高。再次,为了提高话题检测的速度,满足处理海量数据的需求,在Hadoop这一分布式框架上进行分布式计算,定义话题检测的任务分解以及合并操作,提出了基于Hadoop的分布式话题检测方法,实验证明,该分布式话题检测能维持稳定的话题检测精度、召回率及F值,并加速检测速度。最后,基于以上的研究,设计并实现了分布式话题检测系统,系统包括五个模块,分别是:数据读取前端、数据预处理、话题检测、分布式处理、话题保存于展示。