论文部分内容阅读
随着互联网的发展和普及,全世界每天都会产生大量的网络信息,为了能够从繁复的网络信息中及时获取热门话题信息及话题的后续发展趋势,话题检测与跟踪技术被提出用于对海量互联网信息中的未知话题进行识别和对已知话题进行持续跟踪。但是随着网络数据的爆炸式增长,传统的话题检测与跟踪技术在面对大规模数据时出现了性能瓶颈。为了提高话题检测与跟踪技术在面对大规模数据时的准确性和效率,本论文研究基于Spark大数据处理平台的并行化话题检测与跟踪方法。本论文的主要内容如下:(1)提出基于单遍聚类算法的并行化话题检测方法。该方法分为文本表示和文本聚类两个主要步骤。文本表示方面,针对文本向量化的特性进行并行化设计,提出使用稀疏向量进行文本特征表示来减少内存占用和计算开销,使用基于位置的特征权重来凸显文本主题信息。文本聚类方面,首先将传统单遍聚类算法的文本相似度计算进行尺度变换改进来改善聚类效果,再将改进后的该算法进行并行化设计以提高计算效率。结合文本表示和文本聚类的改进,给出了并行化话题检测方法的计算流程和基于Spark平台的计算步骤。通过对人工标注数据和各类大规模数据进行实验,验证了该方法具有良好的准确性和并行化性能。(2)提出基于频繁词集的并行化话题跟踪方法。该方法首先将待追踪数据通过本论文提出的并行化话题检测方法进行聚类得到话题文本集,然后使用频繁模式增长算法挖掘各话题文本集的频繁词集来表示话题,再与已有数据进行相似度比较确定待追踪数据的话题归属。该方法利用词集来表示话题中的多个文本可以大大减少相似度计算开销,提出基于EMD(Earth Mover’s Distance)和Word2vec词向量模型的余弦相似度计算方法可以提高词集间相似度比较的准确性。本论文基于Spark平台实现了该话题跟踪方法,通过在相关语料上进行测试,验证了该方法可以准确且高效地进行话题跟踪。