论文部分内容阅读
随着微博用户的不断增长,国外的Twitter和国内的新浪微博已经成为媒体和个人发布信息的重要平台。对于微博这种特殊的文本,通常小于140字,包含了丰富的社会化信息,且微博内容不仅包含话题文本,也包含其他无话题表征能力的冗余文本,传统的文本挖掘算法并不能很好的做微博话题的提取。本文结合中文词性标注和LDA(Latent Dirichlet Allocation)主题模型两种方法用于微博话题提取,使用增量聚类方法确定微博话题个数和微博聚类,运用中文词性标注可以很好的过滤掉微博文本中无话题表征能力的文本词语,运用LDA主题模型可以将文本信息表示在一个低维的主题空间之中,从语义上更好的挖掘微博话题。使用增量聚类方法可以有效的发现微博话题个数,无需预先在聚类方法中指定话题个数。实验表明相较于传统的文本分析分析方法,中文词性标注,LDA主题模型和增量聚类三者相结合能够提高话题发现的准确率本文主要完成了以下几项工作:(1)分析基于传统文本模型进行话题提取的方法,实验结果指出基于传统文本模型优势和不足。提出基于LDA主题模型进行微博话题检测和提取的方法。(2)基于LDA主题模型进行微博话题检测的过程中,发现文本预处理对于微博话题提取来说,至关重要。大量的微博中包含大量与话题无关的成分,干扰微博话题提取。提出在基于LDA主题模型进行微博话取与中文词性标注进行结合,可以有效的提高话题提取的精度和准确性。并且进行实验证实中文词性标注有助于提高话题提取的准确性。(3)分析传统话题提取中使用的聚类方法需要指定特定的话题个数的不足,从而使用增量聚类的方法single-pass这一聚类方法进行话题聚类,并且在single-pass算法的基础上提出批处理的思想对single-pass算法进行改进。并且通过实验对比,指出改进后的single-pass聚类算法能够有效发现话题的数目。