论文部分内容阅读
互联网技术的高速发展,给我们提供了丰富的在线交流和表达自己观点的渠道,如微博、在线新闻媒体、在线购物平台,通过这些渠道,大量的用户评论涌现了出来,这些用户评论中包含了用户对某些事物的观点,或者包含对产品性能的评价,人们通过查看这些内容,能够了解到对自己有益的信息,从而做出信息量非常高的有价值的决策。然而如何从海量的用户评论中挖掘出有价值的信息并不是一件容易的事情。评论数据挖掘为该难题提供了一条可行的研究路径。评论挖掘是一个涉及自然语言处理、机器学习、数据挖掘等技术的热门研究方向,它在舆情分析、互联网在线广告投放、推荐系统等领域有着广泛的应用。我们在本文中将对目前已经表现出了比较大的商业价值的产品评论挖掘,尤其是基于主题模型的评论挖掘给出了详细介绍。本文中所讲的评论挖掘,主要是完成两个任务:一是识别出每条评论语句的特征,再按产品特征对评论语料进行聚类,二是对每一条评论语句进行情感分析,即对用户观点进行情感极性识别,在本文中,不至于混淆的情况下,我们将两个任务简称为按特征聚类,情感分析。本文所使用的方法是基于贝叶斯理论的概率主题模型,它是一种对文本进行建模的生成模型,通过它我们可以发现文本背后隐含的主题。本文对概率主题模型的一般概念和主题模型所用的推理方法,如贝叶斯定理、变分推理等给出了介绍,并对文中使用的CMA模型给出了细致的研究,我们在最后使用CMA模型对手工采集的中文评论数据进行建模,然后通过对建模后的各隐含变量和各个参数值的分析,来达成产品情感分析和按特征对评论语料聚类的任务,并分别与使用最大熵模型对情感进行分析和使用余弦相似度对评论语料进行聚类的层次聚类的两种基准系统给出了对比分析。我们的实验表明CMA模型也能够成功地应用于中文评论挖掘,而且再次证明了主题模型的优势,但是由于中文分词和词性标记等其他因素的影响,我们实验的表现没有像处理英文数据那样好。最后,表述了自己对所有研究工作的总结,并对以后可能的研究内容进行了展望。