基于主题模型的评论数据挖掘

被引量 : 1次 | 上传用户:ujrcji54937
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的高速发展,给我们提供了丰富的在线交流和表达自己观点的渠道,如微博、在线新闻媒体、在线购物平台,通过这些渠道,大量的用户评论涌现了出来,这些用户评论中包含了用户对某些事物的观点,或者包含对产品性能的评价,人们通过查看这些内容,能够了解到对自己有益的信息,从而做出信息量非常高的有价值的决策。然而如何从海量的用户评论中挖掘出有价值的信息并不是一件容易的事情。评论数据挖掘为该难题提供了一条可行的研究路径。评论挖掘是一个涉及自然语言处理、机器学习、数据挖掘等技术的热门研究方向,它在舆情分析、互联网在线广告投放、推荐系统等领域有着广泛的应用。我们在本文中将对目前已经表现出了比较大的商业价值的产品评论挖掘,尤其是基于主题模型的评论挖掘给出了详细介绍。本文中所讲的评论挖掘,主要是完成两个任务:一是识别出每条评论语句的特征,再按产品特征对评论语料进行聚类,二是对每一条评论语句进行情感分析,即对用户观点进行情感极性识别,在本文中,不至于混淆的情况下,我们将两个任务简称为按特征聚类,情感分析。本文所使用的方法是基于贝叶斯理论的概率主题模型,它是一种对文本进行建模的生成模型,通过它我们可以发现文本背后隐含的主题。本文对概率主题模型的一般概念和主题模型所用的推理方法,如贝叶斯定理、变分推理等给出了介绍,并对文中使用的CMA模型给出了细致的研究,我们在最后使用CMA模型对手工采集的中文评论数据进行建模,然后通过对建模后的各隐含变量和各个参数值的分析,来达成产品情感分析和按特征对评论语料聚类的任务,并分别与使用最大熵模型对情感进行分析和使用余弦相似度对评论语料进行聚类的层次聚类的两种基准系统给出了对比分析。我们的实验表明CMA模型也能够成功地应用于中文评论挖掘,而且再次证明了主题模型的优势,但是由于中文分词和词性标记等其他因素的影响,我们实验的表现没有像处理英文数据那样好。最后,表述了自己对所有研究工作的总结,并对以后可能的研究内容进行了展望。
其他文献
2012年12月31日,世界首台220kV饱和铁心型超导限流器在国家电网石各庄变电站正式挂网运行。此项世界级的技术创新成果是在国家863计划支持下,由天津百利机械装备集团有限公司
铁路固定设施是铁路重要的组成部分,为提高铁路运输能力与运输质量,本文对铁路运输过程中主要固定设施的协调性进行分析,研究并提出了铁路固定设施协调性评价指标体系和评价
随着长江通航量的日益增大,水上交通事故率也越来越高。高效的应急资源调度是长江航运安全的重要保证,快速合理的调度可以显著提升应急救援的时效性和资源利用率。但是目前应急
新课程教学实施后,初中化学教育教学发生了明显的变化,课程体系的结构、内容、功能、实施、评价和管理等方面都发生了较大的变化。而作为化学启蒙教育的初中化学,更面临着新
本文主要从“五四”新文学的个性主义传统、泛政治化的文学传统、现代文学的抒情传统和现代文学的语言传统四个方面来考察汪曾祺的小说特质、文学观念与现代文学传统之间的联
沥青混凝土路面以其优良的路用性能已被广泛应用于公路建设。随着公路网的日趋完善,公路维修与重建已占据主导地位,其中废旧沥青混合料的再生利用日益受到重视。沥青因老化而变
杂种优势是生物界的普遍现象,目前,其遗传理论的发展远落后实践中所取得的成就,这就限制了杂种优势的进一步利用和预测。本文在论述杂种优势遗传理论研究现状的基础上,对今后的发
在当今,足球与世界各国的民族传统文化存在着不可分割的联系,在足球文化背景中,各国足球的技战术打法风格,都有着深刻的本民族的文化背景。从足球运动的发展与传统文化的关系来看
人民银行分支机构作为金融体系重要的组成部分,既有一般商业银行的风险属性,也有政府部门的行政属性,加强和改善基层人民银行中心支行的内部控制,对宏观货币政策有效执行具有重要
深海石油开发是国家十二五重点发展方向。随着采油深度的增加,更加可观的石油储量被发掘,水下生产设施的需求量也越来越大,这就对制造水下生产设施的企业带来了更多的市场机遇,同