论文部分内容阅读
在Web2.0环境下,人们普遍感到,获得观点己经与获取信息同等重要,但要想从中获得体现价值的观点信息却变得越来越困难。究其原因在于:一是由于发表评论的人角度或目的不同,评论观点经常是正面和负面意见相混合,从中准确获取评论信息将花费很多时间和精力;二是由于以Web2.0应用为平台的民间舆论场的信息源受到较大的污染,网络评论中的这些主观信息良莠不齐,而以往采用的传统网络社会舆论分析技术手段(主要对象是网页和论坛)对动态性更强、结构更复杂的Web2.0网络应用处理能力有限,无法获取这些深层社会舆论信息要素,也无法甄别信息真伪,影响了网络评论信息分析效果。鉴于此,开展对于Web2.0的网络评论信息的分析研究,有助于我们更好地发掘蕴含在网络评论背后的观点信息,为决策和对未来的预测提供更加深层和丰富的信息支持。本论文以Web2.0应用为平台的公众舆论场的信息源为逻辑起点,从主题聚类视角对网络评论信息分析模式、观点挖掘的理论、技术、方法等内容进行梳理,在此基础之上综合运用文本挖掘、观点挖掘、LDA主题模型等理论和方法进行观点挖掘的应用性研究。论文所做的主要工作包括以下4个方面:(1)从产品评论和LDA算法以及观点挖掘三个角度对选题的国内外研究现状、热点和前沿以及应用进展进行了较为全面的分析与综述。梳理、分析网络评论观点挖掘的相关理论与方法,为本研究工作提供理论依据和技术支撑;(2)以评论语句特征-情感关联关系发现方式作为评论文本的观点挖掘基础;(3)针对网络评论观点挖掘的需求,构建网络评论观点挖掘系统的模型;挖掘文本集中的主题,并基于此对主题的重要度进行计算,从而获取面向主题的主要观点信息。(4)以豆瓣电影平台上的的影视评论为例,基于Java语言开发平台选择近期热门电影《荒野猎人》作为评论数据来源,运用本研究提出的方法和模式进行基于主题聚类的观点挖掘实证分析。