网络评论情感分类与观点抽取技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:aulxbdmmydb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,网络己成为人们获取信息的重要来源,越来越多的网民通过各种渠道发表对社会事件、公众人物、产品等的意见和评论。通过分析和挖掘这些海量的评论资源,我们可以识别用户评论的情感倾向性,从而更好的了解用户的消费习惯,判断人们对于热点话题的态度以及分析舆情的趋势走向,情感分类问题的研究不论对于政府、企业还是个人都具有十分重要的意义。本文对中文网络评论情感分类与观点抽取技术进行研究,包括:词汇相似度计算方法比较研究、基于机器学习的情感分类技术比较研究、基于语义和机器学习的二阶段情感分类研究、基于语义的观点抽取方法研究,主要研究内容如下:(1)在分析传统的词汇相似度算法的基础上提出利用一种基于知网改进的词汇相似度算法对情感词进行倾向性计算,该方法能很好的识别未登录词,从而极大提高了词汇相似度计算的准确性,最终能够计算用户情感词的情感极值以及划分属性特征词的属性类别。(2)在机器学习方法中,对于NB、KNN、SVM这三种分类算法,分别进行改变单一变量的实验,包括:改变特征选择方法、改变权重计算方法和改变特征提取个数,从而得到每种分类算法关于特征选择、权重计算和特征提取个数的最佳分类方案。(3)为了克服语义词典的不完备性以及机器学习方法需要庞大的人工标注训练集的问题,本文提出了一种基于二阶段的情感分类方法。对于测试数据集,先利用基于语义的方法对全部文本进行情感打分、排名,通过设置文档筛选比,将情感倾向明显的文本作为第二阶段已划分类别的训练集,将情感倾向不明显的文本作为第二阶段未划分类别的测试集,然后再用机器学习的方法,利用每种分类算法的最佳分类方案进行实验,结果证明了基于二阶段情感分类方法的有效性。(4)利用基于语义的方法对评论文本进行情感分类与观点抽取。首先,构建基础情感词典、用户词典、程度副词词典、否定词词典、动态情感词典等语义词典,然后借助词汇相似度算法,构建用户情感词典和属性特征词典,根据各个词之间的关系以及语法结构构建一般的语义规则及其它特殊处理规则。对于测试数据集,先计算短语的情感倾向值,再通过累加求和的方式判断整个评论的最终情感倾向以及各观点属性的情感倾向。实验证明该方法具有较高的分类精度,抽取的结果也与实际情况相符合,具有很大的应用价值。
其他文献
吾思同志: 我是一位刚走上社会、参加工作不久的青年。前阶段参加抗洪抢险,看到关键时刻冲在头里的都是共产党员,我感到做一名共产党员很光荣。回单位后我写了一份申请书。
1 马俊仁,一个行高于众的传奇式人物;“马家军”,一个木秀于林的神秘集体。在田径场,在商海里,马俊仁都是个每时每刻都想去追赶一艘满帆快船的人,他在田径场耕耘让举世震惊,
基于还原论思想的武器装备论证思维方式侧重于单个装备系统的战技指标分析,即通过静态构造系统框架,采用自上而下或自底向上的方法逐层分解。传统的武器装备体系结构论证方法
教育与产业衔接的困难是国内现代教育不可回避的问题,创意设计教育与创意产业供求不配套更是显露无疑。所以对高校创意设计课程体系进行优化,可以解决高校创意设计类专业对原
反复打磨,数易其稿。我和刘戈、范廷僚采写的《寻找“板车精神”——鄢陵县豫剧团坚持送戏下乡记事》,在2000年12月2日《许昌日报》一版刊出后,便在河南、在全国产生了很好的
商品缺货现象指消费者无法在预定货架找到所需商品,而该商品又包含在零售商的商品目录内的状况.在国内零售业中通常也被称作"断货".在西方发达国家,缺货问题和缺货研究一直是
该文运用管理学、文化学、教育学的知识和文献法、对比法、调查分析法等研究方法,研究分析了大学形象的内涵和构建理论.首先,该文研究了大学形象的含义、特征及结构,并分析了
期刊
网络是由大量相互作用、相关关系的网络单元组成的。这些网络组成单元往往是异质性的,不同异质性的网络单元在网络中承担着不同的功能,具有不同的抗毁性。异质网络抗毁性研究
江苏省阜宁县委注重在流动党员中发挥五种作用。一是“宣传员”作用。在改革开放和经济建设中,随时会出现新问题,这就需要流动党员做好流动人员的思想工作,积极地宣传党的路