基于互联网的情感词库扩展与优化研究

论文部分内容阅读

随着网络科技的发展,互联网已经成为一种重要的咨询工具,但是面对海量的互联网数据,如何快速准确的挖掘观点数据成为一种挑战,而观点数据对于政府、企业和个人均具有非常重要的价值。正是这样的挑战与需求推动了情感分析的研究与发展。情感分析分为词汇级、句子级和篇章级的情感分析,其中词汇级别的情感分析是重要基础,本文以词汇级别的情感分析作为研究重点,基于网络背景研究情感词库的扩展和优化。首先,在通用情感词抽取方面本文提出了基于网络语料的词汇情感分类的方法,将情感词的抽取转化为词汇的情感分类问题,通过分析情感词特征,利用最大熵分类器对情感词分类,定义正、负、客观三种情感类别；利用搜索引擎检索获取词汇无标注语料,从大量的语料中抽取丰富的词汇特征；通过实验选择词汇情感分类的最佳特征组合。实验表明,选择前后词作为特征对分类最有效,该特征选择方式实质上包括了修饰和搭配两种语言现象,在最佳特征组合下的情感分类性能达到了95.9%的正确率。其次,在领域情感词扩展和优化方面,分别研究了情感词搭配抽取和倾向性词串抽取两部分内容。在情感词搭配抽取部分,本文提出了互信息框架和模板框架两种抽取框架,包括三种抽取方法,分别是基于互信息的搭配抽取、基于字符串模板的搭配抽取和基于句法树模板的搭配抽取,实验表明在较小规模的语料中,基于模板框架的情感词搭配抽取方法更加有效。最后是倾向性词串的抽取。在目前的研究中,情感表达的基本元素通常是单词,但在研究网络产品评价情感倾向性分析中,发现部分评价句中的评价表达基本元素是一个词串,所以本文将倾向性词串抽取作为研究的重点内容之一。本文采用句法子树生成词串,然后利用C-value值对候选词串进行粒度筛选,并提出了基于句子内部情感元素互斥假设的排斥过滤法,利用该方法提纯倾向性词串,最后通过基于网络标注语料和搜索引擎检索两种方式判断词串的倾向性。并通过实验分析了各方法的有效性和优缺点。

其他学术论文