论文部分内容阅读
产品评论信息的意见抽取是一类与文本的情感分类相关的研究,是当前智能信息处理、网络信息挖掘中的研究热点。情感词的自动发现与意见抽取是这类研究中的关键技术。
本文在前人工作的基础上对情感词的自动发现与意见抽取技术进行了研究,主要结果与贡献如下:
(1)提出了基于双解词典的情感词自动发现方法SO-BL(Sentiment Orientation based on Bilingual Lexicon)。利用一个词典阵列与已知情感倾向的英文词表来预测中文词的情感倾向。实验证明SO-BL方法的准确率达到了93.29%。
(2)提出了基于HowNet的情感词自动发现方法SO-HN(Semiment Orientation based on HowNet)。其核心是用单个类别的种子集合抽取算法ESS(Extract Seed words for Single class of words)来扩展种子集合。ESS可通过一个种子词扩展出与该种子词情感倾向相关的种子集合,提高了情感词识别的范围。
(3)提出了基于共享模式的动词情感标注方法VSO-AS(Semantic Orientation of Verb based on the Model of Appearing Simultaneously),考虑了动词的特殊性,将其情感类标由原来的“正面/负面”调整到“对主语褒/对宾语褒/对主语贬/对宾语贬”。
(4)提出了一种新的意见抽取任务即意见实例抽取OIE(Opinion Instance Extraction)及其解决方法,即以特性实例为中心的意见抽取算法FC-OIE(Feature-centered Opinion Instance Extraction);提出基于位置线索的语义关系识别方法SAPPC(Semantic Association Recognition with Position Clue,),用于在FC-IOE中识别对象实例与特性实例之间的语义关联。
(5)本文将情感词自动发现和意见抽取技术应用于实际,提出并实现了产品评论信息的意见检索系统OSSCP(Opinion Search System for Comments of Products)。其目的是从网络评论中抽取产品评论信息的意见实例,帮助用户快速定位感兴趣的意见信息。