论文部分内容阅读
随着论坛等互联网社区的蓬勃发展,越来越多用户参与到互联网的建设中来,向互联网贡献数据。这些数据中很大一部分是对人物和事件的评论,包含了用户的观点和态度。浏览这些信息能够帮助用户了解舆论大众对自己所关心事物的看法。互联网中的情感信息是海量的,很难依靠人工方法收集和整理。搜索引擎是人们获取信息的主要方式,但是搜索引擎关注的是事实相关的文档,忽略了文档中的情感信息。因此,本文将情感分析技术和搜索技术结合起来,当搜索引擎接入的检索串是实体时,以搜索引擎的检索结果为研究对象,分析包含实体的句子对实体的情感倾向。分析结果可以支撑情感检索、信息过滤等任务,具有很大的实用价值。本文中研究的实体包括数码产品、人物、机构和政策法规。首先,本文提出了实体相关句识别问题的解决方法。该方法采用SVM分类算法,使用实体到评价词语的依存句法路径等特征,从包含实体的句子中选取真正和实体相关的句子,即评价对象是实体的句子。该方法能够将相关句比例由不进行实体相关句识别时的77.5%提高到85.85%。然后,本文提出了基于上下文扩展的句子领域识别方法,该方法将包含实体的句子及其前后各两个句子看作一个整体,并用这个整体表示包含实体的句子,并对其进行分类。这种方法扩充了待分类句子的内容,一定程度上解决了数据稀疏问题。与直接对包含实体的句子进行分类的方法相比,该方法显著提高了分类的准确率,但是政策法规和机构的识别效果较差。通过分析发现,政策法规和机构的特征分布极其相似,这也造成了这两个类别识别性能较差。最后,本文对包含实体的句子进行了情感分类,将包含实体的句子分为褒义、贬义和客观3类。本文采用SVM分类算法,使用评价词语和unigram两种特征,并采用信息增益对unigram特征进行特征选择。实验结果表明,同时使用评价词语和unigram两种特征取得的效果比单独使用其中一种特征取得的效果好。另外,通过分析unigram特征维数对情感分类性能的影响,发现随着特征维数的增加分类准确率很快就达到了饱和,这也说明特征选择对句子级情感分类是极其必要的。