实体检索结果倾向性分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:atianjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着论坛等互联网社区的蓬勃发展,越来越多用户参与到互联网的建设中来,向互联网贡献数据。这些数据中很大一部分是对人物和事件的评论,包含了用户的观点和态度。浏览这些信息能够帮助用户了解舆论大众对自己所关心事物的看法。互联网中的情感信息是海量的,很难依靠人工方法收集和整理。搜索引擎是人们获取信息的主要方式,但是搜索引擎关注的是事实相关的文档,忽略了文档中的情感信息。因此,本文将情感分析技术和搜索技术结合起来,当搜索引擎接入的检索串是实体时,以搜索引擎的检索结果为研究对象,分析包含实体的句子对实体的情感倾向。分析结果可以支撑情感检索、信息过滤等任务,具有很大的实用价值。本文中研究的实体包括数码产品、人物、机构和政策法规。首先,本文提出了实体相关句识别问题的解决方法。该方法采用SVM分类算法,使用实体到评价词语的依存句法路径等特征,从包含实体的句子中选取真正和实体相关的句子,即评价对象是实体的句子。该方法能够将相关句比例由不进行实体相关句识别时的77.5%提高到85.85%。然后,本文提出了基于上下文扩展的句子领域识别方法,该方法将包含实体的句子及其前后各两个句子看作一个整体,并用这个整体表示包含实体的句子,并对其进行分类。这种方法扩充了待分类句子的内容,一定程度上解决了数据稀疏问题。与直接对包含实体的句子进行分类的方法相比,该方法显著提高了分类的准确率,但是政策法规和机构的识别效果较差。通过分析发现,政策法规和机构的特征分布极其相似,这也造成了这两个类别识别性能较差。最后,本文对包含实体的句子进行了情感分类,将包含实体的句子分为褒义、贬义和客观3类。本文采用SVM分类算法,使用评价词语和unigram两种特征,并采用信息增益对unigram特征进行特征选择。实验结果表明,同时使用评价词语和unigram两种特征取得的效果比单独使用其中一种特征取得的效果好。另外,通过分析unigram特征维数对情感分类性能的影响,发现随着特征维数的增加分类准确率很快就达到了饱和,这也说明特征选择对句子级情感分类是极其必要的。
其他文献
糖尿病视网膜病变是糖尿病严重的并发症,是成年人视力下降甚至致盲的主要原因之一。硬性渗出物是糖尿病视网膜病变的早期特征之一,因此对硬性渗出物进行早期的普查,能有效防止视
句法分析是自然语言处理研究中的关键技术之一,其任务是根据给定的语法,自动推导出句子的语法结构。它对于机器翻译、信息检索、信息抽取和语义分析等自然语言处理系统都有着
参数估计是现代信号处理的一个重要的研究方向,并且在雷达、声纳、生物医学、通信等领域有着广泛的应用,因而对参数估计方法的研究有着重要的理论和应用价值。本文针对高斯白噪
近年来关于软件定义网络(Software Defined Network,SDN)的研究已成为未来网络的热点课题。控制平面负载均衡研究作为SDN中一项基础而又重要的课题,旨在有效提高控制平面可扩
群体行为分析与理解作为一个复杂、多样、具有挑战的领域近年来吸引了很多研究机构的关注。在视频监控、人机交互、多媒体内容理解等方面,群体行为分析都是重要的组成部分之一
随着现代社会中的运输服务市场的不断发展和扩大,并在现代商业中占有重要地位。各运输公司均需要一些软件来实现运输,需求和客户的管理。本文主要目标是创建一个结合运输管理
纸币图像分析的目的就是通过对纸币图像进行分析和理解,来高可靠性的对纸币进行分类、有效的检测出纸币的真伪、新旧和残缺,保证市场上流通纸币的安全性和整洁性。很多国家对市
随着人们在日常生活中对计算机软件的需求不断增长,计算机软件系统的规模和复杂度也在不断的攀升,而对大规模复杂系统的测试和维护等需求超出了目前的测试与维护技术,因此也就出
随着互联网的迅速发展,网络规模急剧增大,结构日趋复杂,大规模网络已经成为网络研究的热点。网络模拟能够研究复杂网络行为,评价尚未实施的网络协议,具有成本低,易使用、模拟真实性
随着互联网的迅速发展,各行业信息化程度不断提高,越来越多的信息积累在网络上,如何在浩瀚的信息中寻找到有用的信息,一直是领域研究的热点。本文的研究背景是陕西省教育厅专项科