评价对象识别模型与方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dr404070578
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,电子商务成为人们日常生活中越来越不可缺少的一部分,随之而来的是用户意见和评论数据量的飞速增长。这些评论中包含了用户对某一领域相关功能、属性和物品等的各种评价信息。有效地利用这些评论信息对于改善产品质量、了解消费者的真实需求都有很大的帮助,这也就促使评价对象识别技术的产生和发展。评论信息中的评价对象就是观点持有者表达情感的目标实体,通常由一个或多个单词组成。评价对象识别就是在给定的商品评论中准确地提取真实的评价实体。从方法的角度,评价对象识别方法可以分为有监督学习,无监督学习和半监督学习;从应用的角度,评价对象识别可以分为单领域问题和跨领域问题。本文将对单领域评价对象识别问题的模型与方法进行研究,通过对比各模型与方法的试验结果,分析各模型与方法的优缺点。本文的主要研究内容可以归纳为以下三点:第一,基于无监督学习的评价对象识别方法。首先本文采用了数据挖掘技术中的关联规则挖掘方法提取出语料库中最常出现的名词短语作为候选对象,再根据词语的语义相关度进行进一步的过滤,得出语句中的评价对象的候选集合。在此基础上,本文采用一种基于句法分析树和二次传播算法的评价对象识别方法,分别用以识别名词短语构成的评价对象和出现频率较低的评价对象。第二,基于时序模型的评价对象识别方法。由于评论信息是一种上下文相关的单词序列,采用时序模型可以有效地利用上下文信息,增加评价对象识别的准确性。本文提取了单词层面特征、句法层面特征以及外部语料特征等作为模型的输入,使用条件随机场模型学习这些特征之间的相互关系。实验证明,特征组合对结果有着很大的影响。在给定合适特征的条件下,时序模型可以取得非常优异的结果。第三,基于循环神经网络的评价对象识别。循环神经网络是一种端对端的模型,可以省去繁琐的预处理过程和特征提取过程。本文对比几种常见的循环神经网络模型在评价对象识别任务上的表现,分析循环神经网络在该任务上的优势与不足。针对循环神经网络不能有效地获取输出标签间的相互依赖关系的问题,本文还提出了一种新型的循环神经网络:输出感知循环神经网络。实验证明输出感知循环神经网络不仅在效果上好于其他循环神经网络,而且有着更快的收敛速度。
其他文献
南美白对虾是我国重要的经济类养殖虾种,但由于大多数养殖户没有进行过专业的养殖知识学习,并且缺乏专业的培训与指导,造成他们对疾病的发生规律认识不够深刻。加上养殖户大都比
学位
随着人们生活水平的提高,饮食健康成为大众关心的焦点。科学合理的饮食有利于身体健康,同时对疾病的治疗有着非常重要的作用。由于国内营养师匮乏,人们需要采取一种有效方式
现在信息技术(IT)在推动企业成功方面比以往任何时候都发挥着更大的作用。由于业务需求的变化,标准的流程跨企业边界并且变得更加复杂。IT部门必须找到一个符合成本效益的方式利用和扩展现有的系统,以支持新的业务需求。组织机构应允许商业实体之间进行灵活而松耦合的集成与通信。紧耦合的应用应转变为灵活的、可重复使用的未来系统的构建模块。业务上的变化要求组织机构根据必要的新解决方案来重新架构它们的IT基础设施。
心跳机制是高可用集群的基础技术。人们提出了很多的模型和算法,并且得到了广泛的应用,如心跳环机制,加速心跳协议,基于概率统计模型等,但这些模型都各有自己的优缺点。目前
本课题来源于国家863计划项目——语言类问题求解和答案生成关键技术及系统。该项目具体目标是解决语言类问题,即高考语文题。其中,基础语言类问题主要分为三种:字级别,词级
输电线路距离长,穿越的地域广阔,而且各地域的气候条件复杂多变,运行时容易发生故障。绝缘子作为输电线路的重要部件,易受运行环境因素影响而发生异常,严重威胁着输电线路的
20世纪90年代以来,教育界出现了以信息技术的广泛应用为特征的发展趋势,国内学者称之为教育信息化。如今教育的信息化已成为当前教育发展的重点,但是目前教育信息系统的设计
随着计算机网络的迅猛发展以及人类社会信息化改革的不断深化,人们对计算机网络的需求也在不断地增加。由于下一代网络的相关技术仍在热烈讨论之中,对于因业务扩展急需提升计
洗煤加工作为对煤炭进行合理分类并保障煤炭质量的重要环节,提高其工作效率已成为煤质研究工作的热点。目前大多数煤质信息的处理还处于半手工状态,效率低且容易出错,难以满
WiMAX(Worldwide Interoperability for Microwave Access,全球微波接入互操作)在2007年成为3G标准之一,是一种基于IEEE802.16标准的宽带无线接入城域网技术。由于其具备低成本