文本情感信息抽取关键技术研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:huihui1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的发展和普及,互联网用户已经从单纯的获取信息模式向创造互联网信息模式转变,实现了网站与用户的双向交流。因此,网络上产生了大量的主观性文本,这些文本包含了人们的各种感情和观点。如何利用计算机对这些海量的文本进行处理和分析成为研究者关注的热点,文本情感信息的抽取和分析在这样的背景下应运而生。它在用户评论分析与决策、舆情监控、信息预测等领域有着广阔的应用前景,近些年很多学者和机构都投入了研究。但是目前文本情感信息抽取研究还处于发展阶段,很多方法都不成熟。本课题围绕文本情感信息的抽取任务,在商品评论领域对其进行了深入的研究,研究内容如下:(1)评价对象抽取。在商品评论中,一个至关重要的信息就是评价对象。针对商品评论中评价对象的抽取任务,本文提出了一种领域无关的评价对象抽取方法,称之为M-Score算法。该算法思想源于点互信息算法,其最大的优点是具有领域无关性,便于领域移植。本文首先利用条件随机场模型进行候选评价对象的抽取,然后利用M-Score算法对候选评价对象进行领域相关性处理,最后对评价对象做进一步的筛选。实验中采用了不同领域的语料对该算法进行了验证,实验结果很好的证明了该算法的有效性。(2)情感评价单元抽取。本文针对情感评价单元<评价对象,评价词语>的抽取任务,提出了一种基于语义分析与依存句法分析相结合的情感评价单元抽取方法。该方法引入了四类语义特征和二十类句法分析依存模板。语义特征的引入弥补了依存模板的不完善性和句法分析的不稳定性的缺陷,句法分析又消除了词语语义歧义问题。采用语义特征和依存句法分析相结合的方法,能使抽取结果更加准确。实验结果验证了该方法的有效性。(3)情感词典构建。在评价对象抽取之后要对其情感倾向性进行分析。本文针对评价对象的倾向性分析任务,对现有的情感词典进行了必要的修正和补充,并对词语的相似度计算方法和极性强度计算规则做出了改进,构建了基于《知网》和点互信息的情感词典。本文利用构建的情感词典对修饰评价对象的评价短语进行了极性分析和极性强度的计算,并与现有情感词典进行对比,实验结果证明了该词典在准确率、召回率和F值三个评价指标方面均有不同程度的提高。
其他文献
随着互联网的普及,越来越多的系统支持用户通过URL来获取系统的服务,而每个URL对应的Web用户界面(Web User Interfaces,WUI)则是系统为用户提供的图形化前端界面。因此,对这种提供
自因特网之父麻省理工学院万维网协会主席蒂姆·伯纳斯·李在XML2000大会上提出了新一代的万维网(语义网)以来,语义网已取得了巨大的发展。本体已经被证明对描述领域知识很有
随着改革开放步伐的日益深入,融资难成为制约我国中小企业发展的主要因素和瓶颈。动产质押业务拓宽了企业融资渠道,有利于企业存货资产和资金周转。近年来该业务呈现迅猛发展的
网格是建立在Internet上的一种新型的信息技术基础设施,目的是无缝地集成广域资源来合作解决问题,实现计算资源、存储资源、通信资源、软件资源、信息资源、知识资源的全面共
随着计算机互联网的发展和广泛应用,网络安全特别是网络入侵问题变得越来越严重。因此,开展网络安全特别是入侵攻击和防范技术的研究,开发高效实用的入侵检测系统对计算机网络的
学位
无线Mesh网络(Wireless Mesh Networks,WMN)是一种速率高、覆盖广、扩展性强和投资低的新兴网络,它将成为拓展和加强无线宽带接入Internet的解决方案。但是,其业务流的波动变
随着Web在信息共享、电子商务和提供在线服务方面的广泛应用,许多的企业投入大量资金建立自己的网站用于发布信息、为自己的产品和服务作宣传、进行电子商务活动,它们急切需要
由于竞争的压力以及技术逐步成熟,越来越多的集团企业开始尝试通过电子化来提高其资金的使用效率。对集团企业来说,各分支机构由于业务等原因通常都是在不同商业银行开立各种账
随着现在大学校园的深入建设和校园内网络的广泛普及与应用,网络与信息安全的要求和保障已成为校园网建设的核心课题之一。然而校园网内各个应用系统拥有庞大的用户群,要有效解