面向问答系统的情感倾向分析研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:wearetian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着用户信息需求的不断增长,需要目前的web检索系统能够为用户提供更加有效、更富个性化的检索服务。其中问答式信息检索作为一种能够接受用户自然语言提问,并返回问句直接答案的新型检索技术,成为了检索系统发展的必然趋势。然而目前的自动问答研究大多关注于对客观型问题的回答方法,对如何回答用户的主观观点型提问则鲜有涉及。对观点型提问的回答要求系统具有自动计算文本中蕴含的情感倾向的能力。 本文设计了一个回答用户观点型提问的问答式信息检索系统(Opinion QA系统)。研究目标在于:对web实体评价数据中所包含的评价内容进行自动识别与计算。并将该任务划分为两个子任务:1).识别文本中蕴含的情感倾向及强度;2).识别情感的评价对象。对于第一个子任务,利用了手工构建并自动扩展的情感倾向词语资源、语言表述模板,并将上述语言信息融入自动文本分类技术来开展研究。对于第二个子任务,利用机器学习的聚类技术与统计互信息方法来挖掘文本中的实体评价特征及其层次结构。 上述研究为观点型提问的解决提供了支持。通过对文本中蕴含的情感倾向进行分析,Opinion QA系统能够处理用户的观点型提问,并依据情感倾向的分析结果,为用户提供一个实体在web上的公众评价意见概要。为现有的检索系统服务提供重要补充。 本文的主要贡献包括: ·提出了一种新型的检索系统模式一观点型问答系统; ·构建了目前中文文本情感分析研究中所缺乏、却对研究的开展有重要基础性意义的语言资源,包括情感倾向词语资源和情感倾向表述模板资源; ·将自动文本分类技术应用于中文文本情感分析,将语言资源与机器学习的分类技术相结合,提出文本中情感倾向的识别方法; ·提出实体评价语料中评价特征的抽取及识别方法; ·针对观点型问答系统,提出了新型的系统效果评测方法。 作者通过对实体评价语料中情感倾向分析的研究与实践,为个性化web检索研究提供了新的研究视角,并为中文文本情感分析开拓了新的思路。在本项本项研究得到973课题“文本内容理解的数据基础(课题号:2004CB318102)”的支持。 研究中所积累的语言资源也可以为今后的文本情感分析研究提供基础支持。尽管本文以问答系统作为应用框架,并以受限领域语料作为实验对象,但本文提出的主要技术可以方便的运用和移植到其他类似应用系统中,例如:客户关系管理、自动产品推荐、有害信息过滤、社会舆情分析等等。具有广泛的应用前景。
其他文献
万维网产生以后,将遍布全球各地的计算机联系到一起,这些计算机中的数据资源组成的规模庞大的数据库,拥有了一台能够联网的计算机,就等于拥有了整个万维网上的所有资源,人们
无线传感器网络(Wireless Sensor Networks,WSNs)具有开放的环境、动态变化的拓扑结构和资源受限的节点,这些独特的网络特征使得其安全问题成为这一领域的研究热点和难点。本文
随着SoC设计规模和复杂性的不断增加,总线结构和互联已成为SoC设计的核心.SoC总线系统连接各个IP形成SoC的结构框架,是SoC能否正常、高效工作的关键因素之一.在众多总线结构
随着社会信息化程度的不断提高,越来越多的信息系统被应用到社会生活和工作的各个方面。这些信息系统需要更多的通信和交互,各系统需要共享相关数据,共同合作来完成特定任务。而
合成孔径雷达干涉测量(InSAR)是于20世纪60年代末发展起来的,它是以合成孔径雷达复数据提取的相位信息为信息源获取地表的三维信息和高程变化信息的一项技术。它将干涉测量技
全球导航卫星系统(GNSS)可以实现全天候、全球性与高精度的连续导航与定位,近些年发展非常迅速。随着GPS系统现代化计划的实施以及其他卫星导航与定位系统的建设与不断完善,
随着电子文档的数目爆炸性增长和互联网技术的发展,电子文档的应用逐渐丰富。这要求一种更加智能化的方式来帮助人们处理大量的电子文档,例如信息提取、检索、格式转换、版面重
面部表情自动分类在智能人机交互中发挥着极为重要的作用,是计算机视觉、图像处理、模式识别等领域的一个热门研究话题。 Gabor函数是唯一能够达到时频测不准关系下界的函
管理信息系统即MIS,在信息化建设不断完善的现代社会中普及程度不断提高。MIS作为现代社会新学科,跨越管理科学、系统科学、运筹学、统计学等,在这些科学的基础上,形成信息搜集和
现代社会,信息是人类宝贵的资源,以数据库为核心的信息系统在人们的生活工作中的作用越来越重要。因此,数据库技术得以成为计算机科学技术中发展最迅速的领域之一,它已成为计算