论文部分内容阅读
随着用户信息需求的不断增长,需要目前的web检索系统能够为用户提供更加有效、更富个性化的检索服务。其中问答式信息检索作为一种能够接受用户自然语言提问,并返回问句直接答案的新型检索技术,成为了检索系统发展的必然趋势。然而目前的自动问答研究大多关注于对客观型问题的回答方法,对如何回答用户的主观观点型提问则鲜有涉及。对观点型提问的回答要求系统具有自动计算文本中蕴含的情感倾向的能力。
本文设计了一个回答用户观点型提问的问答式信息检索系统(Opinion QA系统)。研究目标在于:对web实体评价数据中所包含的评价内容进行自动识别与计算。并将该任务划分为两个子任务:1).识别文本中蕴含的情感倾向及强度;2).识别情感的评价对象。对于第一个子任务,利用了手工构建并自动扩展的情感倾向词语资源、语言表述模板,并将上述语言信息融入自动文本分类技术来开展研究。对于第二个子任务,利用机器学习的聚类技术与统计互信息方法来挖掘文本中的实体评价特征及其层次结构。
上述研究为观点型提问的解决提供了支持。通过对文本中蕴含的情感倾向进行分析,Opinion QA系统能够处理用户的观点型提问,并依据情感倾向的分析结果,为用户提供一个实体在web上的公众评价意见概要。为现有的检索系统服务提供重要补充。
本文的主要贡献包括:
·提出了一种新型的检索系统模式一观点型问答系统;
·构建了目前中文文本情感分析研究中所缺乏、却对研究的开展有重要基础性意义的语言资源,包括情感倾向词语资源和情感倾向表述模板资源;
·将自动文本分类技术应用于中文文本情感分析,将语言资源与机器学习的分类技术相结合,提出文本中情感倾向的识别方法;
·提出实体评价语料中评价特征的抽取及识别方法;
·针对观点型问答系统,提出了新型的系统效果评测方法。
作者通过对实体评价语料中情感倾向分析的研究与实践,为个性化web检索研究提供了新的研究视角,并为中文文本情感分析开拓了新的思路。在本项本项研究得到973课题“文本内容理解的数据基础(课题号:2004CB318102)”的支持。
研究中所积累的语言资源也可以为今后的文本情感分析研究提供基础支持。尽管本文以问答系统作为应用框架,并以受限领域语料作为实验对象,但本文提出的主要技术可以方便的运用和移植到其他类似应用系统中,例如:客户关系管理、自动产品推荐、有害信息过滤、社会舆情分析等等。具有广泛的应用前景。