论文部分内容阅读
互联网的迅猛发展和广泛普及,使人们可以方便地从网络上获得信息。但是网络信息的爆炸性增长,又把人们淹没在信息的海洋里,准确、快速地获得有价值信息的难度大大地增加了。问答系统的出现旨在提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。
相对于英文问答技术研究的迅速发展以及实用英文问答系统的推出,从事中文问答技术研究的科研机构还不多,而且基本没有成型的中文问答系统问世。本文就是在这样的情况下针对汉语问答技术展开深入研究,主要工作包括:
[1]建立了一个具有一定规模并可扩充的汉语问答技术评测平台
论文在吸收英文、日文和多语言问答系统评测的成功经验基础上,研发了面向汉语问答系统的评测平台。平台的语料规模约为1.8GB;测试集现包括7050个汉语提问句;打分标准主要是借鉴TREC的评分标准。
[2]提出了汉语问答系统的提问分类体系及基于多特征的提问分类算法
论文从新的角度提出了一种提问分类体系,即提问的技术分类和提问的语义分类,并在此基础上实现了基于多特征的支持向量机提问分类算法。与英文层级分类体系相比,论文提出的汉语平行分类体系的特点是,既能为提问选择最合适的技术方案,也能确定提问答案的语义类型。实验数据表明,论文实现的分类算法能够获得较高性能的分类效果。
[3]设计了基于多特征的汉语命名实体识别算法
论文提出的基于多特征的汉语命名实体识别算法具有以下特点:①强调大颗粒度特征(词性特征)和小颗粒度特征(词形特征)的结合;②强调统计模型和专家知识的结合;③为准确刻画不同实体的内部特征,设计了多个细分类的实体模型以识别不同国家的人名、单字地名与多字地名、简称机构名和全称机构名。在不同测试语料上的实验结果表明:基于多特征的汉语命名实体识别模型要优于使用单一特征的命名实体识别模型。
[4]提出了基于主题语言模型的汉语问答系统句子检索算法
论文提出了基于主题语言模型的汉语问答系统句子检索算法,该算法利用问答系统中特有的提问分类信息(即提问的答案语义信息)对句子初检结果进行主题聚类,通过Aspect Model将句子所属的主题信息引入到语言模型中,从而获得对句子语言模型更精确的描述。对初检结果的主题聚类,本文提出“一个句子多个主题”和“一个句子一个主题”两种聚类算法。实验结果表明论文提出的方法可以有效地改善汉语问答系统的句子检索性能。
[5]提出了基于无监督学习的问答模式抽取技术
论文研究利用模式匹配技术处理由于自然语言的灵活性和多变性给问答技术带来的挑战,并提出了一种基于无监督学习算法的问答模式抽取技术,从互联网上抽取应用于汉语问答系统的答案模式。该算法可以避免有监督学习算法的不足,它无需用户提供<提问,答案>对作为训练集,只需用户提供每种提问类型两个或以上的提问实例,算法即可通过Web检索、主题划分、模式提取、垂直聚类和水平聚类等步骤完成该类型提问的答案模式的学习。实验结果表明,论文提出的无监督问答模式学习方法是有效的,基于模式匹配的答案抽取技术能够较大幅度地提高汉语问答系统的性能。