汉语问答系统关键技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:naruia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展和广泛普及,使人们可以方便地从网络上获得信息。但是网络信息的爆炸性增长,又把人们淹没在信息的海洋里,准确、快速地获得有价值信息的难度大大地增加了。问答系统的出现旨在提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。   相对于英文问答技术研究的迅速发展以及实用英文问答系统的推出,从事中文问答技术研究的科研机构还不多,而且基本没有成型的中文问答系统问世。本文就是在这样的情况下针对汉语问答技术展开深入研究,主要工作包括:   [1]建立了一个具有一定规模并可扩充的汉语问答技术评测平台   论文在吸收英文、日文和多语言问答系统评测的成功经验基础上,研发了面向汉语问答系统的评测平台。平台的语料规模约为1.8GB;测试集现包括7050个汉语提问句;打分标准主要是借鉴TREC的评分标准。   [2]提出了汉语问答系统的提问分类体系及基于多特征的提问分类算法   论文从新的角度提出了一种提问分类体系,即提问的技术分类和提问的语义分类,并在此基础上实现了基于多特征的支持向量机提问分类算法。与英文层级分类体系相比,论文提出的汉语平行分类体系的特点是,既能为提问选择最合适的技术方案,也能确定提问答案的语义类型。实验数据表明,论文实现的分类算法能够获得较高性能的分类效果。   [3]设计了基于多特征的汉语命名实体识别算法   论文提出的基于多特征的汉语命名实体识别算法具有以下特点:①强调大颗粒度特征(词性特征)和小颗粒度特征(词形特征)的结合;②强调统计模型和专家知识的结合;③为准确刻画不同实体的内部特征,设计了多个细分类的实体模型以识别不同国家的人名、单字地名与多字地名、简称机构名和全称机构名。在不同测试语料上的实验结果表明:基于多特征的汉语命名实体识别模型要优于使用单一特征的命名实体识别模型。   [4]提出了基于主题语言模型的汉语问答系统句子检索算法   论文提出了基于主题语言模型的汉语问答系统句子检索算法,该算法利用问答系统中特有的提问分类信息(即提问的答案语义信息)对句子初检结果进行主题聚类,通过Aspect Model将句子所属的主题信息引入到语言模型中,从而获得对句子语言模型更精确的描述。对初检结果的主题聚类,本文提出“一个句子多个主题”和“一个句子一个主题”两种聚类算法。实验结果表明论文提出的方法可以有效地改善汉语问答系统的句子检索性能。   [5]提出了基于无监督学习的问答模式抽取技术   论文研究利用模式匹配技术处理由于自然语言的灵活性和多变性给问答技术带来的挑战,并提出了一种基于无监督学习算法的问答模式抽取技术,从互联网上抽取应用于汉语问答系统的答案模式。该算法可以避免有监督学习算法的不足,它无需用户提供<提问,答案>对作为训练集,只需用户提供每种提问类型两个或以上的提问实例,算法即可通过Web检索、主题划分、模式提取、垂直聚类和水平聚类等步骤完成该类型提问的答案模式的学习。实验结果表明,论文提出的无监督问答模式学习方法是有效的,基于模式匹配的答案抽取技术能够较大幅度地提高汉语问答系统的性能。
其他文献
本文主要讨论基于Word文档的文本数字水印技术。首先提出了一种中文文本的数字水印,该算法依据二次余数理论自适应的嵌入水印信息,在中文文本中实现了字移编码,使水印信息近似随
本文主要研究在不同的语音识别应用场合中,在不同语法约束条件下,置信度的一般计算方法和相关具体应用。本文将置信度计算归结为纯声学和带语言两个部分,对这两部分置信度的一般
焊缝识别主要使用了包括BP,ART神经网络,傅立叶变换,余弦变换,图像模板匹配等方法。本文论述了焊缝识别的一般方法和脉冲耦合神经网络(PCNN)的工作原理及工作方式;论述了图像模板
本文的主要工作围绕PROFIBUS-PA现场总线技术的本安仪表设计和应用展开,提出了用于本质安全领域的PROFIBUS-PA现场总线控制系统的解决方案,并在此基础上从事了仪表设计和所需软
在油田钻井时,随钻测量可在钻进过程中自动连续测量井底附近的有关参数并传输至地面,实时监测井下钻井、地层及安全等状况,为下一步施工设计提供依据。目前国外使用较多的是用钻
脑卒中和脊髓损伤是导致神经损伤患者肢体运动功能障碍的两大主要病因,近年来的患病率和致残率与日俱增。运动疗法作为康复治疗的重要组成部分,对神经损伤患者的康复起着不可替
本论文来源于某型高炮系统数据采集与分析处理系统项目。该系统用于采集并分析处理某型高炮系统的通讯数据,为火控系统提供重要的火控解算参数,进而改善该高炮系统的性能。
本文在介绍各种形式化验证技术的基础上,研究使用重写系统和归纳法相结合的方法对硬件电路的正确性进行验证,主要在以下方面取得了进展。 (1)论文用重写系统和归纳方法对基
近年来,随着在一级方程式赛车悬架系统、高性能摩托车转向控制系统、房屋减振系统等振动系统中的成功应用,惯容和惯容相关的研究问题已经受到了工业界和学术界的广泛关注.本文
分布估计算法(Estimation of distribution algorithms)是进化计算领域新兴的一类启发式随机优化算法。分布估计算法摒弃了遗传算法中的交叉、变异操作,而是通过建立解空间的