信息距离理论及其在问答系统中的应用研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:chenyanqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算词与词、句与句等文本片段之间的相似度或相关性是自然语言问答系统的核心任务之一。不仅如此,相似度或相关性计算在信息提取、信息检索等很多领域也具有重要的意义。从根本上说,相似度或相似性计算都可以抽象成度量两个实体在某种意义下的距离。本文就集中于建立和完善能够计算对象间距离的统一理论——信息距离理论,并对各种情况下使用信息距离度量文本片段之间的相似度或相关性做出了深入探索,最后在此基础上设计和实现了自然语言问答原型系统QUANTA。本文的主要工作如下:·以传统的max型信息距离理论为基础,提出了基于Kolmogorov复杂性的min型信息距离度量。新的度量解决了传统信息距离在解决实际问题时遇到的部分匹配问题,三角不等式问题和密度问题。在正规化信息距离的普适性方面,我们证明了一系列定理,为传统理论中的遗留问题做出了确定性结论。最后,我们发展了基于条件模式的条件信息距离理论。·在信息距离理论的指导下,对词与词之间、句与句之间的相似性进行了深入研究。基于模式的条件信息距离相比传统信息距离可以提供更强的语义信息,据此我们设计了一套条件模式计算词之间的语义相似度。基于最大交迭原则和min型信息距离的原理,我们提出了估计条件Kolmogorov复杂性的算法,以计算句子与句子之间的相似性。·答案确认是问答系统中的关键环节之一。本文提出了基于条件信息距离的答案确认算法,利用条件信息距离的稳定性以及刻画对象之间相关度时的灵活性,将计算问题与答案相关性的问题转化成为计算问题的中心对象与答案之间关于特定条件模式的条件信息距离的问题。·采用自然语言处理、文本分类和信息检索领域的一系列技术,以信息距离理论为基础,设计并实现了事实型问题回答原型系统QUANTA。系统通过问题预处理、检索条目生成、文档/段落检索、备选答案生成和答案确认等五个模块回答自然语言提出的事实型问题。
其他文献
随着超级计算机规模的不断扩大,并行算法与并行机相结合的可扩展性研究日益得到重视,同时并行应用程序的可扩展性研究也愈为迫切。针对这种应用需求,本文对可扩展模型、可扩展性
为了实现汽车轻量化,汽车覆盖件正在使用铝合金材料逐步代替钢板材料,由于材料属性的影响,冲制铝合金材料制件的模具与冲制钢板材料的制件的模具在设计制造上存在一定的区别
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
“按照需要分配”是最理想的社会正义原则,但其实践意义在于基本需要的满足。公民资格作为正义的边界和在政治生活中的作用表明自身就是基本需要。公民资格具备独特的理论品格
利用FY3A卫星VIRR资料、微波湿度计资料和广东地面加密区域站降雨资料,分析了2010年5月6日广东大暴雨的云团特征,强降水区的微波亮温(水汽)垂直结构,进而初步总结了FY3A资料与
随着诸如手机、MP3、MP4、笔记本电脑等便携式个人设备的逐渐流行,以及近年来计算机技术、互联网技术以及新型大众化电子产品的高速发展,非挥发性存储器在半导体行业中扮演越
摘要:随着国内外煤炭行业的快速发展,国际化人才交流与科技合作日益增多,双语教学将是我国高等教育与国际接轨,迎接新世纪挑战及培养国际一流采矿人才的必然趋势。以中国矿业大学《现代采矿技术》(Modern Mining Technology)课程教学为例,分析采矿工程双语教学的现状,提出相对应的改进意见,积极优化探索采矿工程双语课程教学。  关键词:采矿工程;双语教学;优化探索  中图分类号:G642.
目的研究针刺对应穴结合超声波治疗狭窄性腱鞘炎治疗的疗效。方法通过对41例狭窄性腱鞘炎病例进行平均2疗程的针刺对应穴结合超声波治疗观察疗效。结果治愈29例,好转10例,未
随着便携式电子产品的快速发展,市场对不挥发存储器的需求急剧增长。作为目前主流的不挥发存储技术,闪存在商业上取得了巨大的成功,它被广泛地应用在分立式和嵌入式芯片中。
本文详细分析了四支点静不定称重系统的工作原理以及角差修正和用于重心测量的问题,并举实例进行解读。