基于问题模式分类的自动问答技术研究与应用

被引量 : 0次 | 上传用户:danxiaoni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于FAQ库的特定域自动问答系统由于相对于开放域自动问答系统更具实用性而成为自然语言处理领域的研究热点,而其中最关键的技术是问句相似度计算。在特定领域中,用户的提问可以根据其特点划分为两类:一类是以询问领域概念、实体定义等为目的,特点为结构简单且大多包含领域专有词语;另一类是先描述提问背景并在此基础上提出问题,特点为情景的相似度计算结果很大程度上影响到整个问题相似度计算的结果并且情景中很少包含领域专有词语。而当前相关研究对这两类问题多采用相同的相似度计算方法,因此计算效果不够理想。本文针对这种情况,提出一种根据问题特点划分问题模式的新方法,并在此基础上,对不同类问题提出相应的针对性解决方案,以进一步提高面向特定域问答系统的回答准确率和运行效率。本文的主要研究内容包括:首先,本文根据面向特定领域中的用户问题特点,将问题划分为两种模式:简洁模式和情景模式。并在此基础上提出了一种基于规则的问题模式判别算法,算法主要根据用户问题中包含的句段数和疑问词或疑问句特征词出现的位置生成用户问题特征向量,并根据此向量来判别问题模式,为后续问句相似度计算提供了基础。其次,简洁模式问题具有结构简单并包含领域专有词语的特点,由于现有的句子相似度计算方法大都基于分词技术,而领域专有词语不能被正确切分以致影响计算精度。为此本文提出了一种新的计算方法,本方法不需要分词而是通过获取参与计算的两个句子中的最长公共子串集合并在此基础上进行相似度计算。再次,本文针对情景的相似度计算对于情景模式问题的相似度计算具有重要作用的特点,提出了根据用户问题特征向量进行情景和问题的分离方法,另外为了同时兼顾到计算精确度和实用性,设计了一种基于倒排索引的改进布尔模型检索方法并与《同义词词林》语义词典相结合进行情景相似度计算,最后将情景相似度和问题相似度相结合来评估情景模式问题之间的相似度。最后,本文使用从福建省国税局在线咨询系统收集的税务问题语料对本文所提出的一系列算法进行验证,实验结果表明,本文提出的问句相似度算法在处理含有领域专有词汇的问题比基于分词的算法效果更好,另外本文使用倒排索引结合《同义词词林》的计算方法相比基于《知网》语义词典的计算方法在保证了计算精确度的同时复杂度更低且易于实现。
其他文献
目的:观察滋肾养肝健脾法治疗原发性干燥综合征的临床疗效。方法:将68例患者随机分为对照组(32例)和治疗组(36例),对照组予以羟氯喹,治疗组予羟氯喹和滋肾养肝健脾中药汤剂,
本文简要论述了地理信息技术在公安工作中的重要作用,分析了国内该领域的发展与应用现状,并重点就开展警用地理信息系统建设需要解决的认识问题和相关技术问题进行了有益的探
目的:观察升阳益胃汤治疗慢性胃炎的临床疗效。方法:83例慢性胃炎患者用升阳益胃汤:黄芪、党参、陈皮、柴胡、白术、半夏、羌活、独活、防风、泽泻等治疗,疗程4~6周,结果总有
足球运动是当今世界的第一大体育运动,它以其参与广泛,竞争对抗激烈,观赏性强等一系列的特点越来越受到全世界人民的喜爱。在中国,随着大众体育和全民健身运动的深入开展,足球运动
非营利组织自第二次世界大战后出现,经过60多年的发展,目前在西方世界国家已成为与人们的生活息息相关的一支重要力量。20世纪80年代以来,在全球性社团革命的影响下,我国的非营利
<正>2015年8月10日,国务院办公厅印发《整合建立统一的公共资源交易平台工作方案》(以下简称《工作方案》),提出将工程建设项目招标投标、土地使用权和矿业权出让、国有产权
目的:观察膏滋对脾肾阳虚型过敏性咳喘的疗效情况。方法:将过敏性咳喘患者255例,经中医体质辨识系统软件,对筛选出脾肾阳虚型部分患者采用膏滋者进行治疗,观察症状改善情况。
安全感作为一个重要概念,见诸众多的心理学理论观点之中。对于安全感的描述也因理论学派的观点不同而有所不同。随着社会的发展,各行业的人都开始重视对安全感的研究。从国家安
目的:介绍赵和平主任医师治疗肩周炎的临床经验。方法:通过跟师学习,总结其治疗肩周炎的临床经验。结论:赵和平主任医师认为,本病的发生与肝肾的不足,气血的虚衰,外感风寒湿
主要讨论一类具有反馈控制变量的离散模型,通过运用差分不等式的有关结论和一些计算技巧,得到了保证该系统持久性的充分条件。