【摘 要】
:
针对问答式机器阅读理解中非定长答案的提取问题,本文提出了一种基于关键词扩展的答案块提取模型.该模型首先确定答案所在区块的中心词,即将文本与问题进行联合处理后计算问
【机 构】
:
上海理工大学光电信息与计算机工程学院; 复旦大学上海市数据科学重点实验室;
【基金项目】
:
国家自然科学基金项目(61003031)资助;上海重点科技攻关项目(14511107902)资助;上海市工程中心建设项目(GCZX14014)资助;上海市一流学科建设项目(XTKX2012)资助;上海市数据科学重点实验室开放课题资助课题项目(201609060003)资助;沪江基金研究基地专项项目(C14001)资助
论文部分内容阅读
针对问答式机器阅读理解中非定长答案的提取问题,本文提出了一种基于关键词扩展的答案块提取模型.该模型首先确定答案所在区块的中心词,即将文本与问题进行联合处理后计算问题关于联合向量的注意力值并按列输入softmax函数,将此概率分布矩阵逐列相加后遍历全文,检索出答案所在区块的中心词.然后,以该词为中心进行答案块扩展,并在每次扩展后计算答案块与问题向量之间的相似程度,相似度开始减小时停止扩展以优化候选答案块的质量.相较于以往的答案块提取模型,该模型一方面不再依赖于词性标注,另一方面大大提高了答案块的生成效率,在简化模型的同时提高了机器阅读理解的准确性.实验结果表明,该模型在SQuAD测试数据集上的EM(Exact Match)和F1值均表现优异,分别获得了65. 7%和74. 3%的准确度.
其他文献
在课程改革理念指导下,初中科学课创新教育涉及教育教学观念的转变、教学模式的构建、教学方法的选择、评价方法和标准的改变等问题。本文就教师理念的转变,优化教学过程,培
目前大部分省级医院的HIS系统已经足够完善,但是对HIS数据库中的数据信息的抽取缺乏分析和集成,大多停留在较低层次应用上,更谈不上对医学有用信息的自动获取和保留。文章介
随着我国建筑行业的快速发展以及人类生活水平的不断提高,绿色施工技术已经在人类生活中占有越来越重的比例。因为绿色节能施工技术可以通过特殊的施工方法来降低人类对环境
随着学院新校区建设的开展和教育部对工科教学的大力支持,广东省教育厅提供一笔专用资金用于学院的网络实验室建设,应学院的要求,由本人策划了本次网络安全实验室的方案建设,
浙江师范大学"化工原理"教学团队建设了面向化学、材料、环境与药学等非化工工艺类专业、3~4学分的"化工原理"在线开放课程,录制了101个知识点的微视频,详细讲解了流体流动、
以山西太谷地区广泛种植的酿酒葡萄品种赤霞珠(Carbernet Sauvignon)作为对照,对山西怡园酒庄2010年引进的酿酒葡萄品种丹魄(Tempranillo)、晚红蜜(Saperavi)、内比奥罗(Nebbiolo)的
为了解决书写较为工整的英文联机手写文字识别,定义了英文字母的有限组成字元,形成一套七组不同的基础字元系统。使用方格边比测量法,与简单的数学计算,可以确定字元的种类与性质。使用字元搭建,对大小写英文字母与阿拉伯数字实施具体定义,由于每个字符的具体定义组成,完全各不相同,所以可以在逻辑上判断,这种方法能够容易快捷地识别独立的较为工整的英文手写字母。这种定义方法,可以推广到连写的手写字母与各种字体。这种