【摘 要】
:
随着百度知道、Yahoo!和Quora等开放领域问答系统的快速发展,大量的问答数据日渐积累,如何高效地重用现有的问答资源以服务大量用户是现今问答系统亟需解决的问题。自动问答是自然语言处理中增长最快且极具挑战性的任务之一,旨在构建能够自动回答用户以自由文本提出的问题。对于问答系统,问题目标分类是一个至关重要的步骤,旨在根据预期的答案类型准确地对提出的问题进行分类,从而对给出的候选答案进行语义约束。并
论文部分内容阅读
随着百度知道、Yahoo!和Quora等开放领域问答系统的快速发展,大量的问答数据日渐积累,如何高效地重用现有的问答资源以服务大量用户是现今问答系统亟需解决的问题。自动问答是自然语言处理中增长最快且极具挑战性的任务之一,旨在构建能够自动回答用户以自由文本提出的问题。对于问答系统,问题目标分类是一个至关重要的步骤,旨在根据预期的答案类型准确地对提出的问题进行分类,从而对给出的候选答案进行语义约束。并且,问题目标分类的准确性很大程度上直接影响了问答系统返回正确答案的性能。国内外对问题理解和分类研究上已有大量的前期工作,英文问题的研究较中文而言相对成熟,并有公开的数据集可供实验研究。中文由于自身语言的特点,句法结构复杂,网络文本一般不符合常规的语法规则,因此如何有效地分析问题文本和理解文本的潜在意图成为了中文文本分类的难点。此外,现有的问题理解和分类方法大多面向单一语言,对于多语言的问题理解和分类框架较少。因此,本文旨在对中英文问题理解和分类方法进行一个系统的调研,分析中英文问题目标识别和分类方法的特点及不同之处,并提出了一个融合中英文问题目标识别和问题目标特征扩展的双语问题目标识别与分类框架(Bilingual Question Target Identification and Classification Framework,Bi-QTFrame),以更好地服务问答系统、人机对话系统和Web问答网站等。本文提出的分类框架主要包括问题分析模块、问题目标特征扩展模块和问题目标分类模块。针对现有研究存在的问题和难点,本文的主要工作如下:1)通过分析中英文问题的依存句法结构,根据中英文问题在语义依存关系上的差别,总结了识别和抽取问题目标的依存关系,从而提出了一个基于依存关系的问题目标词自动识别方法。2)根据中英文问题文本的特点,提出了一个精简且有效的问题目标特征,包括基本特征和抽象特征。问题的基本特征是保留问句本身的基本信息和独特性,如中文的字特征,英文的N-gram特征以及问题目标词。问题的抽象特征是相同类别中不同问题间的共同特征,能够体现某类问题的上层语义信息,查询意图和提问方式的信息。特征的抽象层面越高,存在猜测的可能性则越少,则越利于分类。针对问题简短而缺乏上下文信息,同时存在特征稀疏的问题,本文提出了语义上位概念特征对问题目标词进行上位概念的语义信息扩展,强化问题答案类型的语义约束。对不存在问题目标词但提问方式具有一定规律的问题,本文提出了简要句法结构特征,以更好地保留问题在不同类别提问方式的特点。3)本文提出的问题目标识别与分类框架、问题目标词自动抽取方法以及问题目标特征自动扩展方法,通过在中英文这两种不同的语言上进行实验,验证了提出框架和方法在中英文问题目标分类任务上的适用性和有效性。在中文人机对话技术评测、UIUC和TREC 10等公开数据集上,所提方法在中文问题目标分类上达到了94.8%的F1值,在英文问题目标分类上取得了87.2%的精度,优于现有的基线方法,验证了提出框架在问题目标分类任务上的有效性,为以后多语言的问题目标识别与分类研究奠定基础。
其他文献
水稻是最重要的粮食作物,也是基础研究的模式生物。在水稻的生命周期中往往会遭受多种生物与非生物逆境的胁迫。为了应对环境变化造成的胁迫,水稻自身发展了抵抗逆境的机制。促分裂原活化蛋白激酶(Mitogen activated protein kinase,MAPK)属于真核生物蛋白激酶超家族,级联途径中的MAPK基因在抵御逆境的过程中具有重要的作用。水稻OsMPK17蛋白质在逆境胁迫中的表达特征及功能研
跨海大桥的变形受众多因素的影响,例如风力以及波浪力等等。在变形监测工作中,我们不仅要对该类桥梁的变形情况做到实时监测,同时还要对大桥可能发生的变形情况进行研究,因此,本文选取某跨海大桥某处的变形点进行变形的预测分析。介绍了桥体的背景以及对大桥变形状况的数据采集工作,分别布设水平控制网和高程控制网,对水平及沉降变形进行监测,获得大桥的变形时间序列数据,选取QSC30点的沉降序列进行变形分析的研究;由
时间和人类生产生活息息相关,时间计量手段的精确程度,极大地影响了各行各业的发展。近年来围绕时间计量工具--中性原子钟展开的研究越来越多,使得中性原子光钟的不确定度和
我国的优势传统产业“丝绸业”在国际上占据着重要的地位,其中桑树作为家蚕饲料发挥着不可或缺的作用。格鲁桑主要分布于我国山西省,是黄土高原最具代表性的一个桑树种群,也是我国桑树种质资源的重要组成部分。本研究在桑树表型研究的基础上,对格鲁桑种质资源重要农艺性状与分子标记进行关联分析,从而寻找与其表型相关的优异基因,从分子水平解释桑树表型性状的遗传变异规律,对桑树种质资源重要功能基因的克隆与挖掘以及桑树遗
秀丽隐杆线虫(Caenorhabditis elegans,C.elegans)是现在生物学领域的研究中主要的模式生物之一。线虫通常生活在许多微生物中,细菌是线虫的主要食物,并且多数微生物都是病原体的危险来源。铜绿假单胞杆菌(Pseudomonasaeruginosa)是一种常见于土壤和水的细菌,是一种机会性人类病原体,通常在免疫受损的个体或创伤中引起疾病。目前研究已经证明,在实验室条件下,铜绿假
随着信息技术的不断进步,机器学习早已成为现代信息化生产的必要辅助。强化学习是机器学习的重要分支,在网络路径管理领域有着广泛的应用。传统互联网结构要承担大量而种类繁
本文立足“一带一路”背景,以塔吉克斯坦Y企业现状及经营环境为研究对象,以制定怎样的发展战略摆脱目前经营困境为研究问题。本文借助内部环境分析法、PEST分析法和波特五力
近年来,随着计算机科学技术的快速发展,图像分辨率逐渐增高,传统像素级的图像分割方法很难满足实时性要求。超像素是近年来兴起的一种图像预分割技术,它将图像分割成若干个具
随着《全日制义务教育小学科学课程标准》的颁布,关注学生的主体地位已逐渐成为了小学一线科学教师的教学导向。从教学设计的维度上来说,小学科学学科的一线教师们需要更进一步地关注小学生的学习方式和过程,即思考如何激发小学生的科学学习兴趣、如何引导小学生在进行独立探究的过程中获取相关的科学知识与技能、以及如何支持小学生进行持续而深入地探究。部分教师已经采用了问题驱动法来优化自身的教学设计,因其能为如何关注小
病程相关(Pathogenesis-related,PR)蛋白质是一类受病原物诱导的蛋白质,在植物抵抗生物、非生物胁迫过程中发挥着重要作用。水稻(Oryza sativa L.)是世界上最重要的粮食作物之一,作为近一半人口的主粮,其高产、稳产对全球尤其是亚洲地区的粮食安全具有重大意义。水稻生长往往会受到冷、热、旱、盐和淹等恶劣环境的威胁,因此,了解水稻胁迫应答机理,培育耐逆的水稻品种具有重要意义。