【摘 要】
:
随着信息时代的快速发展,互联网上出现越来越多的HTML格式的表格,这些网络表格中蕴含着丰富的关系型语义信息。作为一种机器理解和认知人类知识的重要途径,我们希望机器能理
论文部分内容阅读
随着信息时代的快速发展,互联网上出现越来越多的HTML格式的表格,这些网络表格中蕴含着丰富的关系型语义信息。作为一种机器理解和认知人类知识的重要途径,我们希望机器能理解和处理这些包含结构化信息的表格。一种常见的方法就是将表格中的文字链接到对应的知识图谱的实体上,例如维基百科的条目,这一技术称为“实体链接”。知识图谱,是一种结构化的海量知识库,存储着大量的实体,以及不同实体之间的关系,从而形成一个巨大的网络。通过将纯文本文字,对应到相应的知识图谱实体,可以帮助我们消去歧义,使得机器更好地理解自然语言,并有助于进一步的自然语言应用,例如自动问答,交互对话等。另一方面,由于表格具有非常好的结构性质,通过抽取表格中的结构化语义信息,可以方便地补充到结构化的知识图谱中,丰富现有知识图谱,使得知识图谱及时补充更多的新知识,从而进一步提高各类基于知识图谱的应用。我们将应用在表格上的实体链接称为“表格链接”。通常情况下,表格链接是在单语环境下进行的,即需要链接的文本文字与知识图谱都是属于同一种语言,例如将英语的表格链接到英语的知识图谱。但是当我们试图让机器去理解一张非英语的表格的时候,我们会发现很多非英语的知识图谱可能不存在,或者是正处在构建中,非常不完备,缺少许多关键的知识条目。因此,本文试图解决一个跨语言环境下的表格实体链接问题,尝试将非英语的表格,直接链接到英语的知识图谱上,而不借助非英语的知识图谱作为中介。跨语言环境下的表格实体链接是一个新问题。结合问题的特殊性和现有方法的缺失,我们提出了一种联合神经网络模型,每次将整张表格作为一个整体进行链接。我们针对表格的特性主要设计了三种特征,分别为指称特征,内容特征和一致性特征,并利用一个预训练的翻译层来打破不同语言之间的不兼容性。同时,为了更好地配合联合模型,我们采用了一般用于排序的损失函数,以区分不同链接正确率的表格,并在预测阶段采用了局部搜索下降的算法来提高效率。本文设计与实现了端到端的多种实验,和不同的基准方法进行了比较,取得了较好的效果,与其他系统相比提高了约13%的准确率。此外,我们还对提出的模型的各个模块进行了多组验证实验,用以证明模型的合理性和有效性。利用本文提出的问题和方法,可以将一张非英语的表格链接到英语的知识图谱,这是融合不同语言不同文化的知识的重要途径。有了这一技术,机器可以更好地理解人类的知识。而通过此技术来对知识图谱进行补全,也能帮助知识图谱融合不同语言和文化的知识,来提高一系列依赖知识图谱的应用。
其他文献
目的:近年来微创外科发展迅速,相对传统腹腔镜手术,经自然腔道取标本手术(natural orifice specimen extraction surgery,NOSES)腹部无辅助切口,美观性极佳同时最大程度上减
目的:旨在探讨原发性高血压患者血浆CTRP9水平与早期肾损害的相关性。方法:收集2019年1月至2019年12月于河北医科大学第二医院住院治疗的原发性高血压患者共86例。诊断标准参
目的:在体外诱导的Th17细胞中筛选出差异性表达的环状RNA分子(circular RNA,circRNA);明确其中一种circRNA mmucirc0000451对Th17细胞分化的调控作用并分析其潜在的调控机制。
RNA甲基化是最普遍的一种RNA修饰,在转录调控中起到基础性作用。N6-甲基腺嘌呤(m6A)是真核mRNA上含量最丰富的修饰碱基,发挥重要的生物学功能,并与很多肿瘤(如神经胶质瘤,乳腺癌等)的发生发展密不可分。FTO和ALKBH5是目前为止仅被发现的两种mRNA m6A去甲基化酶,可以氧化去甲基化mRNA上的m6A。研究m6A去甲基化酶的小分子抑制剂可以帮助我们更好的理解FTO和ALKBH5在体内
研究背景:肝窦阻塞综合征(hepaticsinusoidal obstruction syndrome,HSOS),亦可称肝小静脉闭塞综合征(hepaticveno-occlusive disease,HVOD),是一种主要损伤肝窦内皮、小叶中
[目 的]1.制备Annexin V靶向微泡,评价其理化性质。2.Annexin V靶向微泡体外特异性识别微波消融诱导的凋亡CAL-62细胞。3.Annexin V靶向微泡体外特异性识别微波消融诱导的凋
企业型单位制社区作为城市社区的一种特殊类型,2016年6月11日,国务院办公厅转发了国务院国资委、财政部有关文件,从供水、供电、供暖和物业管理入手,剥离企业办社会职能,标志
线性互补问题(LCP(M,q)是一类重要的优化问题,在许多领域有着广泛的应用.当矩阵M为P-矩阵(所有主子式都是正的)时,LCP(M,q)存在唯一解,而在构建线性互补问题模型的过程中,利用不同算法得到的解会存在一定的误差,所以寻找P-矩阵线性互补问题更小的误差界,变得尤为重要.本文在已有结论的基础上,根据P-矩阵的三个子类:B-矩阵,BS-矩阵和Dashnic-Zusmanovich+矩阵相关的概
背景胃癌是消化系统常见的恶性肿瘤之一,由于其早期症状不明显,缺乏特异性诊断指标,往往发现时已属于中晚期,因此,寻找胃癌早期诊断特异性标志物,是提高胃癌患者早期诊断和改
研究背景流行病学和动物实验研究表明,孕期邻苯二甲酸(2-乙基己基)酯[di-(2-ethylhexyl)phthalate,DEHP]暴露会影响子代神经发育,但机制尚不明确。甲状腺激素(thyroid hormon