面向特定领域的专家知识图谱构建与消歧

来源 :广州大学 | 被引量 : 0次 | 上传用户:wangzu03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和大数据时代的来临,各领域的专家信息可以轻而易举在网络上查到,然而,由于信息时代数据源质量参差不齐,不同的数据源对于同一专家属性的属性值描述可能出现冲突。在推选评审专家、追踪研究团队的时候,经常需要用到完整、准确的专家简历,但目前关于专家简历的构建与消歧工作的相关研究较少,信息的不准确性与过度分散使得用户难以获取准确且完整的专家信息。知识图谱能够将实体、属性、属性值构建在一起,可以很好的组织专家简历信息。因此,本文使用知识图谱来构建专家简历,将分散的信息汇集到同一个知识图谱中,并提出一种面向搜索引擎的三元组评分模型对冲突数据评分,在对该模型改进后提出基于领域的评分模型,此外,本文提出一种结合该评分模型的真值验证算法,通过该算法可以得到消歧后的专家简历。本文的主要贡献如下:(1)针对信息分散的问题,本文提出一种自动化构建知识图谱的方法,该方法可以从不同百科网站中抽取专家的实体、关系、属性三元组,将三元组构建成格式化的简历形式,并将不同数据源的简历融合在一起形成专家知识图谱。(2)针对属性值冲突的问题,本文设计了一个面向搜索引擎的评分模型,将搜索引擎的搜索结果作为数据源,为真值候选集中的属性值投票。由于该模型是各领域通用的模型,而专家所属领域的特定数据源的可信度应高于通用数据源,因此本文又对该模型进行了改进,加入了领域这一影响因素。实验表明,由该模型处理后的属性值准确度高于原数据源。(3)现有的真值验证算法大多是针对单真值属性或多真值属性的消歧,本文提出单真值与多真值通用的真值验证算法,输入构建好的专家知识图谱就可以自动化的从简历中抽取冲突的属性值,并利用投票模型为冲突数据评分,最终输出带有候选值评分的专家简历。(4)本文实现了一个面向特定领域的专家知识图谱消歧系统,使得用户输入一个专家名就能够自动化的完成专家知识图谱的构建和消歧并生成一份专家简历,为用户提供客观准确的数据。系统功能主要包含查看已有专家简历,查看专家简历信息圈,生成专家简历并消歧,按领域查看专家简历等。
其他文献
人们日益增长的物质需求与环境污染和能源短缺的问题相矛盾,目前可再生的清洁能源如风能、太阳能等也需要高效的储能装置。锂离子电池(LIBs)是目前能够商业化大规模应用的可循环使用的电池设备。在未来几十年将被普遍运用于各种电子移动设备和新能源汽车。然而稀缺的锂资源使人们将目光转移到钠离子电池(SIBs)研究上。由于离子半径等物理特性差异,传统正负极材料并不适用SIBs。二维层状MXene材料具有独特的物
随着互联网的日益普及,智能终端越来越依赖于网络来提供应用服务。然而,这种对网络的高度依赖,造成了在缺网、断网、网络环境差等极端场景下,智能终端无法提供有效的服务。此外,常见的交互技术存在控制方式机械、固定和单一,全局性和实时协同性差,智能程度较低,用户交互性和参与性较弱和个性化不足等问题,这在很大程度上影响了用户的体验。因此,本文针对现有感知和泛在交互技术存在的障碍和限制,设计和实现了一套适配多样
图像质量评估(Image Quality Assessment,IQA)是对失真图像的质量进行量化并输出与人眼视觉系统相一致的质量分数。无参考图像质量评估是无需参考图的前提下对各种失真图像建立感知模型,通过感知模型探索计算机与人眼视觉对图像质量理解的关系。无参考图像质量评估是图像处理领域的基础,它主要分为两大研究方向:(1)对图像的直接理解与感知,探索计算机视觉与人眼视觉的一致性;(2)利用质量信
随着通信和互联网技术的快速发展,使得无线通信技术面临着巨大的挑战。多跳中继无线网络是现代无线通信的一个重要传输形式,可以有效提高系统的传输质量和系统的覆盖范围。一方面,在没有部署基础设施的情况下,当通信双方的距离进一步增加时,如何提高通信双方的通信质量已经成为无线通信领域急需解决的关键问题。作为一类对抗衰落、提升系统的传输可靠性的有效技术,缓存辅助中继近年来引起了广泛关注。另一方面,随着无线技术的
当今世界,伴随着越来越多针对政府机构、工业设施、大型公司网络的攻击,网络安全已经成为全球研究人员的关注点。其中,高级持续威胁(Advanced Persistent Threat,APT)结合社会工程学、0day漏洞、隐蔽通信等技术手段对目标实行长周期、多阶段的攻击行为,凭借其极高的隐蔽性和威胁性,已经成为网络空间安全中的主要威胁之一。如何对APT组织进行溯源识别以及在早期发现APT攻击并发出警报
随着信息技术的飞速发展和计算机等信息设备的广泛应用,人类社会已经步入了信息时代。与此同时,随之伴生的网络安全问题也给国家安全和社会发展带来潜在的威胁和损失,如何在信息时代保障网络空间安全成为了学术界和工业界关注的重要问题。近年来,通过知识表示方法,将网络安全领域中漏洞、资产、攻击活动等关键要素模型化,并为网络安全的态势分析、应急处置等环节提供知识支撑,逐渐成为一种有效研究手段。特别随着以谷歌知识图
复杂化、规模化与分布式的网络攻击行为导致网络安全领域中的攻击事件特征提取面临着基础数据量大、特征动态变化、状态持续更新等挑战。以文本形式生成的攻击事件告警信息具有高维特点,加重了特征提取与事件分类的难度。传统特征提取与分类方法无法高效地处理上述数据。因此,必须研究自动且高效的攻击事件特征提取与分类方法,以应对规模性、动态性、高维性等特征带来的挑战。表示学习(Representation Learn
氟喹诺酮类抗生素是全球各国广泛使用的广谱抗菌剂,其中以氧氟沙星(OFX)和恩诺沙星(ENR)为典型代表。它们结构复杂、半衰期长、难生物降解,存在于各种环境介质中,在水环境中的浓度达到ng/L~mg/L级。长期残留的抗生素带来了威胁人类健康和生态环境的全球性问题,寻求高效环保的抗生素废水处理技术为大势所趋。生物修复技术是去除抗生素的有力工具之一,其通过增强生物降解能力有效提高污染物的去除率和降低对环
由谷歌公司于2012年提出知识图谱(Knowledge Graph)概念后,这种知识表示形式引起学术界与工业界的强烈关注,研究学者们将它视作未来的搜索引擎。高质量知识图谱的构建是一个动态发展的过程,需要及时补充新知识来完善知识图谱,并校验更新图谱中的时效性知识。补充新知识可以采用面向网络文本的信息抽取技术,校验更新图谱中的时效性知识可以使用有关的属性值验证技术。但是传统技术难以适用于大多数构建知识
基于运动想象脑电信号的脑机接口系统,指的是当人在做运动想象任务时,大脑皮层会产生相应的脑电信号,然后对产生的脑电信号进行分析和处理,最后通过计算机系统与外部设备相互通信。目前,运动想象脑电信号分类识别技术已被应用于各个领域。例如,在脑卒中康复的医疗领域和现代人工智能机器人尤为突出。同时也在脑机接口控制的游戏和虚拟现实等娱乐领域也被应用,以及在军事上应用等等。本文分析了国内外关于运动想象脑机接口领域