【摘 要】
:
当今世界正处在一个信息爆炸的时期,从繁杂的信息中检索出需要的信息是困难的,也是必要的。由此,知识发现技术得到飞速发展,以知识图谱为基础的关联知识发现系统,通过利用实体及关系信息,能够挖掘出深层的关联信息。但是,由于网络信息具有噪声混杂、知识稀疏的特点,如何从海量信息中提取出有效信息,并转化为知识图谱中结构化知识,是目前研究的一个热点问题。通过对自然文本进行清理,筛选出缺少的知识,最后利用实体链接技
论文部分内容阅读
当今世界正处在一个信息爆炸的时期,从繁杂的信息中检索出需要的信息是困难的,也是必要的。由此,知识发现技术得到飞速发展,以知识图谱为基础的关联知识发现系统,通过利用实体及关系信息,能够挖掘出深层的关联信息。但是,由于网络信息具有噪声混杂、知识稀疏的特点,如何从海量信息中提取出有效信息,并转化为知识图谱中结构化知识,是目前研究的一个热点问题。通过对自然文本进行清理,筛选出缺少的知识,最后利用实体链接技术构建自然文本与知识图谱结构化知识之间的关系。目前,实体链接模型大多缺乏对文本噪音的处理与语义特征的准确表达,且忽视了知识图谱本身的丰富信息,导致实体链接的效果欠佳。为此,本文提出了基于注意力机制的局部实体链接模型以及信息融合的集体实体链接模型。本文的主要工作和贡献如下。针对传统模型在进行输入文本与知识库实体描述语义交互不充分,语义丢失严重,模型并不能完全学习到语义表示的问题,本文提出了基于多视角注意力机制的局部实体链接模型。通过提取实体提及内部语义特征,并与实体描述的特征进行交互,从而减少噪音并突出关键词。结合学习集体级别的自注意力特征,从而解决语义信息丢失的问题。通过实验表明,与传统方法相比,本文所提出的局部实体链接模型的效果有所提升,验证了模型的有效性。针对传统模型忽视知识图谱实体之间特征信息,无法有效建立实体节点联系、实现信息在节点间“流动”的问题,本文构建了多信息融合的集体实体链接模型,分析和提取候选实体间的丰富特征,充分刻画候选实体间的关联。通过实验表明,与基线模型相比,本文所提出的集体实体链接模型效果有所提升,验证了模型的有效性。最后,基于上述模型,构建电影领域的知识发现系统,实现用户查询、知识管理等基础功能,满足知识发现系统需求,验证了算法的可用性。该知识发现系统的构建可以发现电影相关的隐藏信息,具有极强的应用价值。
其他文献
随着互联网的普及和计算机技术的发展,如何从海量的信息中快速获取关键信息已经成为了学术界亟待解决的重要问题之一。因此从中文新闻中抽取关键信息有着重要研究意义,同时也是论文的研究重点。论文从实体抽取、事件抽取、摘要抽取三个方面研究了中文新闻要素抽取技术。针对中文新闻要素抽取过程中存在的问题,论文进行了以下研究:(1)论文提出了一种基于词汇增强的实体抽取方法,解决了传统中文命名实体识别模型中仅使用字符向
随着钢筋混凝土结构不断向高层、大跨、重载的方向发展,工程界对钢材的材料性能提出了新的要求:更高的强度、更好的延性、更强的耐腐蚀性能、更低的成本以及节约资源、节能环保等。与普通钢筋相比,高强钢筋不仅具有更高的屈服强度,而且高强钢筋的使用对于节约资源、降低造价具有重大意义。但目前使用的高强钢筋普遍存在强度提高,延性降低的问题,并且耐腐蚀性能与普通钢筋相比并未得到改善。NPR钢筋是一种新型高强、高延性、
随着工业设备的复杂程度不断提高,运用基于数据驱动的方法通过振动信号数据对设备的关键部件如轴承、齿轮箱等进行故障诊断,保证设备平稳运行,在工业生产中尤为重要。近年来,深度学习模型在设备故障诊断任务上得到广泛应用,然而在实际工业环境中的设备和工况下所采集的故障数据具有样本少、不均衡的特点,极大地降低了深度学习模型的故障诊断表现。为了解决以上问题,本文的重点工作如下:(1)设计并实现了基于半监督学习的故
绘画可以成为科学研究的重要来源,许多学科的研究人员会从画作的各个方面提取所需要的信息,这些学科包含了艺术、经济、历史、文学、政治等等。然而绘画并没有广泛地应用于由心理学、神经科学和行为经济学的实验中。绘画虽然是一种类似于按下键盘或者填写问卷的行为输出,但是用传统的方法很难对绘画的主观表现和艺术表现进行客观的衡量也是事实。此外,作为行为实验的典型参与者,普通人并不具备基本的绘画技巧,这使得他们的画作
随着记录移动对象多维运动状态的传感器技术的发展,产生了大量的运动行为轨迹数据。通过衡量这些轨迹数据的相似性,对研究不同移动对象之间的运动行为模式有重要意义。尽管已经出现了大量的轨迹相似性算法,但是他们普遍存在以下几个缺点:他们大多数都被限制在移动对象运动路径的静态几何曲线上,只有很少的工作将移动对象的轨迹运动参数考虑在内,在多维复杂的研究场景中,单靠空间相似性不足以判定移动对象之间是否存在相似的运
马尔科夫跳变系统是由多个子模态构成的具有随机切换规则的系统,它能够很好地描述具有随机参数变化的系统,如内部元件故障和工作点变化。而半马尔科夫跳变系统作为一种更为一般的系统,其驻留时间并不完全遵循指数分布,还可以遵循Weibull分布、Gaussian分布等非记忆型分布。线性变参数(LPV)系统通过引入实时可测参数可以很方便地描述物理系统的时变特性和非线性特性,并且广泛应用于导弹自动飞行、涡扇发动机
<正>坚持党的领导,加强党的建设,是国有企业的“根”和“魂”,是我国国有企业的光荣传统和独特优势。党的二十大报告对党的建设作出新部署、提出新要求,在守正创新中深化了对建设长期执政的马克思主义执政党自身建设的规律性认识,实现了马克思主义建党学说中国化时代化的理论创新与实践创新。新时代新征程上,国有企业党组织以党的二十大精神为指引,深入学习践行党的建设理论创新成果,统筹实施铸魂工程、领航工程、固本工程
青岛是一座文化底蕴深厚的城市,经历过三次帝国主义列强的殖民,留下了大批“红瓦坡顶形态”的西方传统居住建筑,坡屋顶的建筑形式渐渐成为了这座城市的标识。但随着城市建设步伐的加快,曾经主导城市风貌的建筑屋顶形式逐渐在城市建设中消失,导致历史城区内殖民时期居住建筑屋顶形态的对外延展,呈现断层模式,新旧建筑之间缺乏过渡,整体定位模糊。加之国务院等相关建设部门出台了一系列政策,引导旧城的更新方向,以保护与延续
事件抽取是信息抽取中的一个较为复杂的课题。在实际的工业管理软件领域中,事件抽取在处理客户投诉等工作中具有极高的应用价值,能够帮助企业实现产品的快速更新迭代和保持用户粘性。事件抽取不仅是目前自然语言处理的研究热点和难点,也在知识图谱相关任务中发挥着重要作用。事件抽取的任务目标是将非结构化的自然语言文本进行结构化的处理,从中自动抽取用户所需要和关注的事件信息并进行存储。目前BERT为代表的预训练模型能
直接模拟蒙特卡洛方法(Direct Simulation Monte Carlo,DSMC)是目前求解稀薄气体领域真实气体流动问题的一种强有力的工具。非结构网格作为DSMC方法的一个重要分支,在复杂几何外形的计算网格生成方面具有自动化程度高、生成周期短、分布控制灵活等优点,已被DSMC工程计算广泛采用。然而,随着应用的不断扩展,非结构DSMC求解的问题越来越复杂,对计算与存储量的需求日益增加,开展