链接数据实体类型预测模型的构建

来源 :东南大学 | 被引量 : 0次 | 上传用户:m237912904
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多链接数据在实体的类型信息上并不完整,类型缺失问题为许多语义挖掘任务带来了挑战。传统的类型推断方法可以通过逻辑公理来推理未知类型实体的类型,但是这种方法对于存在噪声的数据可能会失效。而近些年来基于数据驱动型的类型预测方法所取得的预测结果表明,此类方法在一定程度上屏蔽了不同领域的链接数据可能包含的数据质量问题,并且实现了实体类型的自动化补全工作。然而,现有的基于数据驱动型的实体类型预测方法的预测效果仍有待进一步提高。因此有效的基于数据驱动型的实体类型预测问题依然有待研究。本文基于广泛使用的协同分类算法ICA(Iterative Classification Algorithmn),利用通过抽取多类对实体类型预测具有不同指示性的链接信息构建的实体类型向量进行实体类型预测。在这个过程中,针对原ICA应用于大型链接数据集时存在的时间效率问题以及进行实体类型预测时存在的实体类型预测结果正确率方面的问题,本文分别提出了通过设置实体类型向量更新条件的方法和通过利用更丰富的链接信息构建对实体类型预测结果具有更强积极影响的实体类型向量进行实体类型预测的方法。其中,区别于原ICA构建实体类型向量所使用的链接信息,本文利用来构建实体类型向量的信息共包括三类,分别是数据属性信息,邻居实体类型信息和对象属性信息。最终在多个真实的链接数据集上的实验表明,本文基于ICA的实体类型预测方法在寻找缺失类型方面非常有效,同时为充分利用链接数据实体层中的相关信息进行实体类型预测提供了新的思路和方法,对基于链接数据的实体类型自动补全工作具有一定的参考价值。
其他文献
随着经济快速发展和人民生活水平不断提高,人类逐渐加大了对土地资源的利用和改造,不合理的开发利用导致了严重的土壤退化、水土流失、荒漠化等问题现象,这类问题已经严重影
上行地闪依据其起始前有无其它闪电放电活动被划分为两类,一类是触发型上行地闪,一类是自持型上行地闪。目前对于上行地闪起始、传播与雷暴云电环境参数之间关系的认识还不够充分,对于上行地闪的放电效应缺乏有效的评估。本文主要是在二维雷暴云起、放电模式中植入上行地闪放电参数化方案,通过改变模式的初始扰动获得了大量上行地闪放电个例,以此来分别探讨触发型上行地闪和自持型上行地闪发展的有利电环境特征,并给出上行地闪
近年来随着移动机器人技术的快速发展,无人车(UGV)、无人机(UAV)已经实现在日常生活生产中的大量应用。为了使无人机、无人车按照人类的意愿行驶到指定的位置,路径规划技术的
近年来人类对远离地球的天体研究逐渐成为研究热点,尤其是火星。对于探测器,由于距离的限制,远程遥控通信延迟过大,使得自主导航成为巡游车执行任务的关键,其需要结合各种传
行人重识别是在视频监控系统中,当一个目标行人被监控系统捕捉到,并借助现代化技术结合现有的视频监控系统在同一个摄像头的不同时间、不同摄像头的相同地点或者不同地点识别
党的十八大报告提出了“五位一体”的生态文明建设方针,为生态文明建设总体布局奠定了基础。从城市发展的角度出发,工业社会带来的城市急剧扩张,单纯以经济发展以及人民群众
针对传统连铸下渣检测存在的精度低、自动化程度低和时间滞后等问题。采用有效方法识别并预报出下渣时间是解决钢坯质量的关键,也是为连铸生产实现智能化发展的重要前提。对
闪电放电时由于电流脉冲的急剧变化会在通道周围产生很强的雷电电磁脉冲,对雷电电磁脉冲的详细分析和精确计算对于雷电防护和闪电定位具有重要的现实意义。电流脉冲的形成和传输过程实质上是电荷移动的结果,因此可以将电流脉冲视为运动电荷。需要注意的是,本文描述的在通道中运动的电荷并不是指实际的电荷,而是一种宏观的等效运动电荷。本文基于运动带电粒子的辐射电磁场方程,通过分析电荷在放电通道中的运动状态进而计算雷电电
乳化炸药包装缺陷检测技术是民爆炸药生产工序中重要组成部分,这一技术具有行业发展意义与科研创新意义,如何准确快速地对乳化炸药包装缺陷识别是当前民爆产业的一大难题,传
创新是引领发展的第一动力,在日益激烈的市场竞争形势中,农业企业的创新能力成为获取竞争力的关键。然而我国农业企业的创新水平较低,制约农业企业创新发展的主要因素是研发