网络表格的实体列发现方法研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:jklgfdjligjregjmreji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上包含大量价值极高的网络表格,机器却无法理解,只有标注出表格的语义信息,才能更好地利用这些结构化数据。网络表格的实体列在一定程度上表达了表格的语义信息,准确地探测实体列能够大大提升机器对表格语义的理解程度。目前,人们提出了基于知识库的实体列发现方法,这些方法仅仅依靠表头和知识库信息的匹配情况来进行实体列发现,不仅对一些表头语义模糊或者其表头不存在于知识库的表格无能为力,而且不能发现多实体列表格中的具体实体属性关系,并且算法的准确率和执行时间方面的表现也不理想。本文提出基于属性间依赖关系的实体列发现方法,主要研究工作如下:(1)提出一种基于属性间依赖关系的实体列发现方法。该方法不依赖知识库和表头信息,不仅提高了实体列的发现效率,而且增强了算法适用性。(2)提出一种适应网络表格特点的近似函数依赖检测方法。考虑表格中的噪声因素,使其能更加准确地表达网络表格属性间的函数依赖关系。(3)提出实体属性依赖强度的概念,并由此定义实体列的语义强度。由实体属性之间的依赖强度判断实体列的语义强度,进而提高最强实体列探测的准确度。(4)在基于属性间依赖关系算法的基础上引入实体属性依赖强度的概念。不仅可以按照实体列的语义强度进行实体列发现,而且还能够根据实体属性的依赖强度标注具体关系。大量实验结果表明,本文提出的近似函数依赖检测方法具有明显的降噪作用。本文提出的基于属性间依赖关系的实体列发现方法均在有效性和时间效率上有优秀的表现,并且适用性更强。
其他文献
子痫前期病因各国研究学者产生多种学说:如过度炎症反应、内皮细胞功能障碍、氧化应激、RAAS(肾素血管紧张素系统)系统的作用等。本文讨论雌、雄激素在病理妊娠—子痫前期中的所
高校21世纪的培养目标是培养要“培养大学生的创新能力,实践能力和创业精神”,“厚基础,宽专业,强能力,重创新”为了配合国家“面向21世纪教育振兴行动计划”,如何在高投发展的新时
[目的]探讨传染病医院血液净化中心的护理管理方法。[方法]从环境物品的监控及管理、病人管理及医务人员的监控与防护等方面,回顾分析血液净化中心对传染病病人实施护理措施
饮用水安全已成为社会关注的热点,加强饮用水工程管理与水源地保护成为政府工作的重点。本文通过分析饮用水供水、水源地保护工作中存在的问题,提出了进一步加强饮用水水源地
邵伯湖是扬州地区重要的湖泊,江苏省扬州市邗江区水利局湖区堤防涵闸管理所是邵伯湖邗江境内的主管部门。对湖泊进行精细化管理是新时期对湖泊资源进行管理、保护、利用的必
2018年,江苏省常州市为落实绿色发展战略,推进河湖生态建设,在全市全面推进河长制工作,大力实施河湖流域生态环境整治,促进河湖水质改善,此项工作对常州境内流域水环境的稳定
本义从产于石炭纪地层小的含银黄铁矿矿床的土要地质特征、侵入岩与成矿关系以及稳定冈位索特征等人面的研究提出,该类矿床具有明显的沉积特征;成矿元素流主要来自石炭纪海水,成
探索教学方法,提高教学质量,是教育界一直在研究课题,药理学科的教师常常就激发和培养学生学习药理的兴趣和提高药理教学质量进行反复的探索和努力。职业教育教学担负着专业基础
探讨庐山形成发展过程,描写庐山奇峰、名瀑、绿色植被和宜人气候等优美的自然风光;介绍庐山悠久的历史文化和丰富的人文景观。容地学知识于迷人的山水景色之中,从而增中人们对庐
2017年12月14日,松辽委在长春市组织召开2017年松辽委水行政执法经验交流暨水政监察人员执法能力培训会.会议深入解读了党的十九大报告中关于坚持全面依法治国基本方略的重要