基于众包和两层相关性聚类的实体解析方法

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:ivsou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实世界中,同一个实体可能被多个数据源中的记录所描述。实体解析的任务就是确定哪些记录描述着现实世界中的同一个实体。实体解析是数据集成和数据清理中的一个关键步骤,它不仅能够提高数据的质量,还能够丰富单一数据的内容。然而,随着大数据时代的到来,各式各样的数据质量问题为实体解析带来了前所未有的挑战。面对纷杂的数据质量问题,传统的实体解析算法在效率、质量,特别是抗噪声能力方面的表现并不理想。在数据存在噪声的情况下,实体解析算法经常会出现不一致的判断结果,传统的做法是在匹配结果之上进行一次传递性闭包分析,这种做法极易将错误放大和传递。相关性聚类是实体解析的一个标准方法,它以记录对的匹配程度为依据,产生最大程度支持这些依据的聚类结果。相关性聚类为NP-hard问题,很多启发式的算法被提出,但效果并不理想。本文在相关性聚类的基础上,提出一个快速有效、抗噪声能力比较强和可扩展的实体解析方法。主要研究工作如下:(1)提出一种新颖的两层相关性聚类框架。该框架上层采用预分块算法对节点进行可重叠的分块;下层则使用调整块算法去除上层算法的重叠部分。(2)首次在相关性聚类问题中引入公共邻居的概念,并基于邻居关系给出邻居相似度的计算方法。本文首先分析如何使用邻居来表示一个块,并由此提出一个启发式的上层预分块算法。(3)提出核的概念,并由此定义节点与块之间的关联程度。核的概念突出块内关联强度最大的部分,由核来决定节点与块之间的关联程度可以更加准确地判断节点的归属,进而提高实体解析的准确度。本文基于核的概念,提出一个启发式的下层调整块算法。(4)在上层预分块算法中引入众包的概念,通过众包来验证块形成时所依据的节点对。由于上层预分块算法采用顺序生成块的方式,为了减少众包验证的开销,本文提出一种并行化确认算法,并在此基础上给出它的优化算法。实验结果表明,本文提出的基于众包和两层相关性聚类的实体解析方法在解析质量、抗噪性和可扩展性方面均优于传统的算法。
其他文献
随着现代科技的不断发展,图形处理硬件设备的性价比不断提高,几何造型软件大量普及,3D模型在不同领域得到了广泛应用。数字几何技术已成为新一代媒体,而3D模型技术正是数字几何技
人体动作识别是计算机视觉中重要问题,并应用到很多方向,例如人机交互,视频标注和基于内容的检索等。虽然动作识别已经取得了很多重大突破,但是仍然面对很多巨大的挑战。例如
视频监控系统的发展和应用已经有数十年的历史。随着视频采集、传输、存储和处理设备的不断更新,视频监控系统经历了模拟化、数字化、网络化三个阶段。在视频监控系统应用范
结核病是严重危害人类健康的一类疾病。我国是世界上22个结核病情危险的国家之一,三分之一左右的人口已感染了结核杆菌,人数超过4亿。过去,对疾病的诊断仅仅通过表面现象,现
改革开放以来,随着我国市场经济的飞速发展,居民的消费水平和生活质量越来越高,汽车的保有量迅速增加。货车、公交车、出租车、私家车等在人们日常衣食住行中扮演着重要角色
食管癌是常见的消化道恶性肿瘤,全世界每年约有30万人死于食管癌,严重威胁人们的生命和健康。早期的食管癌常由于症状不明显而影响医生诊断,错过最佳治疗时间。超声内镜(Endo
显著性区域是指图像中最优先得到关注的区域。可靠的显著性区域估计对许多计算机视觉处理任务都具有非常关键的作用,其中包括人脸识别、图像压缩、自适应分割、物体追踪和图
无线传感器网络作为物联网的底层,通过收集感知数据以及传递上层应用的控制信息,实现物理对象的互联互通。其中,无线传感器网络的数据收集和消息传递对于提升物联网的性能及
从上个世纪六十年代至今,图像处理领域得到了蓬勃的发展,数字图像处理技术得到了广泛的应用,比如地理学领域的遥感卫星图像、医学领域的CT、MR图像、物理学领域的实验图像等
伴随着网络上的信息急剧增长,人们为了在浩如烟海的信息中获取有用知识,对高效地获取信息的需求尤为迫切。在诸多技术中,信息检索技术通过不断发展和完善,越来越受到人们的重