基于Token的记录匹配的关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xuzhangzhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息集成等应用领域,会产生同一实体的不同描述记录,这些记录往往会在属性值上存在描述性的差异。导致描述性差异的原因有很多,例如误输入、格式不统一、信息不完整、同一概念的不同描述方式等。这些原因引起的属性值上的差异最终使得同一实体的不同描述记录在属性值上是相似的,而且其相似度往往会很高。为了将指代同一实体的记录识别出来,人们提出了记录匹配的框架流程:分块、比较、决策。但以往对记录匹配过程的研究并未发现信息在匹配过程中所产生的影响。本文从Token的角度来研究信息在记录匹配过程中所产生的影响,并提出了分块属性、比较属性、分类属性等概念。通过对分块属性上熵信息特点的分析,研究了从熵信息出发来确定分块属性的方法,并在分块属性上给出了基于Token分块的高效算法。在记录比较的过程中,充分利用Token携带的信息量,提出了基于Token携带信息的属性值相似度度量算法,并在此基础上提出了记录对相似度向量的算法。在决策阶段,分析了分类属性在决策过程中的作用,并基于距离给出了高效地决策算法。最终通过实验验证了本文提出算法的可行性和高效性。
其他文献
随着社会经济的不断发展,公司的业务也是越做越大,其内部的各种信息资料越来越多,当由于业务需求而派员工去外地出差时,处于安全性和便捷性的考虑,不可能让员工把所有的数据资料都
近年来,用户生成内容(UGC)概念深入人心,促进了WEB2.0互联网技术的飞速发展。互联网不仅是网民获取信息的知识库,更成为网民表达观点、交流看法的互动舞台。人们进行评论、表
针对纸质出版物版权认证和保护的需要,本文对抵抗硬拷贝攻击的彩色图像数字水印技术进行了研究。本文首先分析了打印扫描过程对数字图像引起的失真,及这些失真对图像水印的影响
国内3G于2009年正式上市,随后迅猛发展,目前中国已经成为全球最大的移动通信消费国。而随着智能手机和平板电脑等的普及,基于3G网络的移动应用业务需求也越发迫切,随之会带来大量
在互联网时代,电脑技术普及到千家万户,科技越来越以一种直观的形式展现在人们面前,悄然改变着人们生活、交流的方式。以讲故事为例,传统的讲故事作为家长、老师教育小孩的一种重
随着计算机技术和多媒体技术的迅速发展,以及互联网的蓬勃兴起,人们获取信息的方式发生了翻天覆地的变化,各种图像获取设备以及图像处理技术也随之飞快发展。从光学照相机到如今
数据可用性问题是k-匿名隐私保护模型带来的一个具有挑战性问题。1998年L.sweedy提出了保护用户隐私的k-匿名隐私保护模型,泛化准标识符,虽然保护了用户的隐私但是大大降低了数
概念格理论又称为形式概念分析,用于概念的发现、排序和显示。它作为一种用于数据组织和数据分析的形式化工具,在理论研究和实际应用上都具有重要意义,已经在多个领域获得了成功
21世纪以来,计算机、通信等领域科学技术得到了飞速的发展,而作为一种多学科高度交叉融合技术的无线传感器网络(Wireless Sensor Networks,WSN)技术也已经得到了前所未有的发展。
在科技领域中,经常会出现一些的全局优化问题,而且这些优化问题往往具有大规模、强约束、非线性、多目标、建模困难等特点,这使得在使用传统的优化技术(如牛顿法、共轭梯度法