基于编辑距离的字符串相似连接的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:FinchPie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似连接具有广泛的应用,如,合并检测,模糊的关键字匹配,数据融合,数据清理等。相似性度量方法有许多种,如Jaccard距离、Cosine距离、编辑距离。文章主要集中于字符串编辑距离相似性连接的研究,编辑距离是指两个字符串从一个转化到另一个需要的最小编辑次数(插入、删除或者修改单个字符)。本篇文章将字符串中单个字符的频率其全局的信息。在此基础上,我们提出了一种基于数据划分的算法,这种算法能够有效的将不相关的数据划分开来,因而避免了不必要的计算。与此同时,一些新的过滤方法被提出,它们拥有低的时间复杂度并且能够过滤掉现有算法不能过滤掉的字符串待选对。实验里,我们使用真数据集验证了这种方法的高效性。在磁盘算法上,我们也提出了一个基于磁盘相似连接算法的框架,而且还证明了磁盘调度问题的难度并提出了不同的启发式磁盘调度方法。此外,我们还提出了基于该外存算法框架实现字符串相似性连接增量式计算的方法。这为以后的磁盘算法奠定了基础。
其他文献
计算机双目立体视觉是立体视觉技术中的一个研究热点,利用摄像机从不同角度拍摄物体所得的图像,就可以恢复出物体的三维空间结构信息,而三维空间结构信息数据是三维物体重建的依
寻找任意点对之间的最短路径是图数据管理中典型的、重要的基本操作之一。随着各种大型网络数据的不断涌现,实现在线的最短路径查询成为了当前图数据管理领域迫切需要解决的
基于话题的信息组织,检索,分析等服务已成为学术领域的重要研究话题。学术会议检索主要是根据学术会议名称、召开时间等信息进行检索,可以设定基本检索和高级检索。然而,这些基本
随着经济的飞速发展,人们对汽车的需求量不断攀升,交通事故的发生率也随之快速增长,安全驾驶也成为了社会关注的焦点之一。在所有的交通事故中,因驾驶员注意力不集中而造成的车道
互联网是海量信息资源库,随着大数据网络信息新时代的到来,信息量正以爆炸性的速度在增长,并且信息的组织是异构的、多元的和分布的,如何准确的在海量信息中寻找满足用户查询
当传统的C/S网络结构已经不能满足大众对文件下载的需求时,P2P在这种环境下运应而生,而P2SP技术是在吸收P2P、传统C/S结构两者优点的基础上发展而来,由于P2SP优点众多,已经从
车载网络是一种新的无线传感器网络,是智能交通系统的重要组成部分,在交通领域中发挥了重大的作用,尤其是在缓解道路拥塞、预防交通事故发生、车辆辅助驾驶以及车辆控制方面,有着
射频识别(RFID, radio frequency identification)是一种利用无线射频信号进行目标自动识别的技术,它具有无需人工干预、识别速度快、非接触识别等优点,随着射频识别技术的逐步发
随着计算机产业及互联网的不断发展,各行各业积累了海量的数据信息,图作为最通用的数据结构之一,在描述数据的属性及结构特征等方面具有显著的优势:一方面它可以描述生物、化学等
随着计算机网络和多媒体技术的迅速发展,数字图片等多媒体数据呈爆炸式的增长。处理和使用这些数据成为一个难题。图片检索、图片分割、物体检测以及协同图片分割等一系列的处