支持带有通配符的字符串匹配算法

来源 :东北大学 | 被引量 : 2次 | 上传用户：jayden1986

【摘要】

：

带有通配符的字符串匹配问题已成为诸多领域的研究热点,例如生物信息学、数据库系统中的SQL查询、搜索引擎的文本索引、文件名查找、网络入侵检测等领域。然而,带有通配符的

【作者】

：

运正佳

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2011年01期

【关键词】

：

通配符 q-gram索引后缀树索引过滤字符串匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

带有通配符的字符串匹配问题已成为诸多领域的研究热点,例如生物信息学、数据库系统中的SQL查询、搜索引擎的文本索引、文件名查找、网络入侵检测等领域。然而,带有通配符的查询模式在更好的满足用户查询需求的同时,也使得查询处理过程变得更加复杂,如何高效地支持带有通配符的字符串匹配问题面临着很大的挑战。目前,关于通配符的匹配问题大多都是针对在线数据搜索,基于索引的离线查询方法较少,并且这些算法中索引占用的存储空间较大,对于通配符的定义也有所限制,不具有普遍性。本文主要研究查询模式串中含有可代表任意长度字符串的通配符“*”以及可代表任意一个字符的通配符“?”时的字符串匹配问题,包括精确字符串匹配问题以及近似字符串匹配问题。由于gram索引结构在空间大小以及查询效率上的优势,本文首次将gram索引结构用于带通配符的字符串匹配问题。首先,本文对现有的支持带有通配符的字符串匹配技术进行了概述。通过对现存算法的对比分析,本文提出了基于gram索引结构的支持通配符的精确字符串匹配算法。通过将带有通配符的查询模式串分解为若干不含通配符的查询片段,成功的将带有通配符的复杂查询问题转化为不含通配符的精确子串查询问题,并且在片段查询的过程中运用了长度过滤、位置过滤以及计数过滤等过滤方法,提高了查询速度。然后,本文对精确匹配算法进行了扩展,使其能够适用于近似匹配问题。在查询片段中利用近似匹配常用的鸽巢原理过滤法,可以排除部分不是查询结果的字符串。但是此方法只适用于编辑距离阈值k较小的情况,并且在带有通配符的查询问题中过滤效果不是很理想。因此,本文提出了另一种基于gram索引结构的支持通配符的近似字符串匹配算法,通过计算与查询模式串相匹配的字符串的公共gram数的下限值进行过滤,排除了大量不可能是查询结果的字符串,提高了查询速度。最后,基于真实数据集上的大量实验结果与分析显示了本文提出的基于q-gram索引结构的带通配符字符串匹配算法在减少空间开销的同时具有良好的过滤能力和查询效率。

其他文献

事务性组合Web服务的并发控制方法研究

Web服务(Web Service)是构造下一代分布式计算平台的基本技术。单个Web服务所能够提供的功能有限,服务组合(Service Composition)通过集成现有的Web服务从而创建新的、高层的

学位

Web服务事务性组合并发控制方法

面向网页内容的K-means聚类算法的研究

近年来,随着Internet的飞速发展和生活中信息化水平不断提高,数据资源呈爆炸式增长,导致获取目的信息困难,信息的利用率降低,而高维数据日益成为主流,所以在实际的聚类应用中

学位

高维稀疏相似度度量权重计算K-means特征选择最大最小规则

面向训练仿真系统的动态线程池技术研究

线程池技术是提升多线程应用程序性能的重要技术，已经广泛地应用在各种网络服务器应用程序、中间件等领域。线程池的研究重心已经从静态线程池转移到动态线程池，然而，如何动态提

学位

计算机仿真动态线程池线程调度程序设计

改进的蚁群算法及其在计划调度中的优化研究

项目是指特殊的、将要被完成的有限个任务的集合。它是指在一定时间之内,满足所有目标的多项相关工作的总和。项目管理是指以项目为对象的系统组织管理方式。它通过搭建临时

学位

计划评审蚁群算法资源受限项目调度运筹学

用户主导的WinWin协商过程及在需求分析和缺陷协商中的应用

在软件开发的过程中,需求项如果没有经过深入协商,并且没有在各涉众之间达成一致,会对后期的开发带来不必要的重复工作,导致开发成本上升,甚至项目失败。WinWin协商模型是一

学位

用户主导WinWin协商协商过程缺陷协商需求协商

流化业务中跨域身份管理和受控业务接口的研究与实现

互联网业务呈现出以用户为中心的融合趋势，多数机构已在管理域内实现单点登录和Web业务融合，而跨管理域的业务融合应用较少。流化业务在此背景下被提出，它是在互联网分布式计算

学位

流化业务跨域身份认证域间业务状态Web教学联盟受控业务接口

基于DSSEC公钥发布机制研究与实现

网络的不断发展使得信息安全成为网络应用不可缺少的技术基础，网络信息系统需要保护其真实性、保密性、完整性以及可追究性。公钥密码技术是信息安全的核心技术，它给电子商务的

学位

公钥发布机制网络信息系统域名系统IP地址信任锚点安全协议

面向主题的多源Web上结构化数据集成的研究与实现

随着Internet的不断发展,Web数据逐渐成为人们关注的焦点。Web上拥有着大量有价值的数据,其中Web源上的结构化数据就是其中之一。Web源上的结构化数据是指将Web源上的网页数

学位

HadoopMapReduceCassandra本体领域知识库数据集成多数据源

Video OCR研究

随着信息技术和互联网技术的高速发展,视频逐渐成为了人们获取和传递信息的一种重要媒介。视频中的文字是一种高级语义信息,能够为视频索引与检索提供十分重要的辅助信息。如

学位

视频文本定位视频文本跟踪视频文本分割视频文本识别

基于人眼示意眼模型的视觉真实感绘制

视觉真实感绘制是通过对人眼进行光学建模，以人眼模型为成像模型，对人眼的多种成像特性和视觉缺陷进行模拟成像的技术。它能够绘制反映人眼球面像差、近视和远视等视觉特性的图

学位

眼科诊断视力矫正人眼成像图像处理

支持带有通配符的字符串匹配算法

其他学术论文