无结构和半结构信息检索相关技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:bigjohn6120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索(Information Retrieval,IR)相关技术是当前最为活跃的研究领域之一,它指的是对信息项进行表示、组织、存贮和查询。借助于计算机和网络等信息技术,如今人们已经能够快速有效的检索到所需的大量信息,但是,随着信息时代的发展,信息总量进一步增长,如何按照给定的性能指标在新的信息总量上更准确的找到所需要的信息,这是摆在研究者面前的一个问题。现代信息检索均以一定的模型或者索引机制作为基础。本文在信息检索模型一互关联后继树一的基础上,提出了若干算法模型以期达到更好的检索性能,并使之适用于一些新的应用领域。本文前面部分总结了互关联后继树本身的模型和特点。为了进一步提高模型的检索速度,本文提出在二元后继树的基础上提高排序程度,从而得到了双排序后继树(Double Order Successive Tree,DOST)。然后本文进一步讨论了该模型与pat数组结构的关系,从而进一步奠定了互关联后继树体系在信息检索方面的理论基础。作为文本检索和XML检索的共同的基础,二元后继树模型对于支持无结构和半结构化数据检索意义重大。因此本文对围绕该模型的一系列问题进行了进一步研究,本文讨论了分库合库算法,模型增量修改,压缩编码等算法问题及相应措施。近年来,以XML为代表的半结构化数据相关应用得到迅速发展。如何利用半结构化数据中现有的结构信息优化检索以及如何进行半结构化数据中的全文信息进行综合查询,这是信息检索领域面临的新问题。本文讨论了将二元后继树引入XML索引领域得到的半结构化信息检索模型—Xistree—的基本性质和相关算法。文中在实现Xistree模型的基础上,首先与XISS进行了对比实验,然后与有名的Native XML DB实用系统Timber和XIndice进行了对比实验。结果表明,本系统在大数据集下,对于已知路径模式的简单查询和分支算法的性能都取得了非常好的成果。将文本等无结构化数据的检索转化为半结构化检索问题从而最终实现基于语义的检索是当前研究者们努力的一个方向,因此基于概念语义的半结构化信息检索受到人们的普遍关注的信息检索新领域。如何更准确的度量用户需求和数据之间的关系,更高效的返回结果从而提高用户的搜索体验,将成国未来的研究发展进一步需要解决的问题。在本文中,主要针对半结构化数据中的概念检索问题,提出了概念语义模型构建的基本思想以及概念语义相关度匹配算法思路以及如何利用XML的结构信息进行SLCA查询。与以往的SLCA算法相比,本文所提出的算法在时间复杂度上有了较大提高。概念相关性是信息检索的重要内容,为了自动发现概念相关性,需要借助概念相关频繁项挖掘算法,因此本文还提出了在一种模式数据上挖掘的算法—自适应的频繁项挖掘算法。本文首先提出了一种基于FP-tree的简单深度优先搜索算法NDFS,并简单分析了其在不同数据集上的特性;随后本文进一步将NDFS和经典的FP-growth算法进行结合,提出了一种在挖掘过程中根据局部空间特征动态采用不同策略的自适应算法(Self-Adaptive FP-growth,SAFP)。本文对我们所开发的XML原型系统和二元后继树模型在中国电信集团黄页信息有限公司项目《黄页信息检索》中的应用进行了简单的介绍,并试图阐述如何将前面几章讨论的文本索引技术和基于概念的语义索引方法结合起来,形成一个综合了结构化、半结构化和无结构化数据的信息检索系统。最后本文对到目前为止所做的工作进行了回顾,并提出了对未来进一步的工作的展望。
其他文献
进一步了解医改后内蒙古自治区乡镇卫生院卫生资源配置的现状,为加快我区乡镇卫生院卫生资源合理配置提供决策依据。通过对乡镇卫生院的物力资源、人力资源和财力资源等与全
图像分割是图像分析与计算机视觉的关键环节,同时还是基于对象的图像与视频编码的支撑技术,它有着广泛的应用需求。但绝大多数现有方法只考虑了底层特征,因此只能将图像划分
白堤、苏堤、范公堤,是流芳千年的几道长堤,巡湖捍海,治水利民,馈人以美景与遐思。$$ 白堤和苏堤都在杭州。白堤得名于唐朝。原名白沙堤,长约公里许,西接孤山,东至断桥,横穿西湖,绿
报纸
本文研究了外加L-赖氨酸(L-Lys)对鲢肌球蛋白热聚集行为的影响。将1、5、10、20 mmol/L的L-Lys添加到肌球蛋白中,分别进行未加热(25℃下稳定30 min)、预加热(40℃下加热60 mi
图像理解是研究用计算机系统解释图像,实现类似人类视觉系统理解外部世界的一门科学,它主要讨论从图像中获取信息和解释信息两个方面。自Marr于二十世纪八十年代提出视觉理论以
由于危害严重、攻击范围大、爆发速度快,蠕虫已经成为目前互联网所面临的最为严重的安全威胁之一。目前有效的模拟环境的缺乏,影响了对蠕虫的深入研究;同时,检测技术的不准确
目的观察临床基线资料无统计学差异的格雷夫斯病(Graves'disease,GD)患者首次131I治疗时采用甲状腺CT估算重量法与甲状腺静态ECT核素显象估算法的区别,并比较两种不同方法短期疗
电子技术的飞速发展及在工程机械上的广泛应用,使得工程机械的智能化程度越来越高,特别是在控制器技术被引入工程机械控制领域后,耠工程机械的发展带来了划时代的变化,工程机械的
[目的]探讨营养和运动干预在肥胖型多囊卵巢综合征(PCOS)不孕病人中的应用效果。[方法]将100例肥胖型PCOS不孕病人随机分为观察组和对照组各50例,对照组病人给予常规饮食建议