使用模式聚类的多领域XML关键字检索

来源 :复旦大学 | 被引量 : 0次 | 上传用户:d2587754
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML关键字检索近年来成为XML研究领域中的一个热点,它将XML处理技术和信息检索技术结合起来,为用户提供更友好的检索方式。但是,当前XML,关键字检索主要关注的是如何在单个或者少数个文档中找出匹配的结果。随着Web数据的爆炸式增长,针对单个文档或者单个领域的关键字检索明显已经不能满足用户的查询需求。如何在多领域、海量异构XML数据上进行高效准确的关键字查询成为一个重要问题。  传统的数据集成技术为异构多数据源问题的提供了一个可行的解决方法。但是数据集成需要使用一个中间模式将源数据集映射为一个统一的数据文档,改变了原始数据的结构和特征,并不适合关键字检索的特点。针对多领域海量数据的特点,本文提出了一种在多领域XML数据集上进行高效关键字检索的方法,首先使用模式聚类将各个数据集分为数个领域,然后利用这些领域划分结果通过信息检索技术推测查询关键字的语义,进而对结果进行排序。整个处理过程可以分为两个部分:  首先,针对海量数据和XML树形结构的特点,本文提出了一种新颖有效的XML模式聚类方法,可以在无人工干预的情况下将XML数据集根据其模式聚集到不同的领域。其次,对于聚集好的各个领域中的数据,针对查询的关键字,对相关领域计算  关键字的评价得分,评分的高低代表了用户的关键字的查询语义和领域的紧密程度,然后将再其结合XML关键字本身查询结果进行排序后将结果返回给用户。
其他文献
随着计算机网络的飞速发展,网络安全引起了人们越来越多的关注,入侵检测则成为安全专家积极研究的重要课题。入侵检测方法主要分为误用入侵检测和异常入侵检测,它们各有各的优势
互联网的迅猛革命将我们带入了信息社会和网络经济时代,对企业发展和个人生活都产生了深远的影响。基于互联网电子商务模式的虚拟企业不再需要像传统物理环境下的企业那样大量
作为物联网系统关键技术之一,RFID(无线射频识别技术)已被广泛应用于各种领域。然而由于RFID数据具有海量性、实时性、语义隐含性和数据不准确性等特点,直接利用现有的传统数
在医疗保险领域中,随着经济的发展和制度的完善变化,参保人员增多、医保业务更复杂、涉及的组织机构越来越广泛,需要管理的信息朝着多样化的方向急剧增长,业务系统之间的信息共享
机器翻译是采用计算机技术来完成现实生活中各种语言间的互相翻译,是自然语言处理的一个重要方向。近年来,基于语料库的机器翻译方法受到了研究者的追捧。针对少数民族语言机
随着视频处理、人工智能、硬件和通信等技术的迅速发展,智能视频监控已成为安防领域的一项重要手段,广泛的应用于交通枢纽、商场、住宅小区等区域。背景减除作为最为有效的运动
股票市场是反映经济动向的“晴雨表”,对股票价格趋势的准确预测可以引导市场平稳运行,也可以使投资者最大限度地规避风险,做出正确的投资策略。由于受到政治、经济、社会等各种
随着数字化时代的到来,图像信息以其信息量大、传输速度快、作用距离远等一系列优点成为人类获取信息的重要来源及利用信息的重要手段。图像处理技术已经成为科学研究、社会
海上船舶监控图像的自动检测识别对于了解海上船舶分布,海上目标跟踪,海上船舶管理、航道管理、休渔管理、禁渔区管理、海关管理,海防安全等方面都有重要的用途。本研究在分
本文针对传统的基于B/S的电力MIS系统存在的缺陷,分析了Intraweb的工作原理及组件开发模式,并根据供电企业管理体系结构,提出了一个基于WEB和组件技术相结合的企业级软件设计模型——WEB组件模型,并制定出一系列当前系统迫切需要的自定义WEB组件的设计和开发的方案。本文主要研究了电力MIS系统中自定义WEB组件的分析、设计与实现。其任务是为已有电力MIS系统建立一个自定义组件平台,在该平台下