【摘 要】
:
20世纪以来,信息化数据以指数规模增长,这使得人们从纷乱复杂的异构数据中迅速而有效地得到自己关注的信息变得困难重重,而索引是信息获取过程中最重要的一步。目前,结构化数
论文部分内容阅读
20世纪以来,信息化数据以指数规模增长,这使得人们从纷乱复杂的异构数据中迅速而有效地得到自己关注的信息变得困难重重,而索引是信息获取过程中最重要的一步。目前,结构化数据和非结构化数据的索引研究已取得重大成果,但单一类型的数据索引已无法满足用户需求,所以研究支持多种类型的数据索引已迫在眉睫。当前形势下的异构数据类型主要包含两种:一种是以关系型数据库为代表的结构化数据;另一种是以文本文档、HTMIL网页、Email等为代表的非结构化数据。结构化数据的主要查询方式为SQL,非结构化数据的主要检索方式为关键词搜索。随着数据信息化的快速推进,能同时检索多种数据类型的索引已引起人们关注。异构数据索引不同于单一类型的数据索引,它能够支持各种类型的数据检索。本文对国内外各种异构数据处理模型及其查询语言进行了详细的分析、总结,综合各个模型的优缺点,提出了一种基于关键词描述的数据模型。该模型可以较好地表示结构化数据和非结构化数据。此外,本文还提出了一种基于部分匹配的异构数据索引方法,其主要思想是预先计算并存储某些特定的查询及相应的结果。索引的构建和查询整体上遵循部分匹配思想。在构建时,充分利用剪枝及关键词计数排序策略,较大地缩短了索引构建时间;在查询时,主要依靠关键词计数并采用分层检索的方式,较大地减少了用户检索时间。实验结果表明该索引方法能够较好地解决异构数据索引问题,具有良好的性能。
其他文献
众所周知,当今世界是一个知识化的时代,越来越多的人们已经了解到知识的重要性,他们希望能掌握更多的知识以求在未来的竞争中获得更多的优势。一般而言,从知识是否能够用语言直接表达和有效转移的属性来看,可以将知识分为外显知识和内隐知识两种类型。而知识社群作为将内隐知识转化为外显知识的一种很好的机制也越来越多的为更多的企业及研究人员所接受。 在这种情况下,如果能够通过知识社群对员工进行综合评估,就可以
本文对构建eLearning环境中的方法与技术进行了研究。文章针对现有eLearning应用的局限性,提出了利用基于Web服务的SOA扩展eLearning应用,并通过SmartClient作为服务整合的客户
针对当前工作流系统存在的各种问题:柔性差、鲁棒性差、标准化程度差、互操作性差等,本文以某公司科研项目管理为课题背景,结合现代企业分布性、网络化、与原有系统集成等新特点
本文阐述了移动平台即时通讯技术以及国内外研究现状,分析了移动平台即时通讯的前景。介绍了即时通讯技术基于的Jabber/XMPP协议的原理,基于Jabber/XMPP协议提出总体设计,重点论
随着计算机网络和多媒体技术的迅猛发展,Internet上的Web应用一直呈爆炸式的增长,其中绝大部分是HTTP请求服务。由于HTTP请求的增长的过快,导致许多的网站的Web服务器面临超载的
工程三视图是以正投影原理在三个正交平面上的正投影来表达三维零件结构和形状的一种有效手段。当前机械零件设计领域仍以二维图纸设计为主,而三维形体不仅有完整的几何拓扑信
随着互联网的发展和普及,全球化成为商业软件获得成功的关键因素。随着软件业的发展,软件全球化的支持也在不断得到加强。出现了各种辅助应用软件进行全球化开发的标准和类库
垃圾邮件已经成为互联网的一大公害,这些邮件在占据邮件服务器大量存储空间的同时,传播各种有害信息,给社会和个人造成了巨大的危害。因此,研究邮件智能过滤具有重要意义。以
自动测试仪(ATE,AutomaticTestEquipment)从用途来分,大致可分为两类:一种是通用型,作为一种通用检测设备,可以在某一领域有广泛的使用空间,如,万用表、示波器等。另一种是专用型,一
本文首先从软件体系结构角度出发,比较系统地阐述了SOA的理论知识,分析了SOA的概念、模型和SOA中各个角色的职责功能,并归纳、讨论了SOA的特点、实现技术的发展现状和未来的发展