分布式数据流的查询处理技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:laowangtou2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术不断深入应用到金融、交通、军事、生态环境监测、Web应用等领域,需要计算机处理的数据类型和数据量与日俱增。近年来,数据流作为一种新数据类型的出现引起了数据库界研究人员的广泛关注,它具有容量无限性、流速不稳定性、内容不可预知性和来源分布性等不同于传统数据库数据的特点。将传统数据库技术用于数据流的查询处理时会在计算、存储和通信等方面都遇到极大的困难,需要研究新的适合于数据流的查询处理技术。  本文研究分布式数据流的查询处理问题,包括分布式数据流的数据操作算法、分布式数据流系统资源有效的连续查询处理技术和分布式数据流历史数据的存储和查询处理算法。  本文的主要研究成果分为如下五方面。  首先,提出了分布式数据流的聚集操作算法。基本思想是将分布式数据流系统中的原始数据流分组合并成复式数据流之后再进行传输。与其它工作相比,该算法不仅可以减少网络中数据的传输量,而且可以显式地控制数据流聚集操作的精度。  其次,提出了分布式数据流的多路Join操作算法。该算法是将多路Join查询操作中的Join条件转化为对数据流的过滤条件,在数据流的传输过程中尽可能多地过滤掉数据流中那些不能产生多路Join操作结果的数据,达到减少网络中数据传输量和减轻中央处理结点工作负载的目的,同时保证中央处理结点能够接收到完成多路Join操作所需的数据。  第三,提出了分布式数据流通信资源有效的连续查询处理算法。算法思想是将数据流中频繁数据项及其在未来一段时间内的预计出现次数提前发送给中央处理结点以代替原始频繁数据项的传输,目的是减少数据流中频繁数据项对通信带宽的占用量。然后在频繁数据项的有效预测期结束之前,将频繁数据项预计出现次数与实际出现次数之间的偏差发送给中央处理结点,以确保中央处理结点的查询精度。最后讨论了中央处理结点如何处理预处理后的频繁数据项,以支持分布式数据流上的连续查询处理。  第四,提出了分布式数据流内存资源有效的连续查询处理算法。重点讨论了在多数据流系统中,当数据流的流速与连续查询需求发生变化时,滑动窗口规模的动态调整问题。根据可用内存空间大小和连续查询需求,提出了四类动态调整滑动窗口规模的算法,实现了对连续查询三种服务质量级别的支持,提高了连续查询处理的效率和效果。  第五,提出了分布式数据流历史数据的存储管理以及聚集查询处理算法。算法思想是通过对外存历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,以实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询。同时,还给出了基于 HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析。  
其他文献
目前,实用的网络体系结构都是层次结构,TCP/IP 是目前互联网所使用的主流技术体系。由于最初的TCP/IP 协议栈本来就是为了窄带文本数据而开发的,为了适应宽带传输的要求该协
为此,本文在研究了WWW信息集成技术要点的基础上,采用信元模型,设计并实现了一个WWW信息集成系统——WIIS.该系统主要针对WWW上来自不同信息源的HTML页面,进行基于信元的解析
随着计算机网络技术的不断成熟和进步,使得基于网络的远程教育成为可能。作为网络远程教育不可或缺的一部分,虚拟实验的研究成为当前研究的热点。分析了虚拟实验技术在远程教
语义Web(Semantic Web)是下一代的万维网(World Wide Web),是为了解决现在Web上的信息缺乏计算机能够理解的语义这个问题。 本文的主要内容是研究语义Web环境下的知识表达
在本文中,作者根据Francesc Comellas提出的确定性Small World网络的理论,结合J.P.Hubaux等人的Ad hoc网络中的节点认证模式,提出了在无线通信网络中应用确定性Small World网络
近年来,随着互联网的高速发展,网上的多媒体信息也急剧增加,这些多媒体信息以图像为主.面对浩瀚的信息海洋,人们迫切希望能够快速高效地获取所需要的多媒体信息.有效地组织、
随着大数据时代的来临,科学研究、工业应用等领域的数据规模正爆炸式增长,与此同时复杂数据分析的需求也日益强烈。当前高性能计算在国家的科学研究和科技服务行业中占有举足
近几年来,网络的发展体现出了两方面的特性:第一是物理网络即大规模基础设施与信息网络的关联。第二是社会网络中人与信息网络安全的紧密联系,即社会网络与信息网络的关联。因此可以说,社会网络、信息网络与物理网络正在快速的融合在一起,形成一个新的融合网络。我们叫这个网络为CPSNet。这个新的融合网络一方面促进了工业生产效率,提高了人们的生活质量,但是另一方面在融合网络中,各个网络之间的复杂关联影响也使网络
近年来,我国电子政务(E_Government)取得了长足的进展,但也存在着不少问题,制约着我国电子政务的进一步发展。本文主要依托重庆市某单位的网上办公自动化(Office Automation)
目前,越来越多的企业用户正在为应用集成所困扰,据统计,在绝大多数公司,80%的IT资源都花费在基础设施的开发、集成与维护上,这就意味着只有20%的IT预算能够用于提升企业市场竞争力、