论文部分内容阅读
随着信息技术不断深入应用到金融、交通、军事、生态环境监测、Web应用等领域,需要计算机处理的数据类型和数据量与日俱增。近年来,数据流作为一种新数据类型的出现引起了数据库界研究人员的广泛关注,它具有容量无限性、流速不稳定性、内容不可预知性和来源分布性等不同于传统数据库数据的特点。将传统数据库技术用于数据流的查询处理时会在计算、存储和通信等方面都遇到极大的困难,需要研究新的适合于数据流的查询处理技术。 本文研究分布式数据流的查询处理问题,包括分布式数据流的数据操作算法、分布式数据流系统资源有效的连续查询处理技术和分布式数据流历史数据的存储和查询处理算法。 本文的主要研究成果分为如下五方面。 首先,提出了分布式数据流的聚集操作算法。基本思想是将分布式数据流系统中的原始数据流分组合并成复式数据流之后再进行传输。与其它工作相比,该算法不仅可以减少网络中数据的传输量,而且可以显式地控制数据流聚集操作的精度。 其次,提出了分布式数据流的多路Join操作算法。该算法是将多路Join查询操作中的Join条件转化为对数据流的过滤条件,在数据流的传输过程中尽可能多地过滤掉数据流中那些不能产生多路Join操作结果的数据,达到减少网络中数据传输量和减轻中央处理结点工作负载的目的,同时保证中央处理结点能够接收到完成多路Join操作所需的数据。 第三,提出了分布式数据流通信资源有效的连续查询处理算法。算法思想是将数据流中频繁数据项及其在未来一段时间内的预计出现次数提前发送给中央处理结点以代替原始频繁数据项的传输,目的是减少数据流中频繁数据项对通信带宽的占用量。然后在频繁数据项的有效预测期结束之前,将频繁数据项预计出现次数与实际出现次数之间的偏差发送给中央处理结点,以确保中央处理结点的查询精度。最后讨论了中央处理结点如何处理预处理后的频繁数据项,以支持分布式数据流上的连续查询处理。 第四,提出了分布式数据流内存资源有效的连续查询处理算法。重点讨论了在多数据流系统中,当数据流的流速与连续查询需求发生变化时,滑动窗口规模的动态调整问题。根据可用内存空间大小和连续查询需求,提出了四类动态调整滑动窗口规模的算法,实现了对连续查询三种服务质量级别的支持,提高了连续查询处理的效率和效果。 第五,提出了分布式数据流历史数据的存储管理以及聚集查询处理算法。算法思想是通过对外存历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,以实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询。同时,还给出了基于 HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析。