论文部分内容阅读
科学数据是科学活动中最宝贵的资源之一,也是对于大多数科学家最重要的资源之一,如何尽可能充分地利用这些资源,使科学数据在科学家的创新活动中发挥尽可能大的作用,这是科学数据库长期持续发展所面临的亟待解决的问题,同样也是当前信息技术应用在科学研究领域的一个重要课题。网格(Grid)以资源共享为核心目标之一,如何有效地促进科学数据资源的共享和应用是网格技术、特别是数据网格技术的一个重要研究方向。
科学数据网格(Scientific Data Grid,SDG)项目是以科学数据资源的共享以及在此基础上的协同工作为核心的应用网格,由于科学数据库拥有海量数据,所以如何移动和传输这些海量数据成为科学数据网格中间件的技术难题之一。
基于以上考虑,本论文定义了一个数据网格中海量数据传输的体系结构,给出了系统中各个模块的交互方法和规则。系统介绍了如何保存海量的,动态生成的中间结果,如何给这些结果建立索引和如何高效的读取海量的结果集文件;并按照定义实现了数据网格中海量数据的同步传输技术。此技术可以对海量的,动态的中间数据进行缓存,并提供高效的检索技术,实现了数据分片传输和网络延时测量技术,从而有效缩短海量数据同步传输的时延,有效减小客户响应时间;同时按照定义实现了数据网格中海量数据的异步传输技术,实现了客户端的断点续传功能,达到海量数据异步传输的可靠性;实现了海量数据CRC校验功能,达到海量数据异步传输的数据完整性;实现了客户端并发传输功能,利用多线程技术,达到客户端较高的吞吐率。