论文部分内容阅读
信息时代带给人们的影响是震撼的,数据作为信息最主要的表现形式之一,无论在广度还是深度上都已经深刻渗透到我们的生活中,研究表明,全球数据量以年均80%的速度持续增长,数据时代已经悄然来到。现在,海量数据存储已经有了较好的解决方案并已实现,而且网络存储正在走向平民化,SUN,惠普,博科等公司都提供完善的策略,高性能的设备支持大容量存储。但是,面对爆炸性增长的数据,如何沙里淘金呢?这一问题,即海量数据的搜索和处理正在研究阶段。数据挖掘,分布式计算,云计算等技术都是基于海量数据处理这一大背景的。数据挖掘的发展将数据坟墓转换成知识金块,并广泛应用于金融、零售业、电信、科学探索等;云计算概念的提出无疑具有时代意义,它将丰厚的资源组织起来提供强大的计算能力和服务。若要发挥他们的魔力,高性能算法无疑是重要的技术基础,但是一些传统技术在庞大的数据规模下,性能并不能令人满意,如何设计适用海量数据的算法是至关重要的。现在,设备的价格随着硬件的发展大幅下降,空间不再是瓶颈,时间效率日益成为最关注的焦点。在海量数据处理中,面向离散数据的二维表排序是一个基础操作,若先对二维表排序,将大大提高后续数据处理效率,而且许多复杂问题的解决最终都归为二维表排序,二维表排序在数据挖掘、机器学习、数据库、粗糙集等领域均有广泛应用。本文在深入分析了现有二维表排序算法后,针对海量数据对算法效率要求高这一问题,将二维表快速排序算法进行改进,并在空间换时间的思想下提出基于Hash的二维表排序算法,最后将其扩展到云计算模型下的海量二维表数据处理。该算法深化了粗糙集的等价类划分思想,将有序等价类推广到二维表排序上,并利用划分块之间的独立性实现云模型下的并行计算,随着划分的层层细化,并行度增加,大大提高了效率,在海量数据集上的优势尤为明显。本文设计的基于云计算模型的二维表排序方法将数据分割、各节点计算任务的分派及排序流程中的有序等价类划分结合在一起,减少了工作开销,此模型查询数据的效率非常高,可用于云平台下以查询为主的高性能应用程序。