海量二维表数据的排序问题研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:peterchill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代带给人们的影响是震撼的,数据作为信息最主要的表现形式之一,无论在广度还是深度上都已经深刻渗透到我们的生活中,研究表明,全球数据量以年均80%的速度持续增长,数据时代已经悄然来到。现在,海量数据存储已经有了较好的解决方案并已实现,而且网络存储正在走向平民化,SUN,惠普,博科等公司都提供完善的策略,高性能的设备支持大容量存储。但是,面对爆炸性增长的数据,如何沙里淘金呢?这一问题,即海量数据的搜索和处理正在研究阶段。数据挖掘,分布式计算,云计算等技术都是基于海量数据处理这一大背景的。数据挖掘的发展将数据坟墓转换成知识金块,并广泛应用于金融、零售业、电信、科学探索等;云计算概念的提出无疑具有时代意义,它将丰厚的资源组织起来提供强大的计算能力和服务。若要发挥他们的魔力,高性能算法无疑是重要的技术基础,但是一些传统技术在庞大的数据规模下,性能并不能令人满意,如何设计适用海量数据的算法是至关重要的。现在,设备的价格随着硬件的发展大幅下降,空间不再是瓶颈,时间效率日益成为最关注的焦点。在海量数据处理中,面向离散数据的二维表排序是一个基础操作,若先对二维表排序,将大大提高后续数据处理效率,而且许多复杂问题的解决最终都归为二维表排序,二维表排序在数据挖掘、机器学习、数据库、粗糙集等领域均有广泛应用。本文在深入分析了现有二维表排序算法后,针对海量数据对算法效率要求高这一问题,将二维表快速排序算法进行改进,并在空间换时间的思想下提出基于Hash的二维表排序算法,最后将其扩展到云计算模型下的海量二维表数据处理。该算法深化了粗糙集的等价类划分思想,将有序等价类推广到二维表排序上,并利用划分块之间的独立性实现云模型下的并行计算,随着划分的层层细化,并行度增加,大大提高了效率,在海量数据集上的优势尤为明显。本文设计的基于云计算模型的二维表排序方法将数据分割、各节点计算任务的分派及排序流程中的有序等价类划分结合在一起,减少了工作开销,此模型查询数据的效率非常高,可用于云平台下以查询为主的高性能应用程序。
其他文献
目的制定肺癌胸腔镜手术患者围麻醉期安全护理路径文本,评价肺癌胸腔镜手术患者围麻醉期安全护理路径的实施效果。方法本研究分两阶段进行:本研究分两阶段进行:(1)参考麻醉科
介绍一种特种起重机的旋转传动装置及其支承桅柱的设计,该起重机的旋转传动装置及其桅柱是整机关键的部件,有许多特殊的受力结构特点。
利用在线振动分析技术对高速线材轧机锥齿轮箱的故障进行诊断,实现设备的预知性维护,通过实例介绍了用该技术评价设备的故障程度及确定故障源的过程和经验.
目的了解全麻术后患者麻醉恢复期并发症的发生情况并分析其原因,为临床准确评估患者病情并及时进行针对性护理提供临床参考。方法对麻醉恢复室接收的528例全麻术后患者进行病