论文部分内容阅读
Hadoop集群下每个小文件均占据一个Block,一方面存储海量元数据信息消耗了大量的NameNode内存,另一方面,Hadoop为每个小文件单独启动一个Map任务,大量的时间花费在启动和关闭Map任务上,从而严重降低了MapReduce的执行速率。对此,在详细分析已有解决方案的基础上,采用CFIF将多个小文件分片打包到大分片中,给每个大分片只启动一个Map任务来执行,通过减少启动Map任务的数量,提高了处理海量小文件时的效率。通过设计Hadoop图像接口类,继承并实现CFIF抽象类,最终完成了对海