论文部分内容阅读
随着三网融合的不断推进,以视频、音频为主导的多媒体数据受到用户的广泛喜爱,而如何管理这些海量的多媒体数据并在其基础上建立高效的应用成为当前研究的热点。传统的单节点处理方式已经远远不能满足海量多媒体数据处理的实时性需求,所以需要将分布式技术和多媒体数据处理有效的结合起来。现有的分布式框架如Pregel、Dryad、Storm在处理多媒体数据时具有延迟低、实时性较好的特点。但是Pregel只适合处理图片数据,Dryad处理多媒体数据时负载考虑较为简陋,Storm适合处理实时流而不适合处理离线多媒体数据,所以本文采用表现较为均衡的MapReduce计算框架处理多媒体数据。本文针对多媒体数据(如视频和音频)处理作业在截止时间内完成率较低的问题,提出了面向多媒体数据的作业调度方法。本文首先研究了多媒体数据副本放置问题,其次提出了一种基于截止时间限制的作业调度算法,最后将副本放置和作业调度有效的结合起来。该方法有效的提高了数据本地性,减少了作业的响应时间,提高了作业在截止时间内的完成率。具体工作如下:1)研究了如何高效的进行副本放置。提出了多目标优化的动态副本放置方法(MDRMS),针对多媒体数据存储的特点,建立了系统磁盘性能、负载标准差和系统平均响应时间3个目标函数;使用MOEA/D算法对目标函数进行求解;然后提出了一种基于个体集中度的精英选择方法,从Pareto解集中选择最合适的副本放置方案;并根据数据副本的历史访问记录,动态地调整副本数量和位置。实验结果表明,MDRMS能节约磁盘存储空间并将副本放在性能较好的节点上。2)提出一种新的基于截止时间限制的作业调度算法,该算法在满足数据本地性的基础上从I/O负载和截止时间限制两方面来考虑进行作业分配。如果集群中有可用的计算资源,则采用非抢占式调度;如果紧急作业没有可用的计算资源,则采用抢占式调度,以缩短紧急作业的完成时间。此外,采用备份式任务和热数据复制来防止由于任务频繁挂起而导致的作业超时。实验结果表明,该算法有效地缩短了多媒体数据处理作业的响应时间,提高了作业在截止时间内的完成率。3)将提出的面向多媒体数据的作业调度方法应用在应急广播系统中,并通过实际系统的运行效果验证了方法的有效性和合理性。