论文部分内容阅读
随着网络及通信技术的发展、大屏幕终端设备与专用APP的普及,网络视频业务已成为当今互联网中最为重要的组成部分。其吸引大规模用户使用,产生了大量的网络流量并占据了大比例的网络带宽。同时,网络视频业务正在不断的展现出一些新的特性,例如综合性业务类型和移动网络接入方式等。因此,对当前网络视频业务的深入理解,将有助于优化网络资源部署、设计业务功能算法、调整广告投放策略等一系列任务,以获取潜在商业利益并进一步提升用户体验。在此背景下,本文基于从现实环境中采集的海量网络数据,运用大数据处理、数据挖掘、机器学习等技术,从多个角度对网络视频业务进行了深入详细的分析,并直接解决了若干现实问题。本文的主要研究内容和创新点如下:(1)对视频分发阶段用户与服务器之间的通信流程与通信特点进行分析,并提出了 一个通用的网络视频业务分发服务器检测方法。网络视频业务提供商使用分发服务器向其地理上广泛分布的用户进行视频交付。这些分发服务器持续传输大容量视频文件,因而在网络的管控与优化任务中是极为重要的。然而,分发服务器往往具有无域名、无固定IP地址、动态增减的特性,网络运营商对其难以精准识别。为此,本文首次提出了对网络视频业务分发服务器的检测问题。基于主动播测实验,本文揭示了网络视频分发的通用流程。基于大规模网络流量数据,本文深入分析了用户与分发服务器之间的通信特性,包括:HTTP交互间隔、传输文件类型、HTTP重定向行为、HTTP报文的URI及头部字段内容。根据分析结果,本文定义了多维度特征,并结合高效机器学习算法,最终提出了一个通用的网络视频业务分发服务器检测方法。本文进一步使用现实网络环境的数据对检测方法进行了验证。实验结果显示该方法性能优秀:准确率接近100%,同时召回率在85%以上。(2)基于从我国东北某省的移动通信网中采集的超过170亿条网络流量话单数据,从数据消耗、位置移动、业务使用三个方面,对新兴的移动网络环境中视频用户的行为特性进行了深入的分析。本文的三个分析角度,分别对应着用户在核心网、无线接入网以及业务提供商处的资源使用情况。在数据消耗方面,本文分析了用户的流量字节数与活跃时长分布。并且,本文发现了重度用户的存在,并提出了一个无参数的检测方法。在位置移动方面,本文分析了用户访问小区的数量分布及位置变化情况。基于此,本文首次从空间维度上定义了用户观看网络视频时的移动模式,并对各模式的移动轨迹和停留时间进行了详细研究。而在业务使用方面,本文则分析了用户观看视频的数量分布,并揭示了观看时刻的整体特性。此外,本文还发现并衡量了用户的重复播放行为。最后,本文将不同分析角度的重度用户进行了关联分析,并跨角度比较了重度用户与非重度用户的行为特性差异。(3)基于从网络运营商处采集的超过120亿条大规模流量数据和从视频网站处爬取的连续30天的长时期视频元信息,从用户活跃度、视频属性、用户关系三个方面,对新兴的综合性网络视频业务中两种关键类型用户的喜好特性进行了深入的分析。对于网络视频业务用户喜好的研究,本文首次同时考虑了上传者和播放者两种不同类型的用户,并进行了对比性的分析工作。在用户活跃度方面,本文研究了用户在不同粒度的时间维度上的分布特性,并对比了两种用户的整体业务使用情况。在视频属性方面,本文分别分析了被上传视频和被播放视频的静态、动态属性特点,包括视频类型、视频时长和视频播放量等内容。最后,在用户关系方面,对于上传者,本文研究了粉丝数的整体分布特性及对播放量的影响;而对于播放者,本文构建了基于视频偏好的用户关系网络,并揭示了该网络的小世界特性。(4)基于超过20万条新上传视频的一个月播放量追踪数据,从群体和单体的角度对网络视频的流行度特性进行了深入分析。从视频群体的角度,本文首先分析了视频长期播放量的整体分布特性,并使用Pareto Type 2分布进行拟合。然后,根据视频的长期播放量,定义了不同的流行度级别。最后,本文探寻了视频类型与视频内容标签对于视频长期播放量的影响。从视频单体的角度,本文首先分析了视频的每日播放量获取情况,并定义了活跃天的概念。基于活跃天出现的位置,进一步探寻了各视频的活跃期长度。接下来,本文衡量了视频在各天内获取播放量的均匀程度,并提出了播放量激增的概念。基于播放量激增的数量和位置,本文定义了一系列的播放量增长模式,以描述视频单体间不同的流行度演化趋势。在此基础上,本文进一步对流行度级别与播放量增长模式的对应关系进行了研究。(5)基于网络视频流行度特性的分析结果,面向不同预测对象,提出了多种高效的网络视频未来流行度预测方法。鉴于网络视频庞大的数量和极不均匀的用户关注度,对其流行度的深入理解并进一步预测,具有十分重要的现实意义。本文分别研究了对网络视频未来流行度的级别预测问题和数值预测问题。对于未来流行度的级别预测,本文从视频属性、上传者属性、内容话题、文本语言和历史动态五个角度提取多维度特征,并结合多种高效的机器学习分类算法,在不同情形下进行了实验分析。我们发现在视频发布时,对其未来流行度级别进行立即预测是可行的,平均精度和平均召回率分别可达为74%和60%。而如果引入初始观察期,我们能够大幅度提升预测性能,平均精度和平均召回率分别可达95%和91%。而对于未来流行度的数值预测,本文首先对视频的早期-长期播放量关系进行了研究。然后,基于播放量增长模式和基于流行度级别转换,本文分别提出了两种预测方法。实验结果显示,在相对误差指标上,本文提出方法可优于目前先进的基线方法超过30%。