论文部分内容阅读
在线社交网络(Online Social Networks)已经渗透到人们生活的方方面面,对人们的日常生活产生了深远影响。社交网络中的信息过载现象使得人类关注度(Human Attention)成为稀缺资源,所以,对人类关注度的研究,即流行度(Popularity)分析与预测问题,成为了社交网络分析的基础工作之一。研究社交网络中流行度分析与预测问题有助于加深对社交用户行为的认识、理解社交现象、指导应用设计,对社会稳定和舆情分析引导也具有重要意义。目前,在流行度分析与预测问题上已有大量研究,但是多数工作忽略了信息传播过程中其流行度是随时间不断变化的事实,对流行度演化(Popularity Evolution)问题缺乏研究。本文旨在研究社交网络中流行度演化分析与预测问题。该问题的研究是一项具有挑战性的工作,具有演化模式复杂、演化过程受多重因素交互影响的两大挑战。为应对挑战,本文围绕“演化模式分析”、“演化影响因素分析”、和“演化预测”三个核心问题,以天涯论坛热点话题和Twitter Hashtag为数据集展开研究。本文主要工作及创新性总结如下:(1)流行度演化模式分析方面,针对传统工作对演化模式认识不足的问题,提出了一个基于时间序列的演化模式建模方法。该方法揭示了流行度演化过程的外在表现。对演化过程的三个模式:平均(Average)、趋势(Trend)、周期(Cyclicity)构建了基于时间序列的拟合模型和预测模型。相较于传统演化模式模型,本文提出的时间序列模型具有更高的拟合及预测准确率。(2)流行度演化影响因素分析方面,针对传统工作未考虑演化分阶段的事实,提出了一个基于相关性分析的演化分阶段影响因素分析方法。该方法揭示了流行度演化过程的内在规律。对演化过程划分了三个关键点:爆发(Burst)、顶峰(Peak)、衰退(Fade),并给出了一种提取关键点的通用方法。通过各类影响因素的量化,以及因素/关键点的相关性分析,得出以下客观规律:流行度达到阈值的时间和三个关键点时刻都具有高度相关性,是主导特征;大V用户数只有在流行度演化最初阶段,和关键点时刻具有较强的相关性;早期累积流行度是关键点累积流行度的主导特征。(3)流行度演化预测方面,针对传统工作对演化时间预测的欠缺,提出了两个新预测任务(活跃期时长的预测和演化关键点发生时刻的预测),并给出了相应的预测方法。对于活跃期时长的预测,提出了一个基于深度学习,对动态因素和静态因素做嵌入的预测方法;对于演化关键点发生时刻的预测,提出了一个基于机器学习,结合特征选择和模型训练的预测方案。对比实验表明,本文方法具有更高的预测准确度。(4)搭建了社交网络流行度演化分析预测平台。首先对社交网络热点事件的全网信息进行全面采集,然后从数据层、存储层、应用层三个层级设计并实现了该平台。利用本文提出的相关技术,取得了良好的应用效果。