论文部分内容阅读
作为Web2.0技术的典型应用,微信、微博等在线社交网络得到广泛普及和快速发展,为人们提供了形式多样的新型交流平台,媒体互动与信息传播变得愈发便利。影响最大化问题作为社交网络分析领域的核心科学问题,近年来得到了学术界和业界的广泛关注和大量研究。影响最大化问题旨在从社交网络中选取若干节点作为信息扩散的初始节点,使得从它们发出的信息经过网络级联传播,产生的影响范围能够达到最大。影响最大化问题研究具有广泛的应用前景,如政府信息发布、产品网络营销、技术革新转移、网络病毒预防等等。 影响最大化问题在经典的独立级联模型和线性阈值模型下都是NP-难的,因此如何在当下大规模网络环境下实现影响最大化的快速准确求解仍是大家关注的焦点问题。一方面,随着网络用户的广泛参与和数据量的爆发式增长,贪婪算法虽有理论精度保障,但难以在大规模网络结构上展开实际应用;另一方面,指导思想各异的启发式算法虽执行效率普遍较高,可以在短短数分钟甚至数秒之内完成对大规模网络影响最大化问题的求解,但这些算法却都缺乏精度保障,难以维持输出结果的稳定性。此外,虽然影响最大化源于社交网络中病毒式营销,但在其他的实际应用问题中尚显乏力,例如社交网络中很多其他有意思的问题可以用影响最大化的思想去解决,再者,一些刻画社交网络中用户行为的传统模型在引入社交影响之后可以对用户行为给出更精确的刻画,但是这些问题在现有的研究中还没有被很好的研究。 根据上述观查,本文主要关注随机扩散模型下大规模社交网络影响最大化问题,从算法的角度估计网络中节点集的影响范围并求解影响最大化问题,依次开展了如下的三项研究: 第一,我们对社交网络中种子节点集的影响范围进行了界的估计。传统的贪婪算法之所以不适用于大规模网络,本质上在于影响范围的计算引入了大量的蒙特卡洛模拟,因此解决影响最大化问题最关键的部分在于对任意种子节点集的影响范围进行估计。我们通过对影响范围的上下界的有效估计以及理论论证使得传统的方法免于过多的蒙特卡洛模拟,提升算法的性能。 第二,我们对影响最大化问题的分布式算法进行了系统的分析。在该问题的研究中我们对大规模社交网络采用图分割的处理方式,使得将大规模网络上全问题分解成子网络上的子问题,并论证子问题与全问题之间的关系,通过求解子问题来达到处理大规模网络中影响最大化问题的目的。 第三,我们将社交影响应用到社交网络中其他问题的研究里。首先,恶意信息的追踪溯源是在信息安全领域被广泛研究的一个问题,我们将在文中证明该问题可以转化为一个与影响最大化问题极为相似的问题并进行求解;其次,协同过滤的思想在推荐系统里用户行为的表达中起着非常重要的作用,我们将在推荐系统里引入社交影响,对用户的行为重新进行刻画,来提高推荐的精度。 这三项工作,我们均在真实的社交网络的数据做了相应的实验,实验表明我们的方法可以有效快速地近似求解影响最大化问题,弥补了启发式方法缺少理论保障的不足,而且促进了影响最大化问题与其他研究问题的交叉,我们相信该问题将会在更多的传统问题以及实际问题中得到应用。