论文部分内容阅读
随着Web 2.0技术的飞速发展,互联网活动已经成为人们生活密不可分的一部分,人们对社交网络也愈发依赖,这意味着互联网信息时代的迅猛发展。同时在各种移动智能终端技术的推进下,社交网络上的各种各样的信息数据成爆炸性增长,如何从海量的数据中精确挑选出对用户有价值的信息就具有了重要的理论价值和现实意义。在此形势下,人们往往需要从海量数据中挖掘出已有信息来预测未来的信息及其发展趋势来满足对信息的需求,以此为背景,链接预测方法应运而生并逐步推广开来。推荐系统就是以链接预测方法为基础建立起来的,在实际社会网络中的一种典型应用。在推荐系统中,传统的算法大多是根据节点的相似性进行推荐,然而在实际社会网络中,节点的大部分信息通常是隐藏的,因此导致传统的推荐算法难以社会网络中的推荐需求。所以,如何充分地利用社会网络中的各种已知信息来提高用户推荐的精确度,已经成为一个非常重要且有价值的研究问题。本文通过学习社会网络相关理论,对应用于社会网络推荐与链路预测的多种算法进行了分析。发现随机游走算法具有逻辑简洁、易于实现等优点,因而在各种社会网络中已得到了广泛的应用,且在链接预测和推荐系统中更是得到众多研究者的青睐。因此,本文进一步结合了实际社会网络的特性,对传统的随机游走进行了针对性的改进。首先,将拓扑结构的相关属性加入随机游走模型中,发现改进后的随机游走模型在链接预测中展现出了明显的性能提升,从而进一步把随机游走算法推广到推荐系统中。接着,考虑到实际社会网络中的用户往往包含多种对推荐系统存在直接影响的隐藏属性,本文将多种隐藏属性融入到随机游走算法中以提高推荐的精准度。另一方面,考虑到社会网络中的诸多隐藏属性潜在于文本信息中,本文引入了能充分挖掘文本潜在信息的Latent Dirichlet Allocation(LDA)主题模型来辅助节点隐藏属性的挖掘。LDA将首先对社会网络中的节点进行主题划分,并将得到的主题标记节点的隐藏属性,这些隐藏属性作为辅助信息来进一步完善推荐系统,从而更好地提高推荐系统的性能。针对随机游走模型在链接预测上的应用,本文首先分析并讨论了各种链接预测算法,并将拓扑结构属性融入到随机游走算法中,提出了CN-LRW算法和CN-RWR算法。基于提出的两种算法,本文三个常用数据集上进行了多种算法的对比实验,以此来分析各种算法的优势与劣质。对比结果显示,本文提出的基于随机游走的CN-LRW算法和CN-RWR算法在链接预测中均提供了较其他方法更为准确的预测结果。因而证明了在随机游走算法的基础上,通过融合社会网络节点的隐含信息能够有效地提高链接预测的准确性。针对随机游走模型在推荐系统上的应用,本文构建了可以反映社会网络中用户-用户以及用户-项目之间关系的User-Item(UI)二部图,随后利用LDA来挖掘出项目和项目之间的潜在联系,然后在整个异质网络上通过MA-RWR算法来对用户进行项目推荐。通过在Cite ULike数据集和last.fm数据集上的实验结果表明,融入多种关系之后的MA-RWR算法能有效地提高推荐系统的性能,体现出用户的兴趣偏好在一定程度上受到社会关系的影响,而且实验中融入的项目的属性信息对算法也起到了很好的促进作用。此外,本文还基于数据子集分析了不同的网络结构对算法的影响。另外,考虑到随机游走的计算复杂度较高,本文通过计算复杂度相对较低的吸收随机游走算法,并在吸收随机游走算法中加入拓扑结构属性和隐藏属性,从而分析和讨论各种隐藏联系对推荐系统的影响。实验结果表明,本文中基于吸收随机游走提出的TB-ARW和LA-ARW算法能够很好的应用到推荐系统中提供可靠的推荐结果。