论文部分内容阅读
随着Web2.0技术和计算机网络技术的不断发展,社交网络已成为人们进行信息分享、意见表达和结交朋友的主要媒介。这类社交网络在为我们提供服务和便利的同时,也记录了用户各类社交活动的详情。对这些记录用户行为的数据进行分析与挖掘,可以更大程度地开发出数据中蕴藏的价值,进而帮助社交网络服务商提升服务更好满足用户需求。链路预测作为网络科学与数据挖掘领域的核心问题之一,越来越多地受到来自计算机科学、数学和社会学等领域研究人员的重视。所谓链路预测就是指通过已知的网络拓扑结构以及网络节点属性等信息,预测网络中尚未产生连边的两个节点之间产生链接的可能性。针对链路预测开展研究既具有很强的理论意义又具有广泛的应用价值。在理论上链路预测可以帮助认识社交网络演化机制,丰富网络科学理论。在应用上链路预测可以转化为多个重要应用,如:好友推荐、态度推断、个性化推荐等。社交网络链路预测近期虽然得到了广泛关注,但是目前还存在链路预测方法通用性不强、预测准确度不高和较难适应大规模网络等问题。另外,用于链路预测的网络数据往往存在网络数据类型单一、已知的连边关系稀疏、连边属性表达有限等问题。因此,本文聚焦社交网络链路预测这一核心问题,着重分析与研究了该问题的3个子问题,即通用链路预测问题、符号网络连边符号(正、负)预测问题和社交推荐网络信任(链接)预测问题。针对上述3个子问题,综合运用数学分析、复杂网络和机器学习等理论与技术,提出了 4个提升预测效果的链路预测模型,有效提升了通用网络、符号网络和社交推荐网络3种网络中的链路预测准确度。本文的主要工作与创新点如下:(1)在节点相似性框架下,提出了一种基于2跳共同邻居和3跳共同邻居综合节点相似性的链路预测方法。该方法较已有方法具有三个方面优势:1、同时考虑2跳和3跳共同邻居,更能反映现实中建立新连边的情形。2、区分对待不同的2跳共同邻居和3跳共同邻居,使相似性结果更精确,更利于排序。3、在提升预测效果的基础上,有效抑制了计算复杂度,更能适合较大规模网络。使用6种真实网络的数据验证了新提出方法的有效性和先进性。(2)针对符号网络中的连边符号预测问题,抽取出一组最能反映连边符号产生的优质网络特征,并利用该组网络特征训练出一组用于连边符号预测的分类模型。抽取出的网络特征揭示了连边符号形成的各项机理,主要涵盖了符号网络的局部特性与全局特性,其中局部特征主要包括“拓展的结构平衡理论”等特征,而全局网络特征则包括新引入的“PageTrust”值特征和“地位理论”值等特征。使用获得的网络特征对2种机器学习模型进行训练和测试。在2个真实网络数据集上的实验验证了训练所得的融合多特征的机器学习模型是有效和先进的。(3)面对社交推荐网络中的评分预测与信任预测两类基本问题,提出了一种基于协同矩阵分解的信息评分与信任预测联合模型。该模型将评分矩阵与信任关系矩阵进行协同分解具有优良特性,既能保证分解过程中两个矩阵共享用户潜在变量,又能兼顾两个矩阵分解过程中能够各自获得反映本领域知识相关性的表达。使用分解得到的多个相关低维潜在变量矩阵的乘积即可做出评分与信任两个问题的预测。2个真实网络数据集上的实验验证了提出模型的有效性和先进性。(4)针对多模社交网络信任预测问题,提出了一种面向多态社交网络的聚类信任预测框架。该框架首先将收集到的用户—项目矩阵进行聚类,聚类的目的是得到多个用户兴趣相似性更加接近的分组,在每个分组内进行显性相似性与隐性相似性的计算,并进行加权求和得到分组内节点间的综合相似性,如果两个用户同属多个分组,还需将每个分组的综合相似性进行叠加得到最终相似性。使用用户间的最终相似性作为信任预测的依据来进行预测,最终相似性值大的用户对被优先推荐建立信任关系。在3种真实网络数据上进行实验,实验结果表明新提的面向多态社交网络的聚类信任预测框架较已有方法具有更好的预测效果。