论文部分内容阅读
随着社交网络的普及以及移动智能设备的发展,基于位置的社会网络(Location-Based Social Network,LBSN)逐渐进入人们的生活。LBSN通过将用户移动行为和地理位置信息关联,充分挖掘用户潜在行为与其日常活动位置的相关性,使线上虚拟世界和线下现实生活之间建立密切联系,为社会关系预测等领域开辟新的研究方向。LBSN中的签到数据包含用户时间、空间等多重信息,为朋友关系预测提供了可能。但是,LBSN网络结构比较稀疏,难以完整反映个体签到行为。因此,从现有的数据中挖掘用户完整信息,并利用隐含知识刻画用户特征,成为用户行为研究的重要方向。为了实现上述目标,本文提出基于支持向量机(Support Vector Machine,SVM)的朋友关系预测框架,并利用Gowalla和Brightkite两个数据集进行仿真实验,结果表明该方法的有效性和可行性。具体来说,本文主要研究工作包括以下四个方面:1.分析Gowalla和Brightkite数据集中用户行为特征,如用户好友数、签到地点以及签到次数,发现其均呈长尾分布,并且两个网络中拥有好友数超过50个的用户占极小比例。在Brightkite中签到次数小于10的达到43.5%,进一步说明数据的稀疏性,给好友预测带来新的挑战。2.利用用户签到时空信息,分析用户移动区域以及移动周期,进而挖掘用户移动规律。分析移动区域时,发现绝大部分用户只在较小的范围内活动。相对而言,Gowalla数据集中的用户活动半径较大。对移动周期的分析得知,用户活动呈现出一定的周期性,与人们的生活规律相契合。3.在上述网络结构以及用户移动行为分析的基础上进行特征提取。根据传统基于节点相似性的度量方法,提出本文用户社交关系计算方法,并提取用户签到距离以及签到类型作为朋友关系预测的输入特征。4.建立基于SVM的朋友关系预测框架,融合上述特征分别对朋友关系进行分类预测,并用准确率、召回率、F1-measure以及AUC值进行评估,发现社交关系对朋友预测的影响最大,三个特征融合的预测准确率优于单个特征。为了进一步改善预测效果,利用遗传算法(Genetic Algorithm,GA)、粒子群算法(Particle Swarm Optimization,PSO)以及网格搜索(Grid Search,GS)对惩罚因子C和核参数g进行优化。