论文部分内容阅读
移动数据业务的日益丰富及用户需求的多样化使得针对电信用户的个性化推荐应运而生,然而电信用户的消费行为受其彼此之间的社会联系影响较大,由于移动数据业务的数量较大,使得电信消费数据存在严重的数据稀疏问题,传统的推荐算法需要在这些方面进行有针对性的改进。基于此,本文的主要研究内容和成果如下:1、通过数据实验验证了用户社会联系与移动数据业务的消费行为之间存在关联性。证明了两点假设:(1)具有一定社会联系的两个用户具有相似的数据业务消费偏好;(2)两个用户之间的社会关系越强,他们数据业务消费的相似性就越高。本文首先通过对前人研究的总结和分析提出两点假设,本文针对这两个假设设计了统计实验,实验的主要思想是比较有社会联系和没有社会联系的用户对之间的消费行为相似度,通过假设检验的方法验证两个假设的正确性。最后的统计结果表明,用户的社会联系与其消费行为相似度之间具有显著性影响,并且具有社会联系的两个用户之间更有可能具有相似的数据业务消费行为;用户社会联系强度(通话频次)与用户之间消费行为相似度的相关性分析结果表明两者呈较强的正相关关系。由此,两个假设都得到证实。2、提出了基于通话记录的电信用户社会联系强度的度量方法,并基于此设计了用户产品矩阵的空缺值填充方法。为了利用用户之间的社会联系对于其消费行为的影响来实现数据业务的推荐方法设计,本文以通话记录的各项属性(如通话开始的时间、通话持续的时间、通话的类型等)为基础,结合通话双方在一定时间范围内的通话记录统计信息构造了较为准确的度量电信用户之间社会联系强度的方法。基于该度量方法及第一部分研究的成果进一步设计了用户项目矩阵的空缺值填充方法,数据实验中用户项目矩阵的稀疏性由91.87%降低到了80.21%,取得了较好的填充效果。3、在传统的协同过滤推荐算法基础上设计了基于用户社会联系的推荐算法Social-CF,后续的数据实验证明该推荐算法在预测准确性及推荐效果上都要优于经典的协同过滤推荐算法(CollaborativeFiltering)。在前述空缺值填充算法的基础上提出了综合相似度的计算方法,由此改进了邻居用户筛选的规则;之后为了保证推荐集的完整性,引入了主要推荐集和补充推荐集的概念,保证了推荐集中的业务能够满足用户的潜在偏好和需求。实验中使用了1464位用户的消费行为数据进行推荐和验证,通过实验确定了综合相似度中α的参数取值,并且使用具有最优参数取值的推荐方法与经典CF算法进行比较,结果表明本文提出的算法在预测准确性及推荐效果上都具有一定的优势(召回率最大值78.37%,高于经典CF的69.21%;精确度33.99%,经典CF30.46%;MAE最低0.136略低于经典CF的0.146)。