论文部分内容阅读
随着互联网的迅猛发展以及电子商务的快速流行,海量信息充斥在人们的生活中。信息超载问题也越来越严重。为了解决该问题,推荐系统就此诞生。它通过分析用户的历史行为记录,得出用户的兴趣爱好,进而从海量的信息中筛选出用户可能会感兴趣的内容。作为推荐系统中最关键的组件,推荐算法近年来受到了广泛的关注和研究。本文针对推荐算法中普遍存在的稀疏性、冷启动等问题,从数据源和推荐算法模型两个方面进行了研究。完成的主要工作有: 本文在深入分析现存的协同过滤推荐算法之后,提出将文本标签引入到推荐算法的构建过程中。经典的协同过滤推荐算法通常只使用评分数据训练推荐模型,推荐系统中除了评分数据之外还包含评论、标签等数据。鉴于文本标签和待推荐项目之间的强相关性,在给用户推荐项目时,合理利用这种关系可以增加计算的准确性。本文首先从用户历史行为记录中提取所有的文本标签,构建标签空间;然后根据各项目与这些标签的隶属关系,得到各项目在标签空间中的向量表示;最后借助深度学习方法提取各项目的标签特征,使用所有项目的标签向量作为输入,训练一个单隐藏层的自动编码器神经网络。 本文的另一项工作是,深入研究矩阵分解模型和邻域模型的运行原理,提出了一种基于文本标签的矩阵分解推荐算法。邻域模型的工作原理决定了其能更好地捕获局部信息,而矩阵分解模型通过在已知评分集合上建模用户和项目的潜在特征向量,达到更好捕获全局信息的目的。两种模型本质上是互补的,本文用一种适当的集成框架将二者的特性融合起来,依据预先从文本标签中提取的各项目的标签特征,确定目标项目的近邻集合,使用该集合中项目的标签特征扩展评分预测模型中的项目向量。实验结果表明,相较于传统的协同过滤算法,本文算法的推荐结果准确率更高。