论文部分内容阅读
在信息过载的数据时代,个性化推荐系统可以通过信息过滤技术向用户推荐其感兴趣的信息,因此广泛应用于各个领域。其中,协同过滤算法是使用最广、最受欢迎的推荐算法之一。然而,协同过滤算法仍然存在数据稀疏问题,严重影响推荐的质量。针对协同过滤算法的数据稀疏问题,本文分别从填充稀疏评分矩阵和定义新的用户相似度模型这两个角度来展开研究。本文完成的主要工作如下:第一,为了提高协同过滤算法在数据稀疏时的准确性,本文提出一种融合辅助信息的基于数据填充的协同过滤算法。该算法的主要特点在于:(1)在生成填充数据时,融合用户/项目的辅助信息来表示用户/项目特征,使得能为新用户和新项目生成填充数据,且能准确度量用户/项目相似性。在融合用户辅助信息时,本文融合用户基本属性信息,并结合用户评分和项目属性信息来预测用户对项目属性的偏好程度。在融合项目辅助信息时,将项目属性信息、标题信息以及内容信息进行有效融合。同时,引入降噪编码器挖掘用户/项目的低阶稠密隐式特征。(2)在填充矩阵时,考虑填充数据的置信度,通过将置信度不高的填充数据进行过滤以此降低噪声数据对推荐质量的影响。在极为稀疏的数据集上进行测试,实验结果表明提出的算法能较好的缓解数据稀疏问题,且具有较高的推荐准确度。第二,针对传统用户相似度模型因完全依赖于用户共同评分项目而导致的无法适用于稀疏数据的问题,本文提出一种基于混合相似度的协同过滤算法。首先,算法引入项目属性计算项目相似度,通过结合项目相似度和评分相似度度量非共同评分项对用户相似度的影响,不再依赖于用户的共同评分项目,以此缓解数据稀疏问题。其次,为了全面、客观地度量用户相似度,本文考虑共同评分奖励因子和用户可信度因子。共同评分奖励因子用于度量共同评分项目与属性所占比重对用户相似度的影响,用户可信度因子用于度量用户是否具有不可信评分的情况,以此降低不可信用户的影响。最后,将算法与基于其它相似度模型的算法进行比较,实验结果表明,本文提出的算法能较好的适用于稀疏数据,且在推荐精度上有显著提高。