论文部分内容阅读
因特网的迅猛发展使大规模的数据共享成为了可能,随之而来的还有数据爆炸式增长所导致的信息过载问题。推荐系统便是在这样的情况下应运而生,它的出现使用户潜在感兴趣的信息能够被推送到用户面前。推荐系统的研究始于20世纪90年代初期,至今已衍生出基于内容推荐、协同过滤推荐等不同的分支,如今推荐系统的应用领域已涵盖了电子商务、电影推荐、邮件个性化排序等诸多方面,众多网站纷纷建立了自己的推荐系统,在不同程度上向用户提供着个性化推荐服务。 确定性因子(Stanford certainty factor,SCF)理论,是利用确定性因子处理不确定性的方法,SCF模型已被用于推荐系统并取得了令人满意的成绩,该模型具有以下优势:(1)其应用无需以数据分布遵循特定的规则为前提;(2)支持从多角度分析用户兴趣,降低稀疏矩阵所造成的影响,且推荐结果的可解释性较强。然而基于SCF模型的推荐算法仍存在一定的局限性,主要体现为:(1)基于SCF模型的推荐算法,其预测函数在各候选分值上的取值为各组确定性因子计算结果的简单加和,若因子之间存在不同程度的耦合,SCF模型可能难以平衡各因子的作用,使某些因子的影响力无法得以发挥。因此,基于SCF的推荐算法对因子的选择与组合有着较严格的限制,需保证不同的因子之间基本相互独立,这便导致算法的设计工作受到一定的束缚;(2)各组因子计算结果的分布可能存在一定甚至较大的差异,对于不同的因子组合,基于SCF的推荐算法始终令所有因子以默认的比例系数对最终的预测结果产生影响,这样的做法一方面在某些情况下无法准确模拟实际应用中的因子作用情况,另一方面亦无法使算法在不同的因子组合之间实现灵活的转换;(3)各组因子在用户评分决策过程中的影响程度未必是恒定的,不同用户评价电影时的侧重点通常有所区别,而原始的SCF模型无法准确反映这样的区别。 文中针对SCF模型存在的问题提出了改进的方向,即在SCF模型的基础上,对预测函数中的不同因子进行加权,并利用机器学习技术确定各因子的权重,使之能够更准确地区分并拟合不同用户的评分行为,有效地提高了算法的预测准确度。 本文首先总结了一些现有的推荐技术以及其优缺点,并介绍了SCF模型及其在个性化推荐领域所面临的挑战,从而以此为基础提出了基于Weighted-SCF模型的推荐算法,并详细介绍了该算法的设计思路和实现方法。最后通过实验对本文所提出的改进思路进行验证并将改进后的模型与当前主流的推荐模型进行了对比。实验结果表明,改进后的算法在电影的个性化推荐领域取得了更好的结果,并有着优于主流推荐算法的表现。