论文部分内容阅读
在大数据时代,偏好挖掘和推荐系统缓解了信息过载带来的困扰,给在线商业系统带来了巨大的经济效益,同时也为普通客户提供了便利,受到了越来越多的重视。偏好挖掘和推荐系统的研究涉及到知识表示及发现、决策支持、机器学习等研究领域,具有重要的学术价值。本文研究了偏好挖掘和推荐系统中几个重要的科学问题,主要包括:(1)研究了条件偏好网络(Coditional Preference Network, CP-nets)的学习方法。CP-nets具有简洁明了的特点,是近年来备受关注的条件偏好表示方法。但是,由于CP-nets的规模与变量的个数成指数关系,CP-nets的学习算法存在复杂度高、限制条件较多的问题,从不一致的训练样本中学习CP-nets尤其困难。本文对该问题建模,并提出了求解该模型的方法。本文提出的CP-nets学习算法利用了在偏好图中进行占优测试和一致性测试复杂度较低的优势,分两步从不一致的训练样本中学习得到CP-nets,即先学习得到偏好图,然后将其等价变换到CP-nets。从理论上可以证明该方法得到的CP-nets能够满足的训练样本具有最大的权重和。在模拟数据和真实数据上的实验结果表明与其它类似方法相比本文的方法具有更高的准确性。(2)为了进一步降低CP-nets学习算法的计算复杂度,研究了CP-nets的近似学习算法。在有足够多的训练样本的情况下,变量之间的条件依赖关系可采用假设检验的方法确定。据此提出了基于假设检验的CP-nets学习算法。该算法是一种近似算法,能够处理大量有噪声的训练样本。该方法虽不能保证找到问题的最优解,但当提供足够多的训练样本时,该方法能够达到满意的准确度。从理论上可以证明当训练样本数量趋于无穷时,该方法得到的CP-nets依概率收敛于真实CP-nets。此外,该方法具有多项式级的时间复杂度,有更广泛的应用空间。(3)研究了如何在推荐系统中有效利用社交关系、物品信息等附加信息,以获得更准确的推荐结果。本文对贝叶斯概率矩阵分解(Bayesian Probabilistic Matrix Factorization, BPMF)模型进行了改进,假设每一个用户和物品有不同的超参数,并根据用户的社交关系和物品信息为每个用户和物品生成相应的超参数。据此提出了融合社交关系和物品信息的贝叶斯概率矩阵分解方法。这种全新的、融合社交关系和物品信息的方法不同于传统的基于正规化的方法,也不同于基于分解的方法,能更好的应对冷启动问题和数据稀疏问题。此外,本文的方法计算高效,而且不需要调整参数,能用于数据量巨大的场合。在三个大规模真实数据集上的实验结果表明本文的方法与其它基于矩阵分解的方法相比具有更高的评分预测准确性和更快的收敛速度。另外,在冷启动条件下的实验中,本文的方法也优于对比方法。(4)研究了如何使推荐算法得到的结果更符合用户偏好的问题。本文提出了新的度量推荐结果与用户偏好之间差异的标准。并提出了优化基于此标准的矩阵分解推荐算法:以列表为单位的概率矩阵分解方法(List-wise Probabilistic Matrix Factorization, ListPMF)。由于采用了新的评价标准,ListPMF能得到的更令人满意的推荐结果。同时,ListPMF可以方便的扩展以利用社交关系等附加信息,进一步提高推荐的准确率。本文提出的方法具有较高的计算效率,能处理大型的真实数据。与现有方法的比较结果显示本文的方法超过了基于矩阵分解的其它推荐方法。最后,对全文做了总结并提出偏好挖掘与推荐系统今后的研究方向,其中包括进一步研究合理的条件偏好近似表示方法以及基于此表示方法的矩阵分解推荐方法.