论文部分内容阅读
随着信息技术的不断发展,互联网日益成为人们生活必不可少的东西,人们借助互联网可以完成新闻浏览、网上购物、观看影片、分享信息等操作,这拉近了人们之间的距离。正由于其迅速发展,冗余信息、无用信息越来越多,随之带来的是信息过载问题。为了解决信息过载问题,各领域专家提出了分类目录,搜索系统等诸多技术,目前推荐系统也成为解决信息过载的主流技术之一。推荐系统的目标是挖掘用户潜在的兴趣,帮助用户完成信息过滤。本文研究了基于主动学习的推荐系统,利用主动学习能够主动选择合适的训练集,加快建立准确模型的速度的特点,解决冷启动中的新用户问题。通过在公开数据集MovieLens和MovieRating上进行实验,验证了本文提出的算法确实可以缓解新用户问题。本文的主要工作和贡献有:1)本文分析研究了目前主流的推荐算法和主动学习算法,在推荐算法上,重点研究了基于矩阵分解的Baseline SVD算法,并通过实验比较,验证了其确实优于其他算法。2)本文分析了推荐系统目前存在的难点和重点,针对冷启动的新用户问题,提出了一种基于震荡系数作为主动学习样例选择的策略,Baseline SVD作为基准学习器的方法。通过与随机选择策略和流行选择策略进行比较,证明了本文提出的算法确实有利于对新用户加快启动推荐。3)基于震荡系数的算法是基于改变浮动较大的样本具有更高价值的假设,然而震荡系数受到很多因素的影响,例如模型本身的不准确性。本文提出了另一种基于误差估计的样例选择策略,并将其与基于震荡系数的方案进行比较。实验证明,基于误差估计的主动学习策略在效果上更优。结合两种样例选择策略,对其做一个加权集成,得到一种更优的选择策略。4)针对数据稀疏性问题,本文提出了一种混合推荐算法,通过结合Slope One算法与Baseline SVD算法得到一种新的推荐算法,将该算法与其他推荐算法作比较。实验证明,能有效提升推荐准确度。