论文部分内容阅读
推荐系统在数字图书馆中有着重要作用。通过帮助用户发现他们感兴趣的图书,推荐系统既充分利用了数字图书馆的资源,也更好满足了用户的阅读需求。传统基于内存的推荐方法是有效且易于解释的。但是当数据规模增大时,传统的方法在时间和空间效率上变得不可行了。本文提出了一个可运行在流式处理架构上增量式的基于聚类的算法。 本文的主要工作如下: 第一、提出了一种在时间和空间上都高效的算法。在为用户进行推荐时,不同于查看整个数据集并计算每一对用户的相似度,该算法可以增量式地产生推荐结果而不需要将整个数据集都放入主存中。此外,比起计算每一个用户对之间的相似度,只有用户和各个簇之间的相似度需要被计算,而簇的数目小于用户的数目,这使得算法更加高效。 第二、由于该算法可以增量式产生推荐结果,并且自动更新模型,所以它也是可扩展并且适用于实时环境的。 第三、该算法被运用于CADAL流式处理框架上并在MovieLens数据集和CADAL用户章节日志上进行了评测。实验结果表明该算法是高效的,且依然保有相当的准确度和可解释性。