论文部分内容阅读
学术论文推荐是推荐系统的一个应用方向,可以帮助用户在数千万的文档中找出那些需要的论文。它可以通过对用户的历史访问记录进行分析,挖掘出用户潜在的需求,并向其推荐与之相关的内容,使得用户查找论文的过程变得简洁、方便。鉴于被推荐的物品(学术论文)的特殊性,仅仅使用准确度来衡量推荐结果显然不足以满足不同用户的各种需求。本实验将提高推荐结果的惊喜度作为主要目标。所谓惊喜度是指发现那些用户并不了解却确实需要的物品的能力。本文采用基于主题模型的方法,在文档中单词分布已知的情况下,计算每篇文档主题分布的后验概率,挖掘出其潜在主题与结构。它不再像传统的空间向量模型那样,只单纯的考虑文档在词典空间上的维度。这种单纯的基于词频统计的方法,无法捕捉文档内部以及文档间的统计特征,也无法捕捉到文档的语义特征。而主题模型则是引入了了主题空间,实现了文档在主题空间上的表示,不仅可以捕捉到文档内的语义信息,从而发现文档间潜在的联系,而且给于用户和论文推荐很好地解释性。文章主要内容一共分为三个部分。基于LDA主题模型的推荐,是根据文档在主题上的分布概率进行推荐的。这种在主题层面上的推荐可以有效的解决一词多义,异形同义等问题。这对分析文档内容,抽取文档特征具有很重要的意义。而且与基于TF-IDF的推荐相比,期望得到惊喜度更高的推荐。基于CTM关联主题模型的推荐,在LDA的基础上,考虑到了主题之间的关联,能够更有效的发觉文档间的潜在关系,使惊喜度得到进一步的提高。基于相关反馈的推荐在之前的基础上加入了用户评分,系统可根据用户的反馈形成用户形象,从而对于不同用户给予不同的推荐,使得推荐结果更加个性化。