论文部分内容阅读
互联网技术正以十分惊人的速度发展,随之带来了信息的迅速膨胀,即信息过载问题,甚至造成信息灾难。面对庞大的信息量,人们在获取自己感兴趣的信息时往往会消耗许多时间、甚至无所适从。采用“个性化推荐”措施,对缓解信息过载问题成效显著,在诸多领域发挥着重要的作用。但是,传统推荐技术仅依靠用户对商品的评分或用户的浏览行为来分析用户偏好,并未充分利用用户评论信息,因此致使推荐结果存在偏离现象。本文以提高用户体验为目标,基于评论挖掘技术,从评论中提取有价值的信息,以实现对用户进行相关信息的主动推荐。论文所述工作通过提取评论文本的属性特征,构建用户兴趣模型,改进了矩阵分解推荐算法的SVD++模型。本文所述研究以电影信息推荐为例,主要工作如下:(1)获取评论文本属性特征。针对电影评论文本的特点,通过抽取评论文本的特征词达到获取评论属性特征的目的。现有基于统计的特征抽取技术未充分考虑文档的主题和语义信息,鉴于此,本文采用词向量技术,借助聚类算法,设计一种新的评论文档特征词抽取方法。考虑到电影评论的领域性,首先自行建立领域相关性的语料库,然后将词向量技术应用到文档特征的提取过程中,通过聚类获取评论属性特征词。实验表明使用本文方法提取电影评论文本的属性特征是可行的,且自行建立的特定领域的语料库可提高特征词抽取的效果。(2)基于评论信息构建用户模型。本文首先讨论目前应用较为广泛的用户模型表示方法,接着提出基于评论属性特征的兴趣建模方法。首先计算用户评论中属性词类别的权重,继而对用户进行属性类别表示,完成用户兴趣建模。实验表明该方法能有效表征用户在产品特征层面的关注度,实现对用户偏好的表示。(3)改进基于矩阵分解的推荐算法。传统协同过滤推荐算法中存在数据稀疏性问题,鉴于此,本文提出一种融合评论信息和评分矩阵的矩阵分解算法。该算法利用用户在产品特征层次上的偏好,获取用户之间的偏好相似度,将偏好相似度作为修正项,对矩阵分解模型中的SVD++算法进行改进。通过对比实验证明,改进的融合用户评论信息和评分信息的矩阵分解推荐算法具有较高的预测准确度。(4)实现电影推荐原型系统。设计一种推荐引擎,通过完成数据处理、矩阵计算、推荐列表生成和推荐结果展示等步骤,实现了基于JavaScript和CSS的电影推荐原型系统。