论文部分内容阅读
互联网技术的发展,越来越多的人将阅读的方式转变为网上阅读。新闻推荐作为一种新闻过滤和用户定位的手段,可以根据用户历史的阅读习惯为用户推荐其可能感兴趣的新闻话题,帮助用户在大数据时代下,准确的获得有效信息,节省大量的阅读成本,有效的解决了大数据带来的信息过载问题。而目前对于信息过载条件下的推荐系统研究主要集中在电子商务领域,对于新闻的个性化推荐研究较少,但新闻作为日常生活必不可缺的一部分,更新迭代速度快,信息量大,用户很难及时的捕获到自己感兴趣的信息。因此,针对新闻进行个性化推荐具有重要意义。协同过滤模型是经典的推荐算法模型,取得了较好的成果,且随着统计学的发展,神经网络的出现将神经网络与协同过滤相结合的神经协同过滤模型又进一步提升了推荐系统精度,然而,这两种模型均存在着一定的局限性,例如都是通过用户和项目的交互记录来提取用户的行为特征,没有充分利用可用的额外信息,限制了推荐准确度的提升,且对于稀疏数据较为敏感。因此,本文将结合文本挖掘技术与神经协同过滤模型在新闻推荐领域的应用进行研究。首先对目前主流的推荐算法和文本特征表示的相关原理进行详细的分析和介绍,并总结了各个方法的优缺点。在此基础上,结合词嵌入技术,对神经协同过滤进行改进,本文的具体工作如下:(1)本文首先对国内外推荐算法和词向量的研究现状进行文献梳理总结,并针对推荐系统中常用的推荐算法的相关原理及优缺点进行详细分析,为后面针对推荐算法的进一步研究提供理论参考。(2)对神经协同过滤算法进行改进,针对模型只利用用户和新闻交互信息的不足,将词嵌入技术引入模型,提取新闻特征,在用户和新闻交互信息的基础上,融合新闻标题、新闻内容信息作为模型的输入特征,从而提升模型精度。(3)针对目前主流的词嵌入技术如单词级别的词嵌入模型Word2Vec、字符级别的词嵌入模型FastText、段落级别的词嵌入模型Doc2Vec三种方法在中文新闻个性化推荐中的效果进行对比分析研究,并分析各自的优缺点。最后,本文将文中优化后的推荐算法与传统的隐语义模型和神经协同过滤模型的推荐效果进行对比研究,实验结果表明本文优化后的算法,能够在一定程度上提升推荐准确度,有效的完成新闻推荐任务。