论文部分内容阅读
在这个信息化和网络数字化即将到来的信息时代,互联网上的数据和信息每天都在海量地增长,各种信息的过载使得用户无法快速、准确地获取自己最关心的内容,增加了用户获取信息时的时间和精力成本。于是在基于内容的新闻推荐领域,相似文本检测有着重要的应用。在传统的方法中,一般基于文本关键词的统计信息进行推荐,而忽略了自然语言的语义信息相似性。随着几年来机器学习与深度学习的兴起,自然语言处理技术的发展,尤其是词向量技术在文本的语义信息表示上的突破,使得文本相似度的检测不再局限于统计理论。然而,在海量文本的相似度检测中,深度学习提升了结果的准确性,却也失去了传统方法速度与需要的计算资源少的优势。因此,为了在海量新闻的相似推荐中,保证提高准确性的同时,减少在时间与计算资源上的消耗,本文研究出将Simhash与卷积神经网络算法相结合的相似新闻推荐算法。主要思想是首先应用Simhash算法进行相似文本的初步选择,之后再应用卷积神经网络(CNN:Convolution Neural Network)算法在初选的文本中进行准确度更高的相似文本推荐。主要的研究工作由三部分组成。(1)在传统的Simhash方法的基础上,改进Simhash获取文档特征的过程,通过综合考虑TF-IDF值与词性的方式计算词语的权重;针对大量Simhash值检索计算量过大的情况,实现了快速检索方法提高效率;针对倒排索引表分布失衡的情况,对失衡的桶内元素再进行一次hash操作并倒排索引,使分布均衡。(2)分析文本相似度检测模型的优缺点,提出双通道卷积神经网络模型,对模型进行理论阐述与训练方法优化。引入词向量模型Word2Vec以及句向量模型Doc2Vec的概念,对文本对的两种文本表示分别交互计算作为模型的特征输入,使得模型能在词语和句子两种粒度上对相似度进行学习。(3)进行各种方法的对比实验,得到了本文提出算法兼顾效率与精确度的实验结果。证明在解决相似新闻推荐的问题中,我们提出的结合Simhash及CNN算法进行相似文本推荐方法在基于内容的相似新闻推荐领域有实际意义。