论文部分内容阅读
Web2.0时代的到来为互联网数据提供了一种新的产生方式,网络数据的增长速度越来越快。就海量数据而言,用户难以根据自身的偏好去获取所需数据,因此如何为用户提供针对性的数据资源已经成为各大互联网厂商亟需解决的问题。在这样的背景下,推荐系统技术应运而生,而关联挖掘作为推荐系统下的热点问题更是具有极大的研究价值。文本作为网络中传播最广的数据类型,在用户需求中占比最大,因此本文以文本数据作为研究对象,提出了一种基于多标签分类的文本关联挖掘方法。传统文本关联挖掘方法通过词向量对文本数据建模,用词向量的相似度计算文本的关联性,在关联性衡量标准上较为单一且存在向量稀疏问题。随着文本类别的复杂化和层次化,单一的评判标准已经不足以准确衡量文本之间的关联性,在不同的观察角度和领域下文本的关联方式都是不同的,传统方法在解决这种多维角度下的关联分析是十分困难的。针对以上问题,本文提出了一种改进的多标签分类算法,并将其应用于文本关联挖掘中,通过将文本映射为多标签向量实现多维关联分析,弥补了传统算法在关联完整性上的不足。同时为了验证算法的准确性和可行性,本文使用知乎的开源数据进行实验,分别验证了算法在文本多标签分类领域和文本关联挖掘领域的效果提升。本文的一、二章阐述了论文的研究背景,介绍了推荐系统以及文本关联挖掘的相关概念和技术,提出了基于多标签文本分类的研究路线。第三章对本文的核心技术多标签分类进行详细介绍,并对算法涉及到的技术难点进行分析。本文的四、五两章是对算法的设计和实验,其中的重点内容是对文本多标签分类算法的改进,同时本文还简要介绍了基于多标签向量的关联性计算方法。最后通过知乎的开源数据集对提出的方法进行性能测试,证明论文方法在文本关联挖掘领域的提升效果。