论文部分内容阅读
文本表示与分类是支撑高质量信息检索的前提;高稀疏、高维度文本特征和检索准确率低是当前信息检索任务中文本表示与分类方法面临的主要问题。为了准确、高效地检索出目标信息,构建性能优异的文本表示与分类方法已成为信息检索领域的研究热点之一。本文针对多分类、多标签文本表示与分类方法展开了深入研究,主要工作如下:(1)针对传统基于BOW的多分类文本表示与分类方法存在高稀疏、高维度的固有缺点,提出一种融合深度信念网络(Deep Belief Network,DBN)与文本卷积神经网络(Text Convolutional Neural Network,TextCNN)的深度信念卷积神经网络模型(Deep Belief Convolutional Neural Network,DBCNN)。DBCNN模型首先通过DBN预训练,在保留文本有效信息的前提下,对文本特征进行降维;进一步,通过TextCNN对降维的文本特征进行卷积和池化处理,以提取低维度、稠密的文本高层特征向量表示。实验结果表明,DBCNN模型的多分类文本表示与分类性能优于传统方法,准确率平均提高了6.18%;关键词词向量嵌入相比普通词向量嵌入,能有效提高模型的性能;DBN结构中的每层节点数越接近输入词汇的个数,DBCNN模型的性能越好;引入L2正则化和滑动平均模型能有效提高DBCNN模型的分类准确率。(2)针对传统多标签文本表示与分类方法存在检索?准确率低、汉明损失高的问题,提出一种融合双向长短时记忆网络(Bi-Long Short-Term Memory,Bi-LSTM)与文本卷积神经网络的双向长短时卷积神经网络模型(Bi-Long Short Time Convolutional Neural Network,Bi-LSTCNN)。该模型首先通过Bi-LSTM网络提取文本的上下文特征向量,并将其和模型输入进行拼接,得到信息更加丰富的文本融合特征向量;再利用TextCNN提取局部特征的能力对文本融合特征向量进行降维,获取文本高层特征向量表示。实验结果表明,Bi-LSTCNN模型的多标签文本表示与分类性能优于传统方法,准确率平均提高了9.4%、汉明损失平均减少了0.374;引入L2正则化和滑动平均模型能有效提高Bi-LSTCNN模型的分类准确率。(3)针对多标签文本表示与分类方法的输出空间随着文本标签集合增大而指数增长、导致难以获得准确标签集合的缺点,本文在Bi-LSTCNN模型基础上引入层次化标签树的多标签分类策略,以提高Bi-LSTCNN模型的性能。实验结果表明,引入层次化标签树的Bi-LSTCNN模型在处理多标签文本表示与分类任务时相比于未引入层次化标签树的Bi-LSTCNN模型,其召回率、准确率、F1值分别提高了2.2%、2.9%、2.5%;汉明损失降低了0.187。