信息检索中基于深度学习的文本表示与分类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:linxi054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示与分类是支撑高质量信息检索的前提;高稀疏、高维度文本特征和检索准确率低是当前信息检索任务中文本表示与分类方法面临的主要问题。为了准确、高效地检索出目标信息,构建性能优异的文本表示与分类方法已成为信息检索领域的研究热点之一。本文针对多分类、多标签文本表示与分类方法展开了深入研究,主要工作如下:(1)针对传统基于BOW的多分类文本表示与分类方法存在高稀疏、高维度的固有缺点,提出一种融合深度信念网络(Deep Belief Network,DBN)与文本卷积神经网络(Text Convolutional Neural Network,TextCNN)的深度信念卷积神经网络模型(Deep Belief Convolutional Neural Network,DBCNN)。DBCNN模型首先通过DBN预训练,在保留文本有效信息的前提下,对文本特征进行降维;进一步,通过TextCNN对降维的文本特征进行卷积和池化处理,以提取低维度、稠密的文本高层特征向量表示。实验结果表明,DBCNN模型的多分类文本表示与分类性能优于传统方法,准确率平均提高了6.18%;关键词词向量嵌入相比普通词向量嵌入,能有效提高模型的性能;DBN结构中的每层节点数越接近输入词汇的个数,DBCNN模型的性能越好;引入L2正则化和滑动平均模型能有效提高DBCNN模型的分类准确率。(2)针对传统多标签文本表示与分类方法存在检索?准确率低、汉明损失高的问题,提出一种融合双向长短时记忆网络(Bi-Long Short-Term Memory,Bi-LSTM)与文本卷积神经网络的双向长短时卷积神经网络模型(Bi-Long Short Time Convolutional Neural Network,Bi-LSTCNN)。该模型首先通过Bi-LSTM网络提取文本的上下文特征向量,并将其和模型输入进行拼接,得到信息更加丰富的文本融合特征向量;再利用TextCNN提取局部特征的能力对文本融合特征向量进行降维,获取文本高层特征向量表示。实验结果表明,Bi-LSTCNN模型的多标签文本表示与分类性能优于传统方法,准确率平均提高了9.4%、汉明损失平均减少了0.374;引入L2正则化和滑动平均模型能有效提高Bi-LSTCNN模型的分类准确率。(3)针对多标签文本表示与分类方法的输出空间随着文本标签集合增大而指数增长、导致难以获得准确标签集合的缺点,本文在Bi-LSTCNN模型基础上引入层次化标签树的多标签分类策略,以提高Bi-LSTCNN模型的性能。实验结果表明,引入层次化标签树的Bi-LSTCNN模型在处理多标签文本表示与分类任务时相比于未引入层次化标签树的Bi-LSTCNN模型,其召回率、准确率、F1值分别提高了2.2%、2.9%、2.5%;汉明损失降低了0.187。
其他文献
高职院校会计专业技能大赛至2012年举办以来,受到全国各高职财经类院校的高度重视,也成为检验高职教学效果的衡量手段。本文基于安徽工商职业学院两年的参赛经验,总结出会计电算
为了提高股票价格的预测精度,提出一种因子分析与神经网络相融合的股票价格预测模型。首先采用因子分析法确定影响股票价格的主要因子,然后将主要因子作为神经网络的输入向量进
大型塔式起重机要满足大起重量、大起重力矩,大起升高度的要求。所以大型塔机在起升的驱动方式上会选择双动力起升驱动系统,文中提出主从控制和DROOP控制方法对双动力起升驱
At2g23470是拟南芥功能未知结构域DUF647蛋白家族的一个成员。为了研究At2g23470基因的功能,需要获得At2g23470功能缺失的突变体材料。根据拟南芥信息资源网站(The Arabidopsi
我们教师应该设身处地为学生着想,站在他们的角度看问题,深入了解他们的感受,每个人都有私心的,只是可能被放大或者缩小,在现在这个物欲横流的时代,学生的私心显露无疑。我们
伴随通信技术和计算机技术的不断进步,计算机网络结构的选择影响着整个网络的运行效率、可靠性和安全性能。层次化网络规划在计算机网络结构规划中和以往非层次化网络的规划
目的:通过研究养血清脑颗粒对自发性高血压大鼠(SHR)循环和肾组织局部RAS活性的影响,探讨其作用机制和靶点。方法:60只SHR大鼠随机分为模型组,卡托普利组,牛黄降压丸组,养血清脑颗粒
中职会计电算化竞赛项目受到越来越多学校的重视和参与,对中职财会学生来说,这既是机遇,又是挑战。本文结合笔者多年的实践经验,分别从"搭建平台、选拔人才、科学训练"三个维
随着人工智能技术的发展和人民法律服务需求的增大,将人工智能技术应用于法律服务领域,构建高度智能化的法律咨询和服务系统,对于人们获取更为便利和快速的法律服务,节省在法律服务体系中的人力资源投入具有重要意义。其中,对于法律咨询用户意图的理解和识别是其重要组成部分。准确的用户意图理解和识别可以通过确定反馈类别来提供约束条件,缩小检索范围,对于后期任务中更为精确的信息检索和结果反馈起到了非常关键的作用。本
许多企业都希望自己的企业长盛不衰,成为百年老店。月盛斋作为一家具有240年历史的企业,虽然名气和规模都不大,解放前一直在行人稀少的户部街,民国时与周围的建筑比起来更显