基于主题特征的多标签文本分类方法研究

来源 :大连海事大学 | 被引量 : 2次 | 上传用户:dinosonic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本的自动分类是指按照预先定义的标签类别,通过一定的学习机制,在对带有类别标签的训练文本进行学习的基础上,给未知文本分配一个或多个类别标签的过程,然而随着电子文档信息量的急剧增长,文本内容的多样化,确定文本的单标签分类技术已经难以满足人们对文本分类的需求,多标签文本分类已经成为自然语言处理中重要的研究课题。本文拟进一步深化和拓展面向文本分类的学习方法的研究工作,重点从多标签文本分类的特征提取、多标签文本分类方法以及多标签文本分类结果的不确定性三个方面研究多标签文本分类问题。特征提取是多标签文本分类研究中一项基础性和关键性的工作。针对传统的文本特征提取方法在难以获得高质量的标注文本的情况下,无法有效地解决多标签文本分类问题,本文提出了一种将无监督学习和有监督学习相结合的深度主题特征提取模型,该模型融合了文档集中的全局信息特征和文档内部的上下文信息特征,将文档的全局特征表示与局部特征表示相结合,实现多标签文本分类的特征提取,有效地提高了多标签文本分类的性能。在多标签文本分类任务中,标签与标签之间不是相互独立的,通常具有较强的相关性,随着标签类别数目的增加,输出空间的大小通常会呈现指数增长,严重地影响着多标签文本分类的性能。针对多标签文本分类任务中的标签相关性问题,本文提出一种基于编码解码器与深度主题特征提取的多标签文本分类方法,该方法在编码解码器模型的基础上,编码器网络采用深度主题特征提取模型得到具有文本深层语义特征的语义编码向量,解码器网络将多标签文本分类的任务看作序列生成的过程,并引入了注意力机制,突出关键输入对输出的影响,有效改善了多标签文本分类的标签相关性的问题。深度学习模型在多标签文本分类任务中已经取得了十分优异的成绩,然而文本数据中的噪声和标签缺失、训练数据与测试数据间的分布差异等问题,使得多标签文本分类任务中存在普遍的不确定性。针对多标签文本分类任务中不确定性的问题,本文提出基于深度主题特征的多标签文本分类不确定性度量模型,从数据和模型两个方面建模多标签文本分类任务,能够给出多标签文本分类任务的不确定性度量,有效处理多标签文本分类的不确定性问题。
其他文献
《基础教育课程改革纲要(试行)》指出:在新一轮基础教育教育课程改革中,要培养学生搜集和处理信息的能力,获取知识的能力,分析问题和解决问题以及交流合作的能力。在这样的背景下
城市影像中离身/具身的不同取向,导向不同的视觉风格与传播形态,形成迥异的时空感知。城市形象片叙说城市的现代化追求,偏重宏大时空构建与离身叙事;以移动短视频为主的城市
总量小、逆差大、附加值低是我国服务贸易面临的挑战,同时。数字贸易和服务贸易既是挑战也是我们的机会,数字贸易有可能在十四五规划中成为可以弯道超车的产业。党的十九届五