基于深度学习的中文长文本分类算法的研究与实现

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 0次 | 上传用户:fljk888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域最基础、最常见的任务之一,也是很多其他任务的前置模块。通过文本分类可以将有价值的部分粗略的筛选出来,摒弃掉其他的部分,得到较为可用的数据。研究文本分类任务已经有很悠久的历史,随着时代的发展,人们对于文本分类的精度和速度要求越来越高,深度学习的方法开始成为研究的热点。针对中文长文本分类问题,本文改进了一种循环神经网络结合卷积神经网络的文本分类模型。首先迁移了栅格长短期记忆系统(Lattice-LSTM)代替了传统的长短期记忆系统做文本的浅层编码。由于长短期记忆系统的性能对于长时序序列建模较为孱弱,本文在模型中加入了词汇级的自注意力机制,改变了不同时刻的输出在文本分类中的贡献。然后使用一种多尺寸多膨胀率卷积核的卷积神经网络模型(Multi-size And Multi-expansion-rate Kernel Convolutional Neural Network,MMK-CNN)进行特征提取,将得到的特征图通过全连接网络和SoftMax网络,进行最终的文本分类结果。作者完成的主要工作有:(1)调研并介绍了文本分类和深度学习的相关知识(2)迁移Lattice-LSTM模型做浅层编码,并融入了自注意力机制(3)使用了空洞卷积和普通卷积结合的方式进行特征提取(4)设计并进行实验,与其他模型对比,验证模型的有效性本文的模型迁移使用了栅格长短期记忆系统,在没有进行显性分词的情况下,在字符级长短期记忆系统中选择性的注入分词信息,将字符级别的向量和词级别的向量通过神经网络的方式深层次的结合起来,既省去了分词的工作量,不会造成分词错误,同时也丰富了文本向量所带有的信息;通过在模型中融入注意力机制,一定程度上解决了长链依赖的问题,并减少了过拟合;使用不同尺寸不同膨胀率的卷积核在不同角度提取特征,得到文本的高维特征,各个通道的信息可以相互补充。最后以新闻分类为载体进行实验,经过实验对比,改进后的算法效果优于其他算法,能在一定程度上提高长文本分类的效果。
其他文献
研究区位于滇东北地区,区域地层属于华南地层大区扬子地层区上扬子地层分区昭通地层小区,大地构造位置位于特提斯-喜马拉雅与滨太平洋两大全球巨型构造域结合部位。滇东北地区近年来发现了大量石英砂岩矿床,主要分布于两河、钟鸣、大关、奎香、龙街及彝良等地。本文以云南大关县天星石英砂岩矿床为主要研究对象,总结云南大关县天星石英砂岩矿床的地层控矿条件,研究其成岩过程和矿床成因,建立矿床的成矿模式。运用沉积学、岩石
目的:本研究应用消痛方超声药物透入治疗膝关节骨性关节炎(Knee osteoarthritis,KOA)肝肾不足型患者,通过观察其对患者膝关节疼痛、僵硬、日常活动程度、日常活动难度影响,评价实际疗效和安全性,以期对临床试验有建设性指导。方法:本研究采取随机对照试验(randomized controlled trial,RCT)法,将符合标准的60例KOA患者按照随机数字表法分为治疗组和对照组。治
近年来,随着我国对建筑节能的研究,大量建筑节能技术应运而生,空调节能技术能够降低20%至35%左右的空调设备能耗,有效改善了建筑多余能耗的基本现状,对建筑节能做出了突出贡献。根据我国空调设备在不同区域、不同自然环境下的实际应用情况,空调节能技术还存在着不断创新、不断提高、不断改进的提升空间。使空调设备运行过程中实现低能耗与高效率,既能满足人们实际需求又能效降低能源消耗,是目前空调节能的根本目标。本
自主性是幼儿个性品质的重要内容,对于幼儿人格发展、社会适应性、创造想象力等都具有重要的价值,是幼儿终生学习中重要的学习品质。大班是帮助幼儿进行幼小衔接的重要阶段,良好自主品质的养成是关键。在户外环境中,幼儿的自主性即依据自身力量在游戏中积极主动探索、自由选择、自主开展游戏,根据游戏活动调节行为的倾向,表现出积极主动参与的良好个性品质。本研究主要采用行动研究探索促进幼儿在户外建构游戏中自主性发展的有
水利工程的建设实施是保证我国城镇发展迈向现代化的重要因素,2011年中央一号文件曾提出:到2020年要形成水利工程的良性运行机制。如今我国西部仍面临水资源短缺、水利基础设
近年来,随着环境污染和能源短缺问题日益严峻,锂离子电池等绿色新能源被广泛应用于人们的日常生活中。相对于锂离子电池来说,钠离子电池由于其原材料丰富、廉价以及钠与锂相
青少年健康是家庭和谐,社会发展的重要基础,如何有效挖掘影响青少年健康的相关因素值得研究。本文主要研究青少年健康相关的问题,包括健康知识、健康态度、健康行为、健康现状和项目干预等5方面,主要工作如下:1.描述性统计青少年的健康现状和健康需求。分析表明,被调查青少年各项健康现状指标之间存在性别差异和年龄差异,且在各地区表现不一;青少年希望能多了解“青春期生理”、“青春期心理”、“健康行为教育”、“青春
随着对海洋声信息的研究不断深入,水声信号采集装置的通道数越来越多,对具有大容量数据存储能力的水声信号采集装置的需求也越来越大。由于水声信号采集装置在水下工作,对存储在存储介质上的数据直接获取的操作步骤比较繁琐,这使数据的回传工作极为不便,应对这种情况一般水声信号采集装置都留有数据回传的接口。由于数据存储量比较大,所以带有节省回传时间的高速传输接口也成为水声信号大容量数据存储装置的需求。本文根据大容
随着我国市场经济与公司内部治理制度的发展,行使用人单位部分指令权的公司高级管理人员(以下简称公司高管)数量不断增加,但我国劳动法仍将公司高管不加区分地整体纳入其保护
实体链接是指将文本中的实体指称映射到知识库实体的过程,其在知识图谱、知识融合领域都是关键的步骤之一。针对长文本领域中基于图的实体链接算法存储空间大、运行时间长的