基于卷积神经网络的短文本分类研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:fuwanyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近些年来计算机技术的不断发展,使用互联网的民众越来越多。人们在获取互联网信息时逐渐没有了耐心,更倾向于通过手机信息、新闻网站、微博、即时通信等方式来获得自己想要的信息。这种信息的碎片化使得每天都会产生数亿的短文本数据,这些信息也成为了互联网平台的重要组成部分。而在这些短文本数据中所蕴涵的信息有着巨大的价值,如何正确的对短文本信息进行分类、提取、挖掘其中隐藏的信息成为了很多企业、政府及科研单位的重点研究项目。本文即尝试通过将参数优化算法与深度学习中的卷积神经网络模型相结合的方法应用到短文本分类当中。本文以此做了以下工作:(1)将粒子群优化算法应用到卷积神经网络的参数训练过程当中,并且结合卷积神经网络的特点加以改进,提出了结合PSO和梯度下降两种算法对卷积神经网络进行参数优化的方案。在训练过程中,通过粒子群优化卷积神经网络的参数,使其在非经验指导下自动寻获最优连接,解决局部极小值问题,从而提高参数优化效率。通过将改进后的PSO算法和未改进PSO算法、常规训练方法同时对CNN进行训练,对比训练效果,可以看出本文改进后的PSO算法更适合现在CNN模型的参数训练。(2)提出了一种由Word2Vec和卷积神经网络作为核心模型的方法来实现短文本分类,该方法由数据预处理、文本特征表示、分类模型建立三个模块组成。首先在数据预处理模块中,本文对训练和测试用的短文本数据进行了分词、去噪声处理。接着在文本特征表示模块中,使用了 Word2vec工具将文本转为词向量并将句子整理成向量矩阵的形式。最后在分类识别模块中,通过由粒子群算法优化后的卷积神经网络模型进行文本分类操作。将训练得到的短文本分类模型与SVM、随机森林、KNN等传统机器学习方法及深度学习方法中DBN等模型进行短文本实验并对比分析分类结果。在相同的数据条件下,与传统机器学习方法以及DBN相比,本文方法在分类准确率上有明显的提升。通过一系列实验证明,该方法在一定程度解决了神经网络参数灾难和局部极小值问题,证实了基于粒子群优化卷积神经网络方法在短文本分类方面的有效性。
其他文献
电致化学发光(ECL)分析技术因具有背景信号低、灵敏度高、选择性好等优点,已被广泛用于生物传感领域。然而,为满足临床诊断中对低含量目标物,特别是对复杂样品中低丰度生物标志
徐XX,男,4岁主诉:多颗乳牙牙龈化脓求治现病史:患儿母亲述"患儿乳牙迟萌,牙龈脓肿,乳牙早脱落,近来进食有酸痛感",遂求治。系统疾病史:1年前于外院诊断为"佝偻病",服用"羧甲
信息时代的急速发展使得人们在互联网上存储及运用的文本数据规模急剧增加。为了从海量的文本中发现目标信息,信息抽取技术应运而生。作为信息抽取领域重要的研究课题,针对实
网络传播动力学研究包括传染病在群体间的传播、计算机病毒在网络上的传播、谣言在社交网络中传播等多种信息的传播及其传播动力学等问题。一般来讲,研究基于各种网络的传播行为一般是基于均匀介质网络及复杂网络进行的,这也是近年来人们在社会经济活动中最为密切关注的一个主题。本文主要是利用最优控制理论来探讨两类典型的网络传播动力学行为:(1)谣言传播谣言是社会交流的一种重要形式,谣言传播在人类事务中扮演着重要角色
近年来,深度学习被广泛应用于图像处理、自然语言处理等各种领域,其成功源于大数据、算法模型和计算能力的共同发展。为了提高深度学习模型的普适性,数据集和模型规模不断增
虚拟飞行试验技术是用于研究飞行器控制规律的一种风洞试验技术,它以虚拟飞行试验装置为支撑,通过飞行控制系统操纵飞行器模型,使其在风洞来流下自由运动,模拟飞行器真实机动
二氧化硫减排是我国“十二五”主要污染物减排最重要的任务之一,这是我国二氧化硫排放基数太大、而环境容量有限的必然选择。本文首先对济南市某热源厂58MW燃煤层燃锅炉原有
机器人在生产生活领域的广泛应用,不仅能够帮助人类摆脱繁重、重复及危险的劳动,同时会大大提高任务作业的质量和效率。机器人自主操作操作能力的提升成为目前重要的发展趋势
随着教育信息化的不断普及,推动了智能录播系统的发展。智能录播系统可以推进学校精品课程建设,很大程度地促进了学校教学研究与管理研究的深度,为教育信息化的进一步发展积
表面增强拉曼光谱技术(SERS)作为一种检测手段,具有高灵敏度,高特异性,低样品损耗,检测速度快等优点,在生物检测,材料科学等研究领域拥有巨大潜力。基于这一技术的生物传感器,