论文部分内容阅读
随着近些年来计算机技术的不断发展,使用互联网的民众越来越多。人们在获取互联网信息时逐渐没有了耐心,更倾向于通过手机信息、新闻网站、微博、即时通信等方式来获得自己想要的信息。这种信息的碎片化使得每天都会产生数亿的短文本数据,这些信息也成为了互联网平台的重要组成部分。而在这些短文本数据中所蕴涵的信息有着巨大的价值,如何正确的对短文本信息进行分类、提取、挖掘其中隐藏的信息成为了很多企业、政府及科研单位的重点研究项目。本文即尝试通过将参数优化算法与深度学习中的卷积神经网络模型相结合的方法应用到短文本分类当中。本文以此做了以下工作:(1)将粒子群优化算法应用到卷积神经网络的参数训练过程当中,并且结合卷积神经网络的特点加以改进,提出了结合PSO和梯度下降两种算法对卷积神经网络进行参数优化的方案。在训练过程中,通过粒子群优化卷积神经网络的参数,使其在非经验指导下自动寻获最优连接,解决局部极小值问题,从而提高参数优化效率。通过将改进后的PSO算法和未改进PSO算法、常规训练方法同时对CNN进行训练,对比训练效果,可以看出本文改进后的PSO算法更适合现在CNN模型的参数训练。(2)提出了一种由Word2Vec和卷积神经网络作为核心模型的方法来实现短文本分类,该方法由数据预处理、文本特征表示、分类模型建立三个模块组成。首先在数据预处理模块中,本文对训练和测试用的短文本数据进行了分词、去噪声处理。接着在文本特征表示模块中,使用了 Word2vec工具将文本转为词向量并将句子整理成向量矩阵的形式。最后在分类识别模块中,通过由粒子群算法优化后的卷积神经网络模型进行文本分类操作。将训练得到的短文本分类模型与SVM、随机森林、KNN等传统机器学习方法及深度学习方法中DBN等模型进行短文本实验并对比分析分类结果。在相同的数据条件下,与传统机器学习方法以及DBN相比,本文方法在分类准确率上有明显的提升。通过一系列实验证明,该方法在一定程度解决了神经网络参数灾难和局部极小值问题,证实了基于粒子群优化卷积神经网络方法在短文本分类方面的有效性。