基于深度学习理论和SVM技术的文本分类研究与实现

来源 :江苏科技大学 | 被引量 : 9次 | 上传用户:smn1970
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术高速发展,产生海量的数据信息。每天都有数以百万计的网民通过互联网获取对自己有价值和意义的信息,如何能够让每一个人能快速、准确的从海量的数据中得到自己想要的知识、技能,已经成为当前研究的热点问题。要解决这类问题,研究者对数据进行获取分析、挖掘、归类,帮助人们提高信息检索的效率。本文主要核心的工作是:利用深度学习进行特征提取和支持向量机相结合的方法对海量数据文本进行挖掘分类和分析,最后得到文本的本质特征。传统的文本分类算法都是采用期望交叉熵、信息增益和互信息等统计方法,通过设置阈值获取特征集。如果训练集的数据量较大,则容易出现特征项不明确、特征信息丢失等缺陷,针对这些问题,本文利用深度学习方法,结合现有的数据特点,提出将深度学习的两种方法和支持向量机方法进行结合设计分类器,完成文本分类,本文主要的研究内容和创新点如下:1.对国内外现有的文本分类技术的研究现状和研究意义进行了介绍,并且对文本分类重要性进行了阐述,最后指出了本论文要做的工作。2.首先研究了传统的分类技术,从文本预处理,文本特征提取和文本分类三部分充分研究,然后对贝叶斯,KNN,SVM分类算法进行阐述,并且对三种算法的适用范围和优缺点进行了分析。3.介绍深度学习的相关理论知识,提出了利用稀疏自动编码将原始数据进行高维空间映射,运用深度信念网络对稀疏自动编码的输出进行投影获取文本抽象特征。研究了深度学习中的稀疏自动编码和深度信念网络相结合进行文本特征提取的过程。4.本文结合深度学习和改进的多分类SVM方法,设计出由稀疏自动编码和深度信念网络,SVM分类相结合的分类器对文本进行分类。最后通过设计实验,对本文提出的方法进行测试,并与传统的文本分类方法进行了比较和分析。通过修改参数测试文本分类的准确率。
其他文献
高血压病是以体循环动脉压升高为主的综合征,是最常见的心血管疾病。长期高血压可影响心、脑、肾等重要脏器的功能,严重危害着人类健康,中医治疗高血压病有着独特的优势。文
屋面裂缝是建筑混凝土工程施工中的常见问题,产生裂缝的因素很多,施工处理时必须从裂缝的产生原因入手。本文根据施工现场情况分析某屋面裂缝的成因,并根据分析结果采用了相应的
近年来,985工程、211工程与双一流院校越来越受到人们的重视,这些重点院校的划分标准在一定程度上反映了我国高等教育的发展趋势。长期以来,大学发展具有很强的政府管制与行
在对公路沥青路面检测的重要性及意义进行总结的基础上,从路面弯沉、平整度、路面厚度、路面损坏状况等方面探讨了公路沥青路面检测方法,指出在高速公路建设和运营中,要选择
目的探索新生儿严重烧伤后的救治方法。方法本组共78例患儿,给予及时有效的抗休克、抗感染、加强营养支持及适当的创面处理。结果 78例新生儿全部治愈。其中,浅Ⅱ度、深Ⅱ度
<正>我是这碧水寒潭中一株莲, 佛说,我有千年的生命。我终日漂在潭水中往下看,我看到人世间每天有不同的景象,有人日出而作,有人日落而息。在一个寒冬的清晨,我睁开朦胧的睡
期刊
社会药店的药师作为参与到计划生育工作中的一员,应将自已所学的药学专业知识服务于大众,推动计划生育工作的开展和普及,并指导患者合理用药,避免药物不良反应发生,促进和保
<正> 神经元核内包含体病(NIID)是一种原因不明的发生于儿童和成人的进行性神经系统疾病。临床特点包括锥体外和锥体束征、前角细胞功能障碍和精神衰退。尸检时证实在中枢、
<正>黔府办函[2015]118号贵阳市、安顺市人民政府,贵安新区管委会,花溪区、清镇市、西秀区、平坝区人民政府,省有关单位:经省人民政府同意,现将(馈州贵安新区山地特色新型城