基于数据分布特征的文本分类研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:liyan19821021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网迅猛地向前发展,互联网已经成为一种不可缺少的信息传播媒介数字化图书馆,新闻资源等Web信息量呈几何级增长,出现了像文档检索、图像匹配、气象预报、入侵检测,基冈工程分析等大量机器学习问题。面对信息爆炸带来的挑战,人们迫切需要更快更有效地获取这类信息,用传统的人工分类方法去处理这些问题已经变得捉襟见肘,借助计算机工作便成为最佳选择。当前文本分类是一个热点研究领域,开展此项工作具有重要的研究价值和现实意义。在文本分类技术的研究过程中,虽然提出了许多方式方法,并且有些方法已经相对成熟且分类效果不错,但实用性强的分类技术仍旧比较缺乏。不少分类模型和特征选择算法的复杂性比较高,实现过程过于复杂而导致训练和分类的效率低下,难以应付实际当中碰到的庞大数据集。如何从海量数据中找到需要的日标信息是文本分类的一项重要的任务。如何提高文本分类的准确率和运行效率(时间复杂度,空间复杂度)是一个需要不断深刻思考的课题。特征选择方法与分类算法是文本分类技术当中两块核心内容,绝大多数研究人员都致力于其方法的探索与改进,许多新方法付诸的应用都取得了不错的成绩。总之,这是一项很有必要也非常有前途的研究。本文针对数据语料类别数据不均衡,从特征选择方法和文本分类器方面进行研究,大致内容如下:(1)基于改进的类别分布特征选择方法在文本特征降维空间中,本文发现基于Fisher思想的特征选择方法应该兼具考虑类内、类间方差,这样才可以得到具有更好类别区分能力的特征。具体到本文工作所面向的类别数据分布是不均衡的,为此在充分考虑类别之间样本数差异的基础上,作者提出了一种基于改进的类别分布特征选择方法。该方法可以选出在类别间差异比较大的特征而且还可以灵活地调整类别的权重,实验表明该方法在非平衡语料上结果很好,说明它在稀有类别上可以达到不错的效果。(2)基于推拉方法的非平衡中文文本分类从分类器学习角度,为了论证推拉方法优于SVM,KNN。本文首先介绍了传统分类方法涉及的相关知识,提出了传统分类器在语料类别非平衡下存在的问题,随后引入了解决该问题的推拉方法,最后把IG+推拉,IG+SVM, IG+KNN运用到实验中去。实验结果比较发现,IG+推拉方法在不同非平衡语料上的效果要比其他两个方法好,这允分证实该方法的优越性。
其他文献
近年来,含有非线性算子的微分方程越来越受到人们的关注,且在各类边值问题解的存在性和多解性方面获得了一系列有意义的研究结果.在一些文章中,人们研究了p-Laplace算子这类非线
近年来,种群生态学已成为数学研究领域的热点之一.很多学者通过构造一些数学模型,并利用数学理论的工具来得到种群的生物特性,从而对生态学的研究起到了很大的促进作用.其中研究
学位