训练样本分布不均的KNN分类算法的改进

来源 :云南大学 | 被引量 : 0次 | 上传用户:vergillove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,也可以称为数据库中的知识发现(KDD),是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是信息处理的高级处理过程。分类是数据挖掘的重要组成部分,它根据类标号已知的数据建立模型,进而使用该模型来预测类标号未知的数据所属的类。KNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用,但是这种方法在训练样本分布不均匀时会造成分类准确率的下降。 本文针对KNN方法存在的问题,提出了两种改进方法,一种是基于相对距离的KNN分类方法,另一种是利用聚集改善训练样本,这两种方法减少了边界处测试样本的误判。实验结果显示,改进方法具有很好的性能。
其他文献
随着社会信息化程度的不断提高,越来越多的信息系统被应用到社会生活和工作的各个方面。这些信息系统需要更多的通信和交互,各系统需要共享相关数据,共同合作来完成特定任务。而
合成孔径雷达干涉测量(InSAR)是于20世纪60年代末发展起来的,它是以合成孔径雷达复数据提取的相位信息为信息源获取地表的三维信息和高程变化信息的一项技术。它将干涉测量技
全球导航卫星系统(GNSS)可以实现全天候、全球性与高精度的连续导航与定位,近些年发展非常迅速。随着GPS系统现代化计划的实施以及其他卫星导航与定位系统的建设与不断完善,
随着电子文档的数目爆炸性增长和互联网技术的发展,电子文档的应用逐渐丰富。这要求一种更加智能化的方式来帮助人们处理大量的电子文档,例如信息提取、检索、格式转换、版面重
面部表情自动分类在智能人机交互中发挥着极为重要的作用,是计算机视觉、图像处理、模式识别等领域的一个热门研究话题。 Gabor函数是唯一能够达到时频测不准关系下界的函
管理信息系统即MIS,在信息化建设不断完善的现代社会中普及程度不断提高。MIS作为现代社会新学科,跨越管理科学、系统科学、运筹学、统计学等,在这些科学的基础上,形成信息搜集和
现代社会,信息是人类宝贵的资源,以数据库为核心的信息系统在人们的生活工作中的作用越来越重要。因此,数据库技术得以成为计算机科学技术中发展最迅速的领域之一,它已成为计算
随着用户信息需求的不断增长,需要目前的web检索系统能够为用户提供更加有效、更富个性化的检索服务。其中问答式信息检索作为一种能够接受用户自然语言提问,并返回问句直接答
随着我国高等教育改革的不断深化和办学规模的不断扩大,工作难度越来趔大,任务越来越重,原有的传统的管理手段无法适应现实需要。落户的管理手段会直接影响到了教学质量和办学水
空间数据挖掘是从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、规则和知识的过程。由于空间数据的复杂性及其应用的专业性,一般的数据挖掘理论和方法