论文部分内容阅读
数据挖掘,也可以称为数据库中的知识发现(KDD),是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是信息处理的高级处理过程。分类是数据挖掘的重要组成部分,它根据类标号已知的数据建立模型,进而使用该模型来预测类标号未知的数据所属的类。KNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用,但是这种方法在训练样本分布不均匀时会造成分类准确率的下降。
本文针对KNN方法存在的问题,提出了两种改进方法,一种是基于相对距离的KNN分类方法,另一种是利用聚集改善训练样本,这两种方法减少了边界处测试样本的误判。实验结果显示,改进方法具有很好的性能。