论文部分内容阅读
数据缺失在实际中是经常发生的,甚至是不可避免的。造成数据缺失可能是信息(暂时)无法获取或者在操作过程中被遗漏等。数据缺失对数据挖掘的过程和结果都有十分严重的影响。数据缺失可能直接影响到模式发现的准确性和运行性能,甚至导致错误的挖掘模型。处理有缺失数据的数据集是极端困难的,因为,现有的模式发现算法通常假设输入的数据是无缺失的。于是,这些可用的模式发现算法和实际数据之间存在一条不可逾越的鸿沟。缺失数据的处理方法可分为删除元组、缺失数据填充和不处理三大类。Han和Zhang等认为,从使用的频率和研究的程度等各方面来看,填充方法是最常用的一种处理缺失值的方法,因此,本论文研究如何用填充的方法处理缺失数据。填充缺失数据的方法无论是在技术上还是理论上都得到了空前的重视,国际上有很多专门机构研究这个问题,例如:美国宾州大学和佛蒙特大学都成立有专门的研究小组。但是,无论在统计方面还是数据挖掘领域的缺失填充方法仍然存在许多致命的缺陷。首先,现实数据集通常缺失十分严重,常见的填充方法仅仅利用没有缺失值的完全事例去填充缺失的数据。这类处理方式一方面可能要面对可用信息不足;另一方面忽略了含有缺失值的事例中的有效信息,这样不仅造成了资源浪费,而且填充效果也会出现偏差。其次,用户对所处理的数据集通常没有任何先验知识,常用的参数填充方法经常可能由于参数的错误估计而导致填充的结果严重失实,存在的非参数填充方法在技术上和理论上都很粗糙,并且只在本应用范围内十分有效,一旦被应用到其他应用领域或者一些交叉应用领域,这些在某领域内十分优秀的方法可能会导致极差的填充效果。上述表明,缺失数据填充是一个实际且具有挑战性的研究课题。本论文研究缺失数据填充的如下三方面问题。填充决策属性的缺失问题:本论文提出的DAIM算法能处理混合类型的条件属性,算法首次使用基于混和核的非参重复填充方法填充离散型或者连续型缺失决策属性,并且提出了一种新颖的发现最优窗宽(bandwidth)的网格搜索(grid search)方法,能在有限的空间内穷举式地搜索最优窗宽,大大地减少搜索空间和时间。在缺失值填充过程中研究了填充代价和填充代价约束的问题:本论文首次提出建立代价敏感的填充器必须考虑构造填充器的有效信息问题,算法折中考虑了经济因素和构造填充器所需有效信息来对缺失数据进行排序,提出了一个考虑填充顺序的条件属性缺失的增量式填充算法CAIM。条件属性和决策属性同时有缺失的问题:本论文分析了kNN算法中Minkowski距离公式正确选择Minkowski参数的复杂性,提出了用灰色分析的方法代替Minkowski距离的思想,然后分析了填充缺失值充分利用所有有效信息的必要性,并且提出非参重复填充方法来充分利用所有有效信息的理论,最后的填充算法CDAIM能处理条件属性和决策属性同时缺失的情况。本论文的每种算法都用模拟数据和真实数据进行评估和分析,在各个评价指标的比较中,本论文的算法都优于存在的一些经典算法。本论文的主要创新点如下:(1)在对所处理的数据集的分布没有任何先验知识的情况下,参数填充方法经常由于错误的参数估计导致填充的结果严重失实,此时非参方法是一个很好的替换,但是存在的非参方法在技术上和理论上都很粗糙,本论文的三个算法都对传统的非参方法进行了改进。为了充分利用所有有效的信息,本论文的三个算法都采用重复填充技术。本论文提出的非参数重复填充算法收敛速度要比现有的参数重复填充算法EM算法快,且填充效果上优于一次填充或者多重填充的效果。本论文的三个非参重复填充方法既丰富了重复填充算法理论,也是对非参理论无重复算法的填补。(2)本论文在核填充方法中首次引入混合核,在填充过程中能加强核函数的内插能力和外延能力;在最近邻算法中使用灰色分析代替Minkowski距离的方法,弥补了由于选择Minkowski参数造成填充效果不稳定的缺陷。这些研究建立了新的缺失值填充的理论、方法和技术。(3)本论文首次把填充代价和构造填充器所需的有效信息综合考虑,把填充理论和代价理论有机地融合在一起进行研究。