论文部分内容阅读
随着硬件设备和网络的发展,数据量和数据维数都以极快的速度增加。大多数模式识别算法在遇到高维数据时,运算的时间复杂度呈指数升高,但是识别效果反而变差。如何对高维数据进行维数约简,提取出更具识别度的特征,以提高或保持模式识别的准确度,已经成为一个热门的研究方向。维数约简算法旨在通过对原始特征的评估或者变换形成新特征空间,减少冗余特征对于模式识别的影响。现有的维数约简算法针对特征本身的不确定性、随机性以及多尺度特征的内在分布规律研究较少。有必要积极地提出新技术学习数据隐含的信息,描述数据内在分布规律,并且提取出更能反映数据本质的特征。鉴于此,论文引入认知物理学方法,通过数据本身的分布状态衡量特征重要性程度,尝试在多尺度视角下提取数据特征,约简特征的数目;并且应用提出的算法解决实际问题。采用认知物理学中的数据场和云模型理论,从不同角度探索数据的内在联系,提取相关的空间特征,揭示数据的蕴含信息。其中数据场用来探索特征本身的重要性程度以及不同特征之间的相关性。数据对象受其它对象影响而使得特征描述具有一定的不确定性。数据场中的质量、影响因子、势函数这些关键因素的分析有助于解决维数约简中特征的重要性度量、样本间距离的度量和样本局部映射的获得。云模型是不确定性研究的重要模型,可以实现定量数据和定性概念之间的相互转化。论文利用云模型构建出了点和概念两个层次的特征提取策略。丰富了认知物理学的应用范围,针对维数约简的若干应用问题,全面分析了数据场的质量、距离、影响因子等关键要素,深入研究数据场的各向异性、云模型的不确定度等关键技术在维数约简中的作用。论文从特征提取、特征重要性度量、特征子集选择和特征表示四个方面进行基于数据场和云模型的维数约简方法研究,论文的主要工作如下:(1)势函数影响因子σ体现特征的各向异性,需要密度估计进行计算,但是密度估计的时间复杂度较高。同时计算类间距离和类内距离时需要遍历整个数据集。对于一些分类器,更应该关注样本的临近数据分布状态而不是整个数据集。例如对于SVM类的分类器,在超平面附近的样本相对于其他样本更为重要。为此,论文引入最大间隔思想,提出K临近局部最大间隔特征提取算法(KLMM)。该算法通过影响因子σ体现特征的各向异性。将这种策略和最大间隔标准相结合,在广义数据场中进行最大间隔结构学习。将KLMM和SVM算法结合,在通用数据集上取得了比ALH更高的分类精度。(2)现有的特征重要性度量算法对于数据的物理分布和数据点之间的空间分布关系研究较少。为此,提出基于势熵的特征重要性度量算法(FRGDF)。FRGDF在度量特征重要性时除了考虑数据本身分布之外,还在将数据场扩展到广义的多维数据场基础上,将数据映射到高维空间,使其更具可分性,使用层次聚类算法得到最优特征子集。在通用数据集上的相关实验和分析证明FRGDF算法可有效剔除不重要或噪声特征。采用FRGDF得到的最优特征子集和多种分类器相结合都保持或提高了分类器的精度,表明FRGDF算法独立于具体的分类器。(3)在数据场框架下,样本质量m是计算数据点势值的重要参数。实际上样本的质量和其周围样本密度和类别都有关系。同时特征子集的选择不仅要考虑特征本身分布状态,还要考虑和其他特征以及类别的相关性。为此,提出基于数据场和互信息的特征子集选择算法(DFMIFS).在将数据转换到数据场中的同时,将数据投影到网格中计算;引入互信息理论,计算候特征和已选特征的相关性,只有那些弱相关的特征才被加入特征子集中。采用启发式评估算法选取最优特征子集,实验证明,DFMIFS可在提取比FRGDF更少特征的基础上,进一步提高或保持分类器的精度。(4)现有的维数约简算法缺乏对特征在不同尺度下不确定性的统一描述,同时对于定量特征点和定性概念之间的转换研究不足。为此,引入认知物理学中的云模型思想,进行特征在不同尺度上的不确定性研究;提出基于合成云模型的特征提取算法(FECCM)。并以图像边缘特征提取为例,分析了特征在微观和宏观上的不确定性问题。微观上,将云模型和Canny算子相互结合,提取出图像的像素级数字特征。传统的Canny算子需要手动设置双阈值,FECCM可以自动选择阂值。以在FG-NET数据库的人脸年龄识别为例,进一步表明FECCM的有效性。FECCM将图像的特征识别问题转换为知识概念提取的过程,有效的利用已检测的图像,通过不同尺度特征的表示和提取,解决了特征的不确定性描述问题,体现特征的随机性和模糊性。通过不同尺度的训练样本得到不同尺度样本的分布情况,抽取相应的共性概念云,计算出不同概念云的数字特征,边缘的提取结果在噪声点消除和边缘清晰度上都表现出色。综上所述,论文通过数据场中样本的势值表示样本分布状态及样本间的相互影响,使用场空间反映数据对象的空间关系特征。为了进一步表示特征在空间分布中的模糊性和随机性,引入云模型表示数据对象分布在不同尺度的多种状态,使提取的特征更具普适性。将认知物理学方法和具体的维数约简策略相互结合,使得认知物理学方法研究更加深入,同时为维数约简提供了新的参考模型。