论文部分内容阅读
从大量数据中挖掘出有用的信息正成为一个迫切需要解决的问题,正是这种需求推动了数据挖掘技术的发展。数据挖掘经常要面对一些有噪声、杂乱、非线性的数据,而神经网络具有良好的鲁棒性、自适应性、并行处理、分布存储和高度容错性等特点,因此神经网络非常适合用来解决数据挖掘的一些问题。
RBF网络是人工神经网络中最受关注的模型。RBF神经网络的基本思想是用径向基函数作为隐单元的“基”,构成隐含层空间,隐含层对输入矢量进行变换,将低维的模式输入数据变换到高维空问内,使得在低维空间的线性不可分问题在高维空间内线性可分。
在RBF网络中,隐含层节点的选择是一个非常重要的因素,本论文对目前RBF隐含层中心点的选择问题的几种通常的解决办法进行了介绍分析。K-均值算法是中心点选择算法中最常用的一种算法,本文重点研究该算法在RBF网络构造中的应用,对其进行了改进以使其能适用于高维和分布复杂的数据。研究工作如下:
(1)介绍了目前RBF隐含层中心点选择问题的几种通常的解决办法。
(2)分析了用欧氏距离度量时K-均值算法易受噪声影响的缺点,从而引入了高斯基距离度量,并且关注初始中心点的选择,实证分析了基于距离优化的K均值RBF中心点选择法。通过实证分析,验证了高斯基距离度量比欧氏距离度量能够改进各种算法的效果,高斯基距离度量是高维复杂分布的数据的理想的距离度量方法。
(3)针对K-均值算法易受初始化中心点影响的问题,本文提出一种改进的算法,即基于分箱的K均值RBF中心点选择法。本方法将分箱思想引入聚类算法中,利用分箱函数将原数据映射到不同的单元中,然后按照单元密度的大小进行初始中心点的选择,从而对K均值算法进行改进,使其用于RBF中心点选择时可以适用于高维复杂数据。通过对各种方法进行实证分析,验证了本文提出的改进算法的有效性。