论文部分内容阅读
“数据挖掘”的目标是要从错综复杂的数据中去发现某种重要的模式和趋势,真正地去理解数据的内涵,模糊系统正是“数据挖掘”的一个理想的系统和方法。模糊系统有着非常灵活的数学结构,是一种高效的万能逼近器。更为重要的是,模糊系统的规则库能为我们提供许多隐藏在数据中的知识,并以规则的形式为人们所用。但是,这并不意味着模糊系统已经完美无缺。 1.现有模糊建模的许多方法仅仅是从函数逼近这个角度来研究,即如何改进函数逼近精度以及建模的速度。这只是从模糊系统是万能逼近的性质方面来进行模糊建模,如何更加充分地利用各种信息尤其是来自于数据的信息呢? 2.当面对高维数据,现有的模糊系统依然面临着维数灾难的问题:模糊规则的指数增长;大量参数需要拟合而却只有十分稀疏的数据散落在高维空间等等。 本文针对这两个问题,提出了我们自己的方法。 1.我们处理规则爆炸的基本思想来源于聚类。所谓“人以群分,物以类聚”,相似的数据被划分为一类,然后对每一类仅用一条规则进行描述。这样规则数将不会随维数的增长而指数增长,而是与数据本身的特征联系起来。 2.为了获得更为有效的论域划分,我们研究了现有的各种聚类方法,比较了它们各自的优缺点,并最终提出了两种基于MCV聚类的模糊建模新方法。 本文详细地讨论了这两种方法获取的隶属度函数的特点,以及参数估计方面的性质,并把这两种方法与其它经典的方法进行了比较。从数据挖掘这个角度看,我们的方法不仅具有很好的预测能力,还提供了更简洁的规则库,为分析问题的本质和发现数据中隐含的知识提供了更好的工具。 3.如何处理高维问题?输入选择应该是关键的第一步。它不仅起到了降维的作用,还能增加模型的可解释性并减少计算量。 我们在本文中提出了两种基于常识的输入选择方法,一种是基于灵敏度分析的输入选择,另一种是基于数据一致性的输入选择。这两种方法的出发点看似完全不同,其实是等价的,我们的分析表明了这两种方法本质上的联系,大量