论文部分内容阅读
聚类分析是数据挖掘中一个重要的研究领域,传统的聚类方法在特定的情形下取得了良好的效果,但是当处理海量数据、具有复杂数据类型的数据集时,仍存在若干尚未解决的问题。
如今竞争型神经网络已经在模式识别、聚类等方面得到了广泛应用,并显示出与传统聚类方法相比所具有的优势。但是竞争型神经网络存在“死”点问题,某些神经元在竞争中可能始终未能获胜而成为“死神经元”,不仅造成神经元的浪费,而且造成训练误差偏大,无法达到训练误差的精度要求,不能很好完成它所担负的聚类或分类任务。另外神经网络受网络拓扑结构和训练样本的影响,对输入数据的冗余属性很不敏感,所以训练速度一般较慢。
粗糙集理论作为人工智能领域的一个新的研究热点,它可以弥补神经网络不能确定哪些知识是冗余的,哪些知识是有用的,训练规模过大和训练时间过于漫长的局限性。所以在数据挖掘过程中,粗糙集理论可用于数据挖掘的数据预处理部分。但是粗糙集理论只能处理离散属性,而实际生活中的数据大多数是连续的属性值,因此需要首先对数据进行离散化处理,这已成为粗糙集理论实用性的瓶颈。
本文提出利用改进的竞争型神经网络进行聚类的方法,主要研究内容和成果如下:
1.针对“死”点问题,深入探讨了LVQ神经网络并且通过引入阈值学习规则,均衡神经元获胜的机会,较好地解决了该类网络在遇到“死”点时训练误差偏大的问题。
2.针对粗糙集理论只能处理离散数据的局限性,提出了基于竞争型神经网络的连续属性离散化方法。首先使用条件属性与决策属性之间的决策关系来度量条件属性的重要性,并据此对条件属性按照重要性由小到大排序,然后利用竞争型网络分类功能找到连续属性的断点,从而实现了对连续属性的离散化。
3.根据上面提出的理论方法,首先解决了竞争型神经网络中存在的“死”点问题并对输入样本进行离散化处理,通过知识约简删除输入样本的冗余属性,简化了知识表达空间维数,然后将简化以后的样本数据作为神经网络的训练样本,从而达到了简化神经网络的输入规模和提高训练速度的目的。最后提出了一种新的基于改进型LVQ神经网络的聚类方法。
4.最后,在这些工作基础之上,作者将本文提出的聚类方法应用到河南省的土壤数据中,对土壤数据进行聚类,验证改进算法的有效性和正确性,实验结果表明该聚类方法的确很有效果。