论文部分内容阅读
随着数据库技术的迅速发展,数据库中存储的数据已经远远超越了人类理解力所能达到的范围。对这些数据进行全面系统的分析,挖掘出这些数据中蕴藏着的知识已经成为一项极具挑战性的任务,我们迫切地需要一种新技术来帮助我们智能的从这些数据中提取出蕴藏在其中的知识。数据挖掘技术就是在这样的背景下产生并发展起来的。
本文首先介绍了数据库技术的发展和数据挖掘技术的产生,之后对数据挖掘技术进行了详细的阐述,包括数据挖掘的起源,发展,定义等,同时对数据挖掘中的主要技术如决策树,关联规则,聚类分析,粗糙集理论,贝叶斯分类,人工神经网络等进行了介绍。
本课题是实验室与日本SORUN公司合作的国际合作项目,我们所用数据是由SORUN公司提供的贴片机生产数据。贴片机在长期生产电子芯片过程中积累了大量的数据,在这些数据的背后往往存在着一些不易被发现的知识,SORUN公司希望我们把这些数据利用起来,通过对这些数据全面系统地挖掘,得到一些能够帮助提高生产效率的知识。
SORUN公司希望我们可以提供易于理解的挖掘结果。在数据挖掘领域的众多技术当中,由于决策树技术具有可以生成比较直观易懂的规则并且计算量相对不是很大的特点,我们决定采用决策树技术对贴片机生产数据进行应用研究。在阐述了贴片机生产数据的预处理过程和决策树技术的基本思想之后,我们详细地介绍了三种应用最为广泛的决策树算法--ID3算法,C4.5算法,分类回归树CART算法。然后我们设计了对比实验,在贴片机生产数据中对比这三种决策树算法的准确性,以帮助我们选取一种最为适合在贴片机生产数据中应用的算法。
通过ID3算法,C4.5算法和分类回归树CART算法的对比实验,我们得到如下结论:
首先,这三种决策树算法在贴片机生产数据上的准确性分布基本一致。
其次,这三种决策树算法的准确性随着测试训练比的增加先增加后减小。
准确性在达到最大值以前迅速增加,在达到最大值以后缓慢下降。测试训练比值为1.167时,准确性达到最大值。最后,这三种算法构造的决策树在构造过程的准确性要比在测试过程的准确性高六到七个百分点。
由于本课题是实际课题,贴片机生产数据量很大,分类回归树CART算法除了与ID3算法和C4.5算法的准确性基本一致以外,它还是商品化最为成熟的算法,能够可靠地处理数据量很大的真实数据。它也是三种决策树算法中,唯-能够在给出规则的同时给出其准确性概率的算法,这对于厂方认识规则的准确性也是很有帮助的,所以我们选取分类回归树CART算法作为我们的挖掘算法。
我们使用分类回归树CART算法对贴片机生产数据进行了全面系统的数据挖掘,得到了一些能够帮助用户提高贴片机生产效率降低生产成本的知识,并将这些知识以树型结构简明易懂地呈现给用户,使用户可以更好的理解这些知识。
最后,我们对本课题所做的工作进行了总结,并对将来我们可以继续研究的内容进行了展望。