决策树算法在贴片机生产数据挖掘中的应用研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:aj810130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的迅速发展,数据库中存储的数据已经远远超越了人类理解力所能达到的范围。对这些数据进行全面系统的分析,挖掘出这些数据中蕴藏着的知识已经成为一项极具挑战性的任务,我们迫切地需要一种新技术来帮助我们智能的从这些数据中提取出蕴藏在其中的知识。数据挖掘技术就是在这样的背景下产生并发展起来的。 本文首先介绍了数据库技术的发展和数据挖掘技术的产生,之后对数据挖掘技术进行了详细的阐述,包括数据挖掘的起源,发展,定义等,同时对数据挖掘中的主要技术如决策树,关联规则,聚类分析,粗糙集理论,贝叶斯分类,人工神经网络等进行了介绍。 本课题是实验室与日本SORUN公司合作的国际合作项目,我们所用数据是由SORUN公司提供的贴片机生产数据。贴片机在长期生产电子芯片过程中积累了大量的数据,在这些数据的背后往往存在着一些不易被发现的知识,SORUN公司希望我们把这些数据利用起来,通过对这些数据全面系统地挖掘,得到一些能够帮助提高生产效率的知识。 SORUN公司希望我们可以提供易于理解的挖掘结果。在数据挖掘领域的众多技术当中,由于决策树技术具有可以生成比较直观易懂的规则并且计算量相对不是很大的特点,我们决定采用决策树技术对贴片机生产数据进行应用研究。在阐述了贴片机生产数据的预处理过程和决策树技术的基本思想之后,我们详细地介绍了三种应用最为广泛的决策树算法--ID3算法,C4.5算法,分类回归树CART算法。然后我们设计了对比实验,在贴片机生产数据中对比这三种决策树算法的准确性,以帮助我们选取一种最为适合在贴片机生产数据中应用的算法。 通过ID3算法,C4.5算法和分类回归树CART算法的对比实验,我们得到如下结论: 首先,这三种决策树算法在贴片机生产数据上的准确性分布基本一致。 其次,这三种决策树算法的准确性随着测试训练比的增加先增加后减小。 准确性在达到最大值以前迅速增加,在达到最大值以后缓慢下降。测试训练比值为1.167时,准确性达到最大值。最后,这三种算法构造的决策树在构造过程的准确性要比在测试过程的准确性高六到七个百分点。 由于本课题是实际课题,贴片机生产数据量很大,分类回归树CART算法除了与ID3算法和C4.5算法的准确性基本一致以外,它还是商品化最为成熟的算法,能够可靠地处理数据量很大的真实数据。它也是三种决策树算法中,唯-能够在给出规则的同时给出其准确性概率的算法,这对于厂方认识规则的准确性也是很有帮助的,所以我们选取分类回归树CART算法作为我们的挖掘算法。 我们使用分类回归树CART算法对贴片机生产数据进行了全面系统的数据挖掘,得到了一些能够帮助用户提高贴片机生产效率降低生产成本的知识,并将这些知识以树型结构简明易懂地呈现给用户,使用户可以更好的理解这些知识。 最后,我们对本课题所做的工作进行了总结,并对将来我们可以继续研究的内容进行了展望。
其他文献
目前在PC和工作站上,文字和数字处理的软件发展良好,以MS Word、MS Excel、MS PowerPoint为代表,包括WPS,另外有PDF格式的文本处理。随着多媒体的实现,在Word中集成了多种对
计算机网络会议是一个同步协作会议,通过网络会议,不同地区的与会者们能够使用与网络相连的计算机共同协作完成某些交互程序,例如:董事会议、科学讨论甚至是虚拟教室。在网络
随着Internet的强势发展,网络上的信息量成爆炸趋势增长,如何使人们快速、准确的在浩瀚的资源中发现自己需要的信息成为关键。目前的搜索引擎虽然在一定程度上缓解了这一矛盾
近年来随着Internet的飞速发展、网络带宽的成倍增加以及计算机计算能力的大大提高,对等网络(Peer-to-Peer,简称P2P)成为了计算机网络技术研究领域的一个热点。P2P网络通过对
如今,机器人在人们的日常生活中扮演了越来越重要的角色,从服务型机器人,到娱乐型机器人,种类越来越繁多,应用越来越广泛,机器人的结构也越来越复杂。机器人控制系统是移动机
随着计算机网络技术和通信技术的高速发展,网络安全和数字签名技术已经引起人们的密切关注,逐步成为计算机科学研究的热点领域。而普通的数字签名技术已经不能满足许多应用的
网格能充分利用因特网上丰富的闲置资源,协同解决复杂的科学或商业问题。当移动设备或人作为新型移动节点加入网格时,传统的网格计算环境扩展为无线移动网格计算环境,此时基
企业过程工程(Business Process Engineering)是指用系统工程的方法指导企业过程的开发和运作,它包括企业过程的定义、模拟、优化和运作四个阶段。企业过程模拟是对企业模型
随着互联网的高速发展,网络中的信息量呈爆炸式增长,互联网已经成为人们获取信息的最主要渠道之一。作为信息检索过程中不可缺少的重要工具,搜索引擎在给人们带来便利的同时,
说话人识别是从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,达到对说话人进行辨认或者确认的目的。与文本无关的说话人识别具有用户使用方便