基于决策树的货票数据挖掘系统的研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:zhangstian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着铁路信息化技术的发展,作为铁路信息系统子系统的货票系统已经积累了丰富的数据。如何以较少的人力和技术成本,合理利用现有的货票信息资源获取有价值的决策信息,成为货运营销和信息技术部门的一个工作重点。数据挖掘技术的迅速发展,为铁路货运营销工作的深入分析奠定了良好的基础,但现有的数据挖掘工具大都基于数据仓库、OLAP Server或数据文件等,无法直接应用于现有的货票系统中。 本课题针对目前铁路信息系统不具有数据仓库的现状和应用人员数据库技术有限的特点,紧密结合铁路货运营销分析问题,采用数据挖掘技术的决策树归纳方法,研究、设计了一个基于决策树的以OLTP数据库为数据源的数据挖掘系统——HPMiner。基本系统的研究和设计力图集预处理、决策树生成、分类规则提取、统计分析与预测为一体,能直接进行连续属性的动态离散化,该离散化过程基于OLTP数据库,是面向具体的挖掘问题,从而降低了对源数据的要求;另一方面,离散化可直接面向应用领域人员,可由用户指定离散区间个数和设定阈值,从而极大地方便了用户的使用,较好地适应了货票信息系统中数据的复杂性。HPMiner系统基于决策树分类算法ID3和C4.5的基本思想,系统的基本平台是Client/Server结构,前台使用VB.NET语言开发,后台通过ADO.NET连接Oracle或SQL Server数据库,基本系统的设计便于和货票信息系统的集成,界面友好。该系统应用于铁路货运营销分析,解决了保价运输收入分析和货流去向分析等多个具体问题。 HPMiner系统的研究将决策树分类技术与现有货票信息系统有机地结合起来,使得应用领域分析人员可以方便地挖掘出所希望的知识,用于指导生产;另一方面也为决策树分类技术的应用研究开辟了新的领域。
其他文献
随着多媒体技术的发展和网络的日益普及,数字作品的网络发行已成为新时代文明传播的重要方式。但数字数据本身特有的易复制、易修改、存储费用低、传播迅速等特点使得数字作品
近年来,移动通信飞速发展,数据业务层出不穷,对网络和业务的有效管理日显重要.电信管理论坛对网络管理体系和业务管理方法进行了大量研究,提出的电信运营图(TOM)被网络运营商
电信技术的发展使得网络传送信息的方式不断进步,PDH的缺陷和SDH的优势使得后者在中国的传送网中获得了勃勃生机.网络的正常运行离不开完善的管理.因此,人们对网络管理系统的
在自然语言处理(NLP)中,词义排歧(Word Sense Disambiguation)一直是研究的重点和难点,对其他的语言信息处理任务具有重要的理论和实践意义。词义排歧任务是一项“中间任务”,其
随着数据仓库在各行各业的广泛应用,数据仓库的数据质量逐渐成为决定数据仓库建设成败的关键因素之一,而提高数据仓库数据源的质量正是提高数据仓库数据质量的第一步.该文的
当前Internet的基础-IPv4面临的两个最大的问题是地址资源耗尽和骨干路由器路由表规模爆炸,这两个问题是IPv4本身存在的缺陷,只有对其进行较大的修改才能解决.经过多年的讨论
Fortran(英文Formula Translation的缩写)1954年设计并于1957年在IBM 704机上实践的第一个高级语言,1966年美国标准协会(American Standards Association)公布了ASA FORT
信息技术的飞速发展,引起了自动化系统结构的变革,逐步形成以网络集成自动化系统为基础的企业信息系统。现场总线就是顺应这一形势发展起来的新技术。现场总线是当今自动化领域
目前,国内电信运营商已经先后组建了PSTN智能网、GSM智能网和CDMA智能网,并在此基础上不断推出各类智能业务,吸引了越来越多的用户,也为电信运营商创造了可观的经济效益.由于