论文部分内容阅读
随着铁路信息化技术的发展,作为铁路信息系统子系统的货票系统已经积累了丰富的数据。如何以较少的人力和技术成本,合理利用现有的货票信息资源获取有价值的决策信息,成为货运营销和信息技术部门的一个工作重点。数据挖掘技术的迅速发展,为铁路货运营销工作的深入分析奠定了良好的基础,但现有的数据挖掘工具大都基于数据仓库、OLAP Server或数据文件等,无法直接应用于现有的货票系统中。 本课题针对目前铁路信息系统不具有数据仓库的现状和应用人员数据库技术有限的特点,紧密结合铁路货运营销分析问题,采用数据挖掘技术的决策树归纳方法,研究、设计了一个基于决策树的以OLTP数据库为数据源的数据挖掘系统——HPMiner。基本系统的研究和设计力图集预处理、决策树生成、分类规则提取、统计分析与预测为一体,能直接进行连续属性的动态离散化,该离散化过程基于OLTP数据库,是面向具体的挖掘问题,从而降低了对源数据的要求;另一方面,离散化可直接面向应用领域人员,可由用户指定离散区间个数和设定阈值,从而极大地方便了用户的使用,较好地适应了货票信息系统中数据的复杂性。HPMiner系统基于决策树分类算法ID3和C4.5的基本思想,系统的基本平台是Client/Server结构,前台使用VB.NET语言开发,后台通过ADO.NET连接Oracle或SQL Server数据库,基本系统的设计便于和货票信息系统的集成,界面友好。该系统应用于铁路货运营销分析,解决了保价运输收入分析和货流去向分析等多个具体问题。 HPMiner系统的研究将决策树分类技术与现有货票信息系统有机地结合起来,使得应用领域分析人员可以方便地挖掘出所希望的知识,用于指导生产;另一方面也为决策树分类技术的应用研究开辟了新的领域。