论文部分内容阅读
几十年来,随着铁路信息化建设的推进,铁路行业已成功地建设了一批信息系统,如客票发售与预订系统、运输管理信息系统、调度指挥系统、车号自动识别系统、行车安全监控系统、财会管理系统等,这些系统的成功运行为铁路部门积累了丰富的数据。合理利用现有信息资源,获取有价值的决策信息,日趋成为铁路相关部门的迫切需求和铁路信息化攻关的重点。数据挖掘理论和技术的迅速发展,为展开深入的数据分析奠定了良好的基础。本论文以铁路客运营销需求为研究背景,以数据挖掘中的决策树方法和时间序列分析方法为基本理论的研究出发点,结合铁路客票数据特征,针对目前数据挖掘方法中对主类数据分布不平衡数据集分析方法研究的不足,围绕铁路客票数据建立有效的数据分析模型进行了较为深入的研究和应用性实验。首先,根据客票数据的产生与收集过程,有针对性地对客票数据进行了概念分层与数据归约、数据的标准化与离散化、属性构造、维归约等相关预处理方法研究,旨在减少对客票建模分析过程中由于数据本身原因而带来的分析干扰。在对决策树基础理论进行充分研究的基础上,本文主要深入研究了ID3、SPRINT、 SLIQ等决策树算法。通过对决策树方法的应用分析,发现其对主类数据分布不平衡的数据集数据建模分析时存在一定的局限性,本文提出了基于关键度度量的决策树方法,对现有的决策树模型进行了改进,为各个主类属数据争取公平竞争类标号的权力铺平了道路。该算法有效地解决了主类分布不均数据集的建模分析问题,算法提取的定量规则,集预测和统计于一体,增加了规则的可解释性,满足了决策者对决策信息多层次的需求。用时间序列分析方法进行客票数据的时间演变特征分析时,由于时间序列分析模型多以方程式表达,对于实际应用存在模型可解释性差、相关因素分析不明确等缺点,本文提出自时间序列本身提取时间演化特征作为序列分析属性,结合改进的决策树分析方法实现对时间序列的分析。这种方法有利于识别出影响序列变化的关键因素,得到的模型具有较好的可用性。通过其在铁路客运量分析中的应用,证明了该方法的有效性和合理性。对客票数据进行基于决策树方法和时间序列分析方法的数据建模分析,是实现对客票数据进行静态特征提取和动态演化特征分析的一种有效途径。但要全面地解决铁路客运辅助决策的智能化问题,从系统的角度构建数据建模分析系统是十分必要的。本文从系统研究的角度出发,对铁路客运数据建模分析系统的体系框架进行初步的研究,并提出系统的服务框架、逻辑框架和物理框架,指出建立有效的数据建模分析系统是解决目前铁路信息系统的智能化问题的重要途径,对客票数据的全面分析具有十分重要的意义,同时也对相关领域的数据建模分析研究具有一定的参考价值。全文的创新点主要体现在以下四个方面:(1)对决策树模型进行改进,提出改进的基于关键度度量的决策树模型,使得数据量上处于弱势的主类数据也有相等的机会表达本类数据特征,解决了实际应用中的主类分布不平衡数据集的数据建模分析问题。(2)结合时间序列分析方法的优点,提取数据随时间的演变特征,构建数据演变特征训练集,进行数据的决策树建模分析,解决了时间序列模型可解释性差、相关影响因素分析困难问题。(3)将决策树方法以及决策树与时间序列相结合的方法应用于铁路客运数据建模分析,得到的分析模型可实现对铁路客运数据的定量和定性分析,为客运部门充分利用客运资源、合理安排运能提供有益的数据建模分析工具。(4)为提高现有铁路客运系统的智能化水平,提出了开放式的数据建模分析系统的体系框架,并对系统的服务框架、逻辑框架和物理框架进行初步研究,对客票数据的全面建模分析具有重要的指导意义。