基于决策树的数据建模分析方法及其在铁路中的应用研究

被引量 : 7次 | 上传用户:wanglei15950225270
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
几十年来,随着铁路信息化建设的推进,铁路行业已成功地建设了一批信息系统,如客票发售与预订系统、运输管理信息系统、调度指挥系统、车号自动识别系统、行车安全监控系统、财会管理系统等,这些系统的成功运行为铁路部门积累了丰富的数据。合理利用现有信息资源,获取有价值的决策信息,日趋成为铁路相关部门的迫切需求和铁路信息化攻关的重点。数据挖掘理论和技术的迅速发展,为展开深入的数据分析奠定了良好的基础。本论文以铁路客运营销需求为研究背景,以数据挖掘中的决策树方法和时间序列分析方法为基本理论的研究出发点,结合铁路客票数据特征,针对目前数据挖掘方法中对主类数据分布不平衡数据集分析方法研究的不足,围绕铁路客票数据建立有效的数据分析模型进行了较为深入的研究和应用性实验。首先,根据客票数据的产生与收集过程,有针对性地对客票数据进行了概念分层与数据归约、数据的标准化与离散化、属性构造、维归约等相关预处理方法研究,旨在减少对客票建模分析过程中由于数据本身原因而带来的分析干扰。在对决策树基础理论进行充分研究的基础上,本文主要深入研究了ID3、SPRINT、 SLIQ等决策树算法。通过对决策树方法的应用分析,发现其对主类数据分布不平衡的数据集数据建模分析时存在一定的局限性,本文提出了基于关键度度量的决策树方法,对现有的决策树模型进行了改进,为各个主类属数据争取公平竞争类标号的权力铺平了道路。该算法有效地解决了主类分布不均数据集的建模分析问题,算法提取的定量规则,集预测和统计于一体,增加了规则的可解释性,满足了决策者对决策信息多层次的需求。用时间序列分析方法进行客票数据的时间演变特征分析时,由于时间序列分析模型多以方程式表达,对于实际应用存在模型可解释性差、相关因素分析不明确等缺点,本文提出自时间序列本身提取时间演化特征作为序列分析属性,结合改进的决策树分析方法实现对时间序列的分析。这种方法有利于识别出影响序列变化的关键因素,得到的模型具有较好的可用性。通过其在铁路客运量分析中的应用,证明了该方法的有效性和合理性。对客票数据进行基于决策树方法和时间序列分析方法的数据建模分析,是实现对客票数据进行静态特征提取和动态演化特征分析的一种有效途径。但要全面地解决铁路客运辅助决策的智能化问题,从系统的角度构建数据建模分析系统是十分必要的。本文从系统研究的角度出发,对铁路客运数据建模分析系统的体系框架进行初步的研究,并提出系统的服务框架、逻辑框架和物理框架,指出建立有效的数据建模分析系统是解决目前铁路信息系统的智能化问题的重要途径,对客票数据的全面分析具有十分重要的意义,同时也对相关领域的数据建模分析研究具有一定的参考价值。全文的创新点主要体现在以下四个方面:(1)对决策树模型进行改进,提出改进的基于关键度度量的决策树模型,使得数据量上处于弱势的主类数据也有相等的机会表达本类数据特征,解决了实际应用中的主类分布不平衡数据集的数据建模分析问题。(2)结合时间序列分析方法的优点,提取数据随时间的演变特征,构建数据演变特征训练集,进行数据的决策树建模分析,解决了时间序列模型可解释性差、相关影响因素分析困难问题。(3)将决策树方法以及决策树与时间序列相结合的方法应用于铁路客运数据建模分析,得到的分析模型可实现对铁路客运数据的定量和定性分析,为客运部门充分利用客运资源、合理安排运能提供有益的数据建模分析工具。(4)为提高现有铁路客运系统的智能化水平,提出了开放式的数据建模分析系统的体系框架,并对系统的服务框架、逻辑框架和物理框架进行初步研究,对客票数据的全面建模分析具有重要的指导意义。
其他文献
对中国铝业中州分公司锅炉顶棚过热器管泄漏进行了分析,认为炉水品质差、炉水中含有大量的溶解氧,以及汽水分离效果不好、机械携带严重等是造成泄漏的主要原因。对此,提出了
实现基本养老保险的全覆盖是国家经济与社会发展十二五规划的目标,现阶段也正朝着这一全覆盖方向前进。然而,实现全覆盖的方式可能是“碎片化”的,也可能是“大一统”的。我
研究背景胃癌是严重影响中国人民健康的重大疾病,山东省是中国胃癌的高发地区,胃癌一经诊断多为晚期,由于缺乏有效的治疗手段,晚期胃癌的5年生存率不足10%。因此,揭示胃癌发
目的研究错配修复基因家族成员h MLH1、h MSH2、h MSH6在结直肠癌中的表达及其临床意义。方法采用免疫组化SP法检测72例结直肠癌组织中h MLH1、h MSH2、h MSH6蛋白的表达,并
本文旨在以北京体育大学2002-2012年间561篇该校体育人文社会学专业硕士研究生的学位论文为研究样本,主要采用的研究方法是文献法、访谈法、数理法,对近11年论文的发展趋势、
全业务运营时代来临,中国移动、中国电信、中国联通三足鼎力形成,中国通信行业重组初期,张家界联通作为市场跟随者和后来者,必须在短期内构建稳定、高效的营销渠道体系,来适应全业
道路交叉口被称为是交通流转换的“咽喉要地”,同时也是交通事故经常发生的地点。现在道路交叉口大多数是信号灯交叉口,信号灯交叉口又被分为倒计时信号灯交叉口与非倒计时信号
当代博物馆不仅仅只是展品陈列的场所,而是以开放、体验、多元化的趋势来满足大众的文化需求。博物馆建筑由过去收藏与展览的单一功能,发展到如今集娱乐、休闲、交流为一体的公
扒窃型盗窃罪是我国《刑法修正案(八)》新增加的盗窃罪行为方式,为更加有力打击以扒窃为行为方式的盗窃犯罪提供了刑法依据。但由于扒窃这种新的盗窃罪行为方式的出现,改变了盗窃
介绍锅炉热效率热损失法的不确定度分析原理,包括不确定度分析模型的建立,对不确定度分量进行A类或B类评定及合成,以及扩展不确定度的计算方法等,并进行了600MW机组锅炉热效