DM2平台的扩展及其在铁路货票数据上的挖掘应用研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:linlongbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库技术从20世纪80年代初开始,就得到了广泛的普及和应用。伴随着近年来数据量的急剧增长,以及数据仓库和Web等新型数据源的日益普及,人们面临的主要问题不再是缺乏足够可以使用的信息,而是如何将这些海量的数据有效地利用起来。面对这一挑战,数据挖掘技术应运而生,并在各行各业得到了广泛应用。而关联规则是数据挖掘中最活跃的研究方向之一。DM2平台是一款由我们设计并正在开发的数据挖掘平台。目前,DM2平台已开发了用于实例分类和关联规则挖掘的功能组件,并实现了ID3、Naive Bayes、FP-Growth、CLOSET等数据挖掘算法。但为了满足不同数据挖掘项目的需求,DM2还有很多有待于完善和扩展之处:首先,DM2平台与数据库的交互能力还有待增强;其次,DM2平台所实现的算法还很有限,而算法恰恰是一个数据挖掘系统的精髓,因此,丰富DM2平台的数据挖掘算法是当务之急;再者,DM2平台还不具备以界面的方式与用户交互的功能。本文针对这些问题,从丰富算法库以及如何实现用户界面等方面对DM2平台进行了扩展。首先,本文丰富了DM2平台的数据挖掘算法,在DM2平台上,实现了经典的Apriori算法,还针对海量数据提出并实现了一种改进的Apriori算法,该算法采用线性存储结构与垂直数据结构数据库相结合的方式,从一定程度上解决了经典Apriori算法的瓶颈问题,改善了DM2平台的性能。其次,本文进一步加强了DM2数据挖掘平台与数据库的交互能力。实现了规则集到数据库的存储,使DM2平台能够对规则进行过滤、排序、分组等操作。最后,本文实现了DM2平台数据挖掘的用户界面。采用基于浏览器的技术和JSP技术实现用户与DM2平台的动态交互操作,并直观得到挖掘结果。扩展后的DM2平台具有极强的处理大数据集的能力,优异的与数据库交互的能力,人性化的可视化数据挖掘界面。本文以2004年郑州铁路局铁路货票数据记录样本为实验数据,基于扩展后的DM2平台建立了铁路货票数据挖掘系统,实验结果表明,该系统能够挖掘出确实有价值的关联规则,系统性能稳定可靠。论文结束部分,讨论了目前DM2平台研究工作中需要进一步完善的问题,指出了今后的研究方向。
其他文献
随着医院信息系统的普及使用,在临床诊断过程中产生了海量的医学资源,这些未经加工的医学资源蕴含着极为丰富的信息。然而,由于这些资源存储分散、组织无序,所以难以被利用。
Web服务的出现给企业应用带来了前所未有的商机。经过近几年的发展,Web服务及其组合技术已经逐步完善和规范,并为许多商业组织所采用。作者所参与的研究小组提出了业务服务模
近年来,基于口令的认证密钥交换协议得到了广泛关注,成为密码学协议研究的热点。在基于口令认证的密钥交换协议中,客户和服务器共享一个口令,客户之间没有共享的秘密。参与协
基于GIS平台的卫勤信息系统课题的提出是在军队全面深入的开展信息化建设的大背景下提出来的。其目的是为提高我国卫勤保障信息使用的效率、实现多种信息形式的综合应用、提
随着3G时代的到来,操作系统之争已经转向了嵌入式浏览器之争,而手机浏览器被称为3G的“最后1厘米”。目前,手机浏览器有两种制式:手机Wap浏览器和手机Web浏览器。手机Web浏览
网络入侵事件频繁发生,给全世界的互联网用户带来了无法估量的损失。为了保障系统的安全性,仅仅做好防御工作是不够的。入侵检测系统作为一种主动的安全防护工具,能够在计算
在数据中心的设计和优化领域,首先要制定机房、机架、制冷设备的布局配置方案,然后利用计算机进行建模和仿真,以让设计人员更加直观地分析能耗优化。本文在研究现有数据中心
二十一世纪科技不断发展进步,随着IP网络和现有电信网络(PSTN,ISDN,移动网等)的融合,必然需要在IP网络上传输现有电信网络中的SS7电话信令。IP网络和电信网络是两个独立的网
在“地球村”高速发展的推动下,智能视频监控将迎来大数据时代,如何在每天产生的大量的数据中,提取有效的信息和服务,是智能视频监控必须面对的巨大挑战。多目标检测和跟踪技
随着计算机网络技术的高速发展,计算机病毒越来越猖獗,给人们带来的危害越来越大,因此如何对计算机病毒进行防治对于计算机安全来说就显得非常关键。 本文分析了计算机病毒的