基于Web的数据清洗及转换通用框架的研究及应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:RK0707
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的不断发展和数据库技术的成熟应用,企业业务数据飞速增长,除去数据本身的信息,数据之间还蕴藏着大量的对企业管理决策有益的潜在因素。如何有效地将这种隐藏的信息查找出来并应用于决策分析,成为人们研究的一个重点,在此背景下,数据仓库技术应运而生。 在数据仓库构建过程中,良好的数据质量是整个系统进行正确决策分析的基础,而有效的数据清洗及转换是数据仓库中高质量数据的保证。但是由于数据清洗具有很强的领域性,大部分传统的ETL工具中数据清洗和转换模块耦合比较严重,通用性差,系统在引入新功能时扩展性和维护性不好,使得系统很难在大范围内可持续使用。 “基于Web的数据转换及清洗通用框架的研究及应用”正是基于此而提出的一个课题。该框架采用基于B/S模式的组件技术,在保证良好对外接口的前提下,将绝大部分的业务逻辑处理部署在服务器上,提供通用的网络服务,实现了数据清洗及转换的通用操作。 该框架支持多种源数据类型,支持海量数据的批量处理,并根据数据自身特点提供速率优化,长事务进度指示及各种日志记录等功能,不但可以直接作用于小规模系统,并且可以作为通用的底层框架针对特定领域进行二次开发,通过扩展自定义接口完成某一具体领域专有的数据清洗及转换功能。整个处理流程可以在任何需要进行数据清洗及转换的数据源端进行,而不是局限于某个指定的ETL服务器上,这样在减轻了ETL服务器负担的同时,有效地利用了闲置资源。当业务需求发生变动时,只需要更新服务器既可,客户端不需任何改变,从而提供良好的可扩展性和普及性。目前,该框架最终实现已经应用于由东北大学软件所和国家海洋信息中心合作开发的海洋数据仓库系统的ETL模块。本文将重点讨论该通用框架的研究、设计和实现。 在本文的最后给出了该框架在海洋环境数据仓库ETL系统中具体的应用。实践表明该框架在出色地完成数据清洗及转换功能的同时,缩短了项目周期,并提供了良好的扩展性和可维护性。
其他文献
目前,电信业竞争激烈,移动运营商在不断地寻找新的途径去创造新的利润点或者利润增长点。在各种移动增值业务当中,无线定位业务又称为位置业务(LBS),是由移动通信网提供的一种增
2008年北京奥运会后,体育竞技项目越来越受人们欢迎。但如何更好的运用图形图像技术来实现运动员的各种运动信息的展示,也成为一个越来越热门的研究领域。冬季奥运会上的花样滑
信息时代,人们对教育提出了新的要求,Internet远程教学作为一种新的教学模式正备受关注。与传统的教学相比,基于Internet的远程教学不受时空环境的限制。它符合现代人才培养的需
搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着tntemet信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文
近些年来,有关空间数据的应用与日俱增,这就对空间数据的有效管理提出了迫切要求。空间数据库是管理和处理空间数据的有效途径,它已成为当前数据库领域的研究热点,在国内外应用于
越来越多的互联网公司依赖大规模的数据分析作为其核心服务的一部分,如日志分析、特征提取和数据过滤等任务。通过其Hadoop实现,MapReduce模型已经被证明是处理此类数据的有效
基于XScale的NeuLinux开发平台是由东软集团有限公司嵌入式软件事业部为了面向高端的嵌入式市场而开发的一种软硬件平台。 在XScale开发板上,我们定制了NeuLinux嵌入式操作
VoIP俗称IP电话,它是利用国际互联网Internet作为语音传输的媒介,从而实现语音通信的一种的通信技术。当前,VoIP的业务量正在以飞快的速度增长,然而,IP电话终端设备和网关的可扩展
伴随着物联网技术的迅速发展及城市化进程的加快,智能交通应用迅速崛起。新型城市交通基础设施不断兴建,车流量快速增长,监控系统越来越庞大。通过视频识别摄像头、GPS车辆定位
目前,现有的安全产品如IDS、FW只是从特定角度满足了一部分的安全需求,而现在企业部门却急需能够对网络整体安全现状进行简单、直观、全面掌握的产品。 本文根据人民银行的