【摘 要】
:
BI(Business intelligence)领域的崛起,已经成为促进我国经济发展的一个重要因素。BI作为一套完整的商务智能解决方案,拥有多条业务线、海量数据的业务背景,涉及到增量数据抽取、ETL(Extract-Transform-Load)任务调度等过程。传统时间戳增量数据抽取执行速度慢、内存浪费且没法区别插入和更新操作。同时,目前学界针对ETL任务调度问题,使用了多种调度分配算法来提高E
论文部分内容阅读
BI(Business intelligence)领域的崛起,已经成为促进我国经济发展的一个重要因素。BI作为一套完整的商务智能解决方案,拥有多条业务线、海量数据的业务背景,涉及到增量数据抽取、ETL(Extract-Transform-Load)任务调度等过程。传统时间戳增量数据抽取执行速度慢、内存浪费且没法区别插入和更新操作。同时,目前学界针对ETL任务调度问题,使用了多种调度分配算法来提高ETL执行效率,但依旧存在总执行时间过长问题,而模拟退火算法能够合理分配任务,提升执行效率。针对ETL处理过程中增量数据抽取、ETL任务调度存在的问题,提出了两种优化策略。第一种,从微观角度出发,针对增量数据抽取的传统时间戳方式,通过添加快照表、增加插入和更新两个时间戳字段及相应的删除JOB优化方式,解决传统方式下增量数据抽取操作效率低下、内存浪费的问题。第二种,从宏观角度出发,针对ETL任务调度问题,通过数学建模来描述问题,采用模拟退火算法对任务进行合理分配,使ETL整个工作流所用时间更少,从而提高了整个ETL处理过程的效率。为了验证优化策略的有效性,分别对上述两种方案设计了对照实验。在真实数据集上的实验结果表明,优化后的时间戳方式在对数据进行增量抽取时效率有所提升,内存浪费问题得到了缓解,能够区分插入和更新操作;通过模拟退火算法与轮询调度算法、贪婪算法作对比,以ETL工作流总的执行时间做指标,证明了模拟退火算法在处理ETL任务调度问题时是可取的,在综合能力上相比其他两种算法有很大的优势。
其他文献
文章首先分析了上海市的人口结构和储蓄现状,然后综合分析了人口老龄化影响储蓄的机制,最后利用时间序列模型,通过选取1997-2015年间上海市老年抚养比、家庭成员数、人均居民
本文采用文献资料法等研究方法,对中国体育产业目前存在的困难及未来发展前景进行全面分析。研究认为,现阶段,中国体育产业呈现出良好的发展态势,但仍然存在一些问题。中国体育产
故事是吸引小学生的最好方法,将故事运用到英语教学中,不但可以激发学生学习英语的兴趣,而且可以提高学生的思维能力和理解能力。故事教学在小学英语教学十分重要,教师要将故
连云港地处沿海地区,年降雨较多,特别是夏季雨大风急,积水更为严重,极大地影响了变电设备的安全稳定运行。该文通过仔细查找变电站电缆层积水原因,提出从多个方面制定预防和
<正>动物的深部霉菌感染较为罕见(禽类曲霉菌病例外)。我们在多年尸检工作中,累计发现14例。其中曲霉菌感染6例,毛霉菌感染5例,放线菌感染2例,念珠菌感染1例。波及器官为肺4
心源性猝死是指由于各种心脏原因引起的自然死亡,发病突然、进展迅速,死亡发生在症状出现后1h内。患者发生猝死事件前可以有心脏疾病表现,但猝死的发生具有无法预测的特点。
材料广泛应用于日常生活及工业生产中。而材料的实际应用与其表面性质密切相关。表面性能可调节的材料能够响应外部刺激而改变其表面性质,其在实际应用中可发挥重要作用。这些材料在组织工程、生物传感器、药物或蛋白质传递和自我修复涂层等方面都得到广泛地应用。在本项研究中,我们利用两步RAFT聚合制备了聚(甲基丙烯酸甲酯-co-9-蒽甲酸甲基丙烯酸乙酯)(P(MMA-co-AnMA))和聚(甲基丙烯酸甲酯-co-
本报讯 记者许政、通讯员史骏、谭存柱报道:回顾历史、追寻足迹,不忘初心、牢记使命。11月9日至10日,江苏省公安厅党委副书记、南京市副市长、公安局党委书记、局长孙建友率队前
目的通过问卷调查三门峡6所初中教师的疲劳现状,了解初中教师疲劳状况,探究个体特征、职业压力、应对方式、生活满意度对其疲劳程度的影响,提出能够缓解其疲劳程度的建议,帮
一、廿八都的渊源廿八都位于浙江省的西南部,距江山市65公里,是中国古代海上丝绸之路陆上运输线——仙霞古道的必经之处。古镇历经千余年的繁忙、喧哗和辉煌。见证了我国古代