【摘 要】
:
目前大数据行业日益磅礴的发展,在各行各业都有了深入的应用,金融、教育、工业、医疗甚至当前的防疫工作都展现了极其重要的作用,在这个大数据技术飞速变革的时代,物联网、互联网、5G智能终端渗透到生活的每一个角落,处处有终端、物物可传感、时时可上网,随着生产数据的规模迅速庞大,海量数据的交互形成了一张张紧密而又高效的网,将生活的动态与行为的秘密包含其中。而想读懂其中的秘密,大数据技术就成了一把必不可少的钥
【基金项目】
:
专项项目“联通大数据平台数据治理”;
论文部分内容阅读
目前大数据行业日益磅礴的发展,在各行各业都有了深入的应用,金融、教育、工业、医疗甚至当前的防疫工作都展现了极其重要的作用,在这个大数据技术飞速变革的时代,物联网、互联网、5G智能终端渗透到生活的每一个角落,处处有终端、物物可传感、时时可上网,随着生产数据的规模迅速庞大,海量数据的交互形成了一张张紧密而又高效的网,将生活的动态与行为的秘密包含其中。而想读懂其中的秘密,大数据技术就成了一把必不可少的钥匙。截至现在,已经有了更多的企业、机构及组织意识到了大数据的作用,并开始寻求一种能挖掘出数据中所蕴含巨大潜在价值的方式。那么,回到数据的源头,以运营商为例,面对积累了十几年的数据,面对全国几亿的用户资料,该如何高效的建立大数据平台并将现有的数据有效的利用起来,就成为了一个困扰了许多人的难题。为了便于改善数据分析环境的存储能力和计算效率,有助于数据的使用和分析,本文设计了基于Cloudera Hadoop集群,针对多个域多维度数据的采集存储、加工、分析、评估系统。论文在以下几个方面进行了研究:(1)以课题背景开始论述,从数据的采集,加工,业务架构,处理及背景出发,学习并探索了目前国内外在数据平台中常用的处理方法和开发方向。并以运营商为例,针对不同类型的数据(B域、O域、信令、综采)及不同维度的数据(数据库、压缩文件、日志),确定数据管理系统的需求概要,包括:业务流程上如何进行采集、处理、加工、分析,最终得到提供给产品及客户使用的数据表,并着重说明了设计流程时涉及的数据资产管理思想。(2)详细探究数据管理系统的核心模块,即数据采集、通过spark对海量关系型数据做详细处理及数据实现。分析核心模块的业务需求、通用解决方式、现阶段难点、处理要点等部分,为后续详细设计做紧密的铺垫。(3)将平台的业务设计与技术栈(例如Hadoop 2.X、Hive、Spark、Flink等)紧密的结合起来,使Map Reduce(Hive-Sql)程序和Spark(Python)发挥各自的作用和性能,最后在中台以各自的业务分类,构建出对应不同的模块及模型下的数据加工流,并统一由总体调度BDI流程将各自的数据加工脚本统一调度并集成监控管理。Kafka、Flume、Sqoop、Zoo Keeper和Hbase组合形成完整的大数据处理平台。(4)文内数据处理平台为Cloudera Hadoop集群,为了处理不同的数据(选取其中的一个集群为例),需要将600-1000台物理机架构为统一的集群,详细讨论针对该类型庞大集群的监控需求及采取Prometheus与Alertmanager的特点和结构,并说明了在搭建集群过程中的搭建流程、需要注意的要点、常见错误以及平台架构。全文最终展现的研究成果是一个完整的的从数据采集、预处理、加工到分析结果、运维监控的架构是基于Hadoop 2.X(Cloudura版本)的分布式数据处理监控系统,该系统支持了整体数据平台的采集、加工、分析和对应产品输出的完整数据流的监控和校验。
其他文献
近年来,由电磁式电压互感器励磁特性的非线性引起的铁磁谐振问题给电网和设备安全稳定带来了极大威胁,而如何有效抑制或消除谐振危害成为电力部门面对的一大难题。虽然目前我国电力系统所采用的消谐措施可在一定程度上降低谐振发生频率,但随着经济发展网架结构日趋复杂,原有的抑制措施已不能满足系统稳定运行要求,亟需探究更为优化的谐振抑制措施以削弱谐振带给电力系统的不良影响。为解决实际工程应用中的铁磁谐振问题,通过理
钢管混凝土柱具有承载力高、延性好、施工方便等特点,能够充分利用钢材的材料性能,在高层和超高层建筑中具有广阔的应用前景。与钢管混凝土轴压构件相比,偏压构件较复杂,其钢管对核心混凝土的约束作用与轴压下钢管对核心混凝土的约束作用并不相同。在偏压荷载作用下,弯矩导致构件截面纵向应变沿高度方向线性变化,部分截面甚至处于受拉状态,约束作用沿环向呈不均匀分布,此时受压区任意截面高度处钢管对核心混凝土的环向约束作
家电产品的工艺和可靠性是评价产品性能的重要指标,不仅关系用户使用体验、人身安全,还关系到产品口碑、企业形象。根据公司的市场数据分析,家用空调中印刷电路板装配(PCBA,printed circuit board assembly)是失效比例最高的部件,占比超过了50%,而在PCBA失效中,元器件焊接失效占比超过了50%。本文以家用空调产品的PCBA焊点为研究对象,从焊点的疲劳失效分析入手,通过焊点
扑翼飞行是自然界昆虫普遍采取的飞行方式。扑翼飞行器是一种通过模仿昆虫的翅翼扑动来实现飞行的新型飞行器,仅需翅翼的扑动就可同时产生升力和推力,具有飞行效率高、机动性能好等优点。因此在军事及民用方面均有广阔的应用前景。但目前研制的扑翼飞行器依然不能满足大负载、强推力、高机动、稳定飞行的要求,存在气动升力低、机动性能差,飞行不稳定等缺陷。扑翼的气动特性一直是扑翼飞行器研制的关键内容,因此分析各扑动参数对
防空导弹在拦截超低空目标时,为了有效提高防空导弹的超低空拦截性能,可通过设计布儒斯特飞行弹道以减少海杂波干扰,提供超低空飞行目标的有效观测信息,最大限度地降低多径干扰对目标跟踪精度的影响,提高拦截精度。针对典型反超低空防空导弹建模问题,给出了各坐标系和转换角度的定义,并推导了各坐标系之间的转换关系;构建了导弹和目标之间的相对运动关系,建立了相对运动模型;以拦截超低空目标的“海麻雀”导弹外形参数为参
随着节能、环保、绿色等可持续性理念的发展,结构材料在力学性能基础上需要同时兼顾全寿命周期性能。复合材料具有可设计性,采用不同的原材料与制造工艺,可以更好的满足工程结构可持续性发展的需求。亚麻纤维是天然纤维,具有能耗低、可降解、可再生、价格低廉等优点,近年来在汽车、航空航天等领域的应用逐渐扩大。与合成纤维相比,亚麻纤维的力学性能较低,耐湿热性能较差。碳纤维力学性能、抗疲劳性能、耐腐蚀性能等优异,但其
近年来,随着中国经济不断发展,各种高层和超高层建筑层出不穷。长周期地震动是一种低频成分很显著的地震动,近年来有报告指出长周期地震动相对于普通地震动对具有较大自振周期的高层和超高层结构产生了更为严重的损害。并且我国的抗震设计规范中,对长周期地震动可能造成的高层结构更严重损害如何控制尚未做出具体规定。本文提出了一种快速准确识别长周期地震动的卷积神经网络模型,分析了高层结构在长周地震动作用下的反应,分析
本论文研究考虑误差相关性的贝叶斯压缩采样方法及其在结构健康监测信号中的应用。在稀疏贝叶斯学习的建模中考虑了贝叶斯压缩采样算法中预测误差之间的相关性,对原贝叶斯压缩采样方法进行了理论上的完善,建立了考虑预测误差相关性的贝叶斯压缩采样方法,并分别通过一维信号和二维图像信号进行了相应的对比和验证。主要研究内容如下:(1)建立了考虑预测误差相关性的贝叶斯压缩采样方法。首先,介绍了传统的稀疏贝叶斯学习方法,
语音识别作为解放人类双手的沟通方式,一直是人类与机器进行交流的最佳方式。然而,公开的资料表明,尽管特定场景例如起居室等安静环境下语音识别的正确率已接近实用,基于移动设备的语音识别尚不成熟。究其原因在于移动终端设备的使用场景十分复杂,在低信噪比的情况下会极大程度的影响语音识别的准确度。鉴于此,本文针对语音识别系统中的前端降噪算法、语音活动检测算法及特定字识别算法开展研究,并结合深度神经网络给出了各自
岗位价值评估是人力资源管理的重要组成部分,具体指的是基于岗位分析的支持下对岗位责任、工作环境以及工作压力等方面内容进行全面评价与分析,以此为依据对岗位的相对价值进行确立,在此基础上促进岗位价值序列得以形成的过程。在本文的研究过程中以辽河石化分公司为重点展开了一系列分析,以部门职责细化、工作分析、定岗定编为前提,以岗位价值评估指标体系设计为重点,对L石化公司岗位价值评估体系及结果应用进行研究。本文首