大数据探索式多维分析及可视化系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:lvxubin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据目前已是一个庞大的生态体系,聚集了海量的大数据,在数据量高增长的同时,也产生了结构复杂和变化多端的多维数据。这些多维数据遍布在多个不同领域,是需要新处理模式才能具有更强决策力的信息资产。但当前已有的可视化系统中,还存在着很多不足与问题:(1)对数据处理的速度缓慢,未实现数据图表协同更新,间接影响数据分析的结果;(2)降低多维数据维度的过程复杂、可操作性差且学习成本高,对多维数据整合、数据合表、多维数据分层等功能支持性欠缺,使多维数据的研究和应用具有一定的局限性。(3)可视化流程构建不完善,着重研究可视化展示,造成可视化内容过于拥挤,不足以支撑多维数据的全生命周期可视化工作;为了解决上述出现的问题,本文对大数据探索式多维分析及可视化技术进行了深入的研究,主要研究内容包括:(1)为解决多维数据瞬息万变所带来的图表重绘问题,提出并实现了一种面向大数据场景的多维数据可视化实时更新方法,降低多维数据变化重绘图表造成的网络负载和网络延迟,并在多用户并发场景下,减少数据错误率,维护了系统稳定性。(2)针对多维数据进行Kylin建模,提供数据探索、图表配置、人机交互等多种数据图表交互技术,进一步提高视图探索能力,深层次分析多维数据的潜藏价值。(3)设计并实现了大数据探索式多维分析及可视化系统,为用户提供一套完整的从数据接入到可视化展示的多维数据分析架构,具备数据处理和视图探索交互应用能力的多维可视化构建服务。基于上述研究内容,本文构建了大数据探索式多维分析与可视化系统,提供数据挖掘能力,帮助使用者将多维数据可视化为一个高效,直观,易于理解的图像,辅助其验证假设性结论。并将其应用于重点专项项目“国家人类遗传资源中心大数据共享服务平台”建设中。
其他文献
工业快速发展所带来的环境污染问题越来越受到人们的关注。对于废水中的高浓度有机物,直接生化法处理很难达到排放要求。催化氧化技术可以通过催化产生具有强氧化性的自由基,将有机物降解为可生物降解的小分子,使有毒工业废水无害化。其中,低温常压非均相催化氧化技术因其反应条件相对温和,可降解高浓度难降解有机污染物等优势而被广泛使用。对催化剂的组分、形貌进行合理设计,进而提升其对污染物的降解效能,这对非均相催化氧
船舶在航行过程中与波浪之间发生的剧烈冲击现象称为砰击。砰击压力受许多因素的影响,如海波特性、船舶航行状态、结构形状、结构弹性、空气层、水的可压缩性等。当波浪冲击艏部外飘区域时,会产生相当大的脉冲压力,且作用的表面积大,砰击持续时间长,对局部结构的强度有较大影响。因此为了对船体局部结构进行合理的安全性评估,准确预报随时间变化的砰击压力则显得至关重要。另一方面,随着船舶大型化、高速化的发展以及高性能船
20世纪初,什克洛夫斯基强调通过变形和奇异化的手法能使艺术产生一种“陌生感”,从而引起受众对艺术新的感知。什克洛夫斯基及其他的形式主义者们还认为文学作品的特质就在于
OTN光传送网作为下一代骨干传送网的发展方向,充分结合了电域和光域的优势,为客户提供大容量的传送带宽和多样化的保护策略,切合当下大颗粒业务的爆发式增长,是光网络未来的技术发展趋势。在如此大容量、高速率的网络中,网络故障一旦发生,会直接影响大量业务,如果业务不能及时恢复传输,将导致业务中承载的信息大量丢失甚至直接失败,这种情况将会造成严重的社会影响和经济损失,因此OTN网络的生存性成为网络规划中至关
随着近些年物联网(IoT)与边缘计算技术的发展,物联网通信业务的种类与数量不断增加,这给网络的数据传输和处理都造成较大压力。为减轻网络压力,结合边缘计算技术与网络功能虚拟化(NFV)技术,将计算能力从核心网下沉至边缘网络,增强边缘侧业务处理能力是非常有必要的。现有虚拟资源分配方法分为资源映射与迁移两部分,分别存在成本优化与负载均衡无法兼顾、能耗或业务利润损失大等问题。因此,针对边缘网络和IoT业务
移民一直是美国社会生活中的一个热门话题。本文尝试从认知语言学的角度,选取特朗普和奥巴马关于移民的语篇,运用架构理论和概念隐喻理论进行分析。本文以两位总统任职期间关于移民话题的公开演讲及谈话为语料组成语料库。语料库包含特朗普于2017-2019年发表的移民演讲并其推特言论,共计21005词;奥巴马于2009-2017年发表的移民演讲,共计20100词。架构理论强调人们通过架构来思考。词汇和语言表达激
图像自动裁剪是一种常见的图像处理任务,可以改变图像的构图,提高图像的美学质量。优秀的图像自动裁剪算法还可以为图像编辑人员提供专业建议,帮助他们节省大量时间。现有的图像自动裁剪方法大多基于特定的特征,采用滑动窗口法生成大量的候选裁剪窗口,再依据这些特定特征来筛选得到最终结果,不仅十分耗时,而且对硬件有着非常高的要求,最重要的是该方法只能产生有限宽高比的裁剪结果,无法得到最优结果。针对这种情况,本文提
油田经过长期的水驱、聚驱开发后,已进入开采高含水期。为了提高油田的产油量,往往需要应用堵水、控注、停注等常见技术,这些技术已经成为提高产油量的重要方法。目前随着低效井日益增多,人工分析低效井数据的复杂性较高、速度较慢,堵水、控注和停注的影响因素比较复杂。因此,结合油田历史数据和动静态数据综合研究,将计算机技术引入到治理措施井的实际业务中,采取人工智能技术辅助判断待治理的低效井,为待治理的低效井推荐
随着商品经济的高速发展,为了满足人民对高效、迅捷的物流服务的需求,制造企业更加青睐于采用自动立体仓储作为企业首选的仓储管理方案。这样的工作模式使得仓储运输和物流从一个劳动密集型的产业转型快速升级为信息化和技术密集型的产业,实现了仓储运输企业的人力和成本的大幅减少、仓储利用率和货物信息化管理效率的进一步提高,大大地增强了企业的核心竞争力。仓储管理系统作为自动化立体仓储的核心,发挥着巨大的作用。而良好
聚类分析是数据挖掘领域中一个最重要的构成部分。在数据挖掘过程中,无需使用任何先验知识,聚类分析的目标是将聚类簇内的数据对象相似性最大化,不同聚类簇间的相似性最小化。密度聚类作为一类聚类分析方法,具有聚类速度快和在任意形状聚类簇数据集上都适用等优点,但存在无法区分不同密度的相邻聚类簇等缺点,且随着数据量和数据维度的急剧增长,其聚类效率低下,无法适应高维海量数据。本文采用逆近邻和影响空间的思想,对密度