基于多结构数据挖掘的滑坡灾害预测模型研究

来源 :中国地质大学 | 被引量 : 16次 | 上传用户:wumingshan2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会经济的大规模发展,人类活动领域的逐渐扩展,滑坡事故发生的频率和强度均呈增长之势,所造成的人员伤亡和经济损失也在逐步加大。长江三峡库区地质条件复杂,随着各类工程项目的进一步扩大实施,导致人类工程活动越发频繁,对库区周边地质环境的影响颇深,直接或间接导致了已有滑坡的复发和新生型滑坡的产生,但国内现有的经济前提条件和人力成本并无法对所有存在危险的滑坡逐一治理。因此,基于数据挖掘技术的滑坡时空预测模型研究具有更现实的意义,是实现库区防灾减灾战略及水库安全运营的迫切需求。论文系统总结了滑坡时间与空间预测模型特点、多结构数据挖掘方法及分布式数据系统平台建设等方面的国内外研究现状及存在问题。在前人研究的基础之上,以滑坡灾害频发及人类工程活动频繁的三峡库区秭归到巴东段为研究区,采用NoSQL结构体系构建滑坡多结构数据库,建立分布式存储与共享机制。以滑坡时空预测模型分析及稳定性判据提取为出发点,利用文本数据、监测数据、空间数据等分别建立多结构因子评价指标并定义相应的计算公式,以此建立基于多结构数据挖掘的滑坡稳定性时间预测模型和区域滑坡灾害体易发性评价模型。以NoSQL理论为数据存储体系,在客户端设计了数据挖掘平台,实现滑坡位移模型预测值的输出及可视化。同时考虑滑坡未来监测数据量将呈指数倍增长的趋势,在MapReduce编程框架下对滑坡预测模型中的关联规则算法进行并行转换,实现滑坡大规模数据处理的时间效率提升。具体成果和主要结论如下:(1)对研究区四种数据类型进行了分析与整理,统一滑坡多结构数据的存储物理模型。通过分析研究区滑坡专业监测数据及其他数据的特征,探讨了当前滑坡数据库建设的问题:传统关系型数据库表格结构不统一,缺乏对多源、异构滑坡数据的有效管理。以建立多结构数据存储体系为最终目的,将所有滑坡历史数据初始分为监测数值数据、空间数据、文本数据和图片数据;利用NoSQL存储结构下的文档型数据库MongoDB,数据统一转换为BSON格式存储到文档数据库系统中,最终得到监测数据集、文本数据集和图片数据集;这种高效的键-值形式,为多种格式、不同来源、关系松散的滑坡数据类型提供了结构存储格式。(2)结合多结构评价因子建立了滑坡时间、空间预测模型及多维判据提取流程,实现单体滑坡稳定性评价和区域滑坡易发性分析。融合多结构数据挖掘理论,首先从滑坡时间预测模型分析入手,利用研究区白家包滑坡监测数据及文本数据,归纳综合评价因子系数计算公式,结果表明降雨是影响滑坡变形的主导诱发因素;详细分析了白家包滑坡地表变形位移特性与影响因素间的响应关系,结果表明该滑坡受季候性水力影响较大,确定了将月累积降雨量作为评价指标,指导二次指数平滑模型参数的取值;结果显示优化模型比原始模型对滑坡累计位移的预测精度要高,对滑坡中短期变形趋势时间预报效果要好。同时在考虑诱发因素的前提下,建立了优化后的Arima模型,结果表明该模型对滑坡相对位移的拟合预测能力较好,平均相对误差比原始Arima模型高出6.28%。由于研究区内水循环系统动力对斜坡软弱面的稳定性影响很大,涉水滑坡的大面积突发会造成河道拥塞和居民人生和财产安全,因此,三峡库区沿岸滑坡的稳定性评价工作将显得更为重要,在对滑坡前缘高程、据河距离、面积等数值指标和所在区发育岩性等矢量数据及离散属性的挖掘过程中发现,所在区域岩性为软性或软硬相间、坡度在15°-45°范围内、距离河岸在0.1~117.90m时越可能发生危险,这对新生型滑坡危险性的判别提供了先验规则。例如白家包滑坡就属于危险性较高的案例,在已有滑坡演化阶段分类的知识驱动下,以降雨、库水位、地下水监测指标构建了关联规则模型,结果表明白家包滑坡更容易受到持续降雨和库水位波动的共同影响,同时由降雨导致的地下水快速下降会促使滑坡加速进入破坏变形阶段,该类判据对滑坡稳定性预测的精度达到了91.07%。另外本文从面向对象的多尺度分割和专家分级的技术角度出发,基于区域滑坡易发性理论构建了以遥感影像和库水、坡度、斜坡结构、工程岩组数据的C5.0决策树模型,实现了对研究区四类单元的易发性预测。多尺度分割后的研究区共被分割成2279个对象,模型显示训练样本和测试样本平均正确率达91.64%,Kappa系数分别为0.84、0.51。模型预测结果主要以不易发区和高易发区出现为主,低易发区和中易发区的空间预测频数相加只有141处,共占对象总数的6.19%,实验表明C5.0决策树算法具有较好的分类性特征,能够对区域空间稳定性给出明确的易发性划分。通过决策树模型建立研究区滑坡易发性分类预测图,预测结果显示高易发性单元较易在长江干流及支流两岸出现,工程岩组通常表现为软岩岩组和软硬相间岩组;总结坡体结构和坡度的发育规律,结果表明坡度在15°-30°之间且出现顺向坡或斜向坡的区域较易出现高易发性单元。这与历史矢量数据分析的结果情况相贴切,模型预测结果可靠。(3)搭建了基于MongoDB的多结构滑坡数据挖掘系统平台,实现了基于分布式数据库技术支持下的滑坡多结构数据挖掘功能。利用MongoDB数据库与Java语言框架,编程实现了多结构化数据分布式存储、查询及优化后的二次指数模型功能,分别在服务器端和客户端部署了数据平台。以树坪滑坡作为研究对象,在数据分析阶段搜索相关文档和监测数据作为评价指标,获取多结构评价因子系数的大小,其中库水位指标系数最大,达到了0.65;后续实验也证明在引起树坪滑坡失稳的规则中,库水位的快速下降起到了比较明显的作用,尤其在破坏变形阶段和剪切膨胀阶段,快速下降的库水位是诱发滑坡失稳的最重要因素;在库水位波动与树坪滑坡演化阶段的高度关联支持的前提下,编程实现了指数优化模型的导入,通过库水位的动态变化修正模型参数值,最终采用Java窗体和曲线绘制组件实现了模型预测值与滑坡累计位移实测值的输出及可视化,模型平均相对误差为5.5%。(4)设计了基于云计算环境下的Apriori并行化算法,实现对海量滑坡监测数据频繁项的快速提取。通过分析滑坡预测模型中的Aporiori算法流程,融合并行化编程框架MapReduce理论,分别实现了频繁项提取的Map和Reduce方法设计。采用Hadoop1.2.1稳定版,搭建包含8个节点服务器的集群。把上述两类并行化后的算法部署到集群中的云计算平台上运行,最后利用滑坡监测数据集,比较算法在单机和集群系统上的不同时间效率。结果表明在数据规模不断增长下,加速比性能将得到了提升,例如当数据量达到60822条时,加速比为1.56。基于MapReduce的并行算法可以解决在单机系统下滑坡大规模数据挖掘的时间瓶颈问题,由于任务可被分配到各处理器的工作周期中进行,可节约整体的资源开销,提升时间效率。
其他文献
量子力学的发现,使人类在物理世界发现了一系列奇异的现象。1935年,Einstein, Podolsky和Rosen等人发现了纠缠的非常奇异的非经典性质,这一关乎量子力学基础的概念与现象让物
目的评估公共库存脐带血造血干细胞的质量及脐血库用于质控的血样是否能够正确反应实际血袋内的脐带血造血干细胞的活性和数量。方法分析2009年1月-2010年12月按照Rubinsten
近年来移动互联时代的到来,让传统纸媒面临着内容销售和广告销售的双重困境。移动互联像一把双刃剑,将传统媒体逼入改革的艰难境地,同时也为传统媒体的未来带来了更多的可能
文章首先采用2016年31个省、自治区和直辖市的16个具体指标数据作为分析依据,测算了省域农村基本公共服务综合水平,再利用探索性空间数据分析方法对农村基本公共服务水平的空
通货紧缩作为泡沫经济的后遗症,长期困扰着日本经济,克服通缩已成为日本的当务之急。近日,一个诠释货币均衡理论学说的问世,为日本克服目前的通货紧缩提供了理论上的支持,引起有关
报纸
德国在科研成果转化过程中逐步建立起以政府、高校、行业协会与市场化组织相互匹配的四位一体的技术转移体系,形成了以市场需求为导向,市场化运作技术转移机构为中介,政府强
<正> 不久前,今日中国出版社出版了李银河的"性社会学系列"专著,包括《中国女性的感情与性》、《同性恋亚文化》和《虐恋亚文化》三部。相比而言,《虐恋亚文化》是一部最能引
<正> 年纪稍大的中国人应还记得,1968年春,"文革"还正如火如荼之际,毛泽东发表了一篇"五·二○声明",全国各地为此举行了由上级组织的大规模游行。很多人应还记得,事情同马丁
[目的]探讨颈椎感染伴不全瘫的诊断方法与治疗原则。[方法]收集分析2012年1月~2016年7月收治的颈椎感染伴不全瘫患者11例,进行颈椎前路融合内固定术。[结果]11例患者急诊术后
<正>随着网络化在各个领域的普及,采供血机构也越来越重视用信息化技术手段进行物资管理。为提升血站物资管理水平,满足血站管理规范的要求,强化血站关键物料管理和一般物料