贝叶斯框架下函数型数据的稳健估计、分类和预测研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:manking93
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对一维的函数型数据提出函数型混合效应模型,并对其进行建模。现实中的数据往往会由于某些原因导致误差从而产生异常值,传统的模型一般都是基于高斯过程的假设,然而当数据中存在异常值的情况时,高斯过程的参数估计结果并不稳健。为了提高推断结果的鲁棒性,本文采用正态尺度混合分布去构造重尾分布,并提出了随机效应项与随机误差项独立的假设,同时使用参数化和非参数化两种方法去刻画重复观测值之间非线性相关性。重尾分布模型是复杂且多层次的,本文采用贝叶斯方法进行参数估计,最后通过详细的数值模拟和英国交通流量数据的实例分析验证了本模型的鲁棒性和高效性。本文的主要研究如下:第一章对函数型混合效应模型的研究背景、研究现状和本文主要工作进行介绍,同时对函数型数据的概念进行描述,并给出了正态尺度混合分布、MCMC以及模型选择的方法介绍。第二章首先介绍了基于高斯过程的函数型混合效应模型GPFR,并基于此提出了基于重尾过程下的HPFR模型。接着,用样条基函数将固定效应项展开,选择非线性的核函数刻画随机效应项的协方差。在随机效应项和随机误差项独立的假定下,设定各参数的共轭先验分布,推导出每个参数的满条件后验分布。对于核函数中的参数,通过隐MCMC的方法更新其参数。然后,本文将此模型推广为分类模型,通过结合分类概率与条件分布提出混合预测的方法,最后对此模型的信息相合性进行了证明。在数值模拟中,本文设计两种不同类型的异常值来检验模型的效果,结果表明:当数据中存在异常值或者错误的分布假设时,HPFR具有更稳健的结果。最后,本文采用英国高速公路交通流量数据进行实例分析,得到了与数值模拟相似的结果,证明了此模型的实用性。第二章提出用非线性核函数来刻画协方差,但是在核函数选择,以及所选择的核函数是否可以有效的刻画数据的非线性结构等方面会出现问题。为了解决这些问题,第三章使用一种基于函数型主成分分析(Functional Principle Components Anal-ysis,FPCA)的数据驱动方法来近似参数化的核函数。接着,依旧假设随机效应项和随机误差项之间相互独立,并在贝叶斯框架下进行参数估计。同时,对Wishart分布中超参数的选择进行详细的讨论。在数值模拟中,本文对包括异常值种类、生成随机效应种类和随机误差项分布种类不同在内的情况,针对随机效应项的扰动模式等,共设计出14种情境,结果表明:先验协方差的选择对参数估计无明显影响。另一方面,本文证明了数据存在异常值以及分布错误假定的情况下HPFR的稳健性。相较于传统的FPCA方法,本章提出的方法更为准确,程序运行速度相比上一章的方法也大大提高。最后,本文使用英国高速公路交通流量数据进行实例分析,通过预测结果证明了我们的结论。第四章对模型的方法、结果等进行总结,并对以后的工作方向进行了展望。
其他文献
台风是最严重的自然灾害之一,而海面风场变化与台风生消发展过程息息相关,因此监测海面风场在台风监测和预警中扮演了重要的角色。传统的海面风场观测多为浮标站点测量和海洋气象卫星观测,但仍存在时空分辨率不足、观测方式单一及成本较高等问题。星载全球卫星导航系统反射测量(GNSS-R)具有近实时、全天候、覆盖面广等优点,为海面风场观测提供了一种新的观测方式,提高了热带气旋的监测精度。本论文首次利用星载GNSS
随着闪电定位技术和多种探测手段日益发展成熟,单一的观测资料已不能满足当前雷电监测预警的业务要求,根据各种资料的不同特性,利用多种观测资料综合进行雷电监测预警已发展成趋势。本论文基于南京信息工程大学在南京及昆明地区自主搭建的VLF/LF磁场三维闪电探测定位网,将三维闪电定位资料与雷达回波资料、卫星云顶亮温资料结合起来,提取不同地形下不同类型雷暴发生时的典型特征参数,利用TITAN算法进行雷暴区域的识
本文运用拟谱方法和有限差分方法对几类非线性Schr(?)dinger/Gross-Pitaevskii方程的定解问题开展数值研究,提出多个稳定的高精度数值算法,并建立算法的最优误差估计,构造数值算例验证算法的可行性.本文主要内容总结如下:首先,本文数值研究了具有一般非线性项的Schr(?)dinger方程的Dirichlet初边值问题.先是构造了一个新的Sine拟谱算法,然后运用能量分析方法、数学
非线性算子不动点理论是非线性分析中重要的课题之一,是泛函分析理论的重要组成部分.它在(微分,积分)方程求解、优化算法分析、变分理论等方面有着广泛的应用.本文主要研究了一些压缩型算子不动点的存在性、迭代算法及在积分方程中的应用.全文一共分为四章:第一章主要介绍了不动点理论的发展背景与现状,简要叙述了本文的主要工作,并给出了本文所需的一些基本定义和结论.第二章在广义凸度量空间中,研究了一类广义的压缩型
不确定性量化问题在灾害评估、气候变化等方面研究中的重要性越发受到重视。要减少模型输入的不确定性,可通过资料同化方法来达到。资料同化就是通过一定的方法将数值预报模式(偏微分方程数值离散格式)和观测数据相结合对定解问题的输入进行优化,以达到对观测最佳拟合(或预报)的目的。当前,尽管使用降阶模型来替代全阶模型在一个低维空间实施资料同化对于减少计算成本发挥了重要作用,但要在此基础上同时探索原空间最优观测位
矩阵函数优化问题是计算数学中的重要课题之一,在工程计算和数据科学中起着至关重要的作用.在控制理论、金融分析、模型降阶、电子结构计算、数据挖掘等领域有着广泛的应用.本文分别研究了带约束条件的矩阵行列式函数极大值问题和矩阵迹函数极大值问题,得到的结果可用于分析不同维数的Grassmann矩阵对所构成的数据.主要研究内容如下:针对一类带约束条件的矩阵行列式函数极大值问题,首先通过对矩阵函数中的矩阵进行奇
伴随着科学技术的高速发展以及数据搜集能力的不断提升,超高维数据日益频繁地出现在大众的视野中。由于数据量过于庞大,对超高维数据进行分析是一个难题。然而,在医学、基因学、社会学等领域经常会出现超高维缺失数据,与完整数据相比,对此类数据进行分析更为不易。因此对超高维缺失数据的研究十分有意义。本文在响应变量随机缺失的超高维数据背景下,展开了研究,具体研究内容如下:第一章系统地介绍了本文的研究背景和研究意义
整数序列的完备性是数论中一个重要的研究课题.对于非负整数序列A,定义P(A)为可表示成A中不同项之和的所有整数组成的集合.若P(A)能包含所有充分大的整数,则称序列A是完备的.对α∈R+及正整数序列S={s1,s2,…},令Sα=<[αs1],[αs2],…},其中[x]表示不超过实数x的最大整数.序列Sα可以看成是S的扰动序列.对于非负整数序列A,若每一个充分大的整数都可以表示成A中至多r个元素
在全球变暖的背景下,植被对气候变化的响应研究是当前重点关注的问题。一方面植被在全球尺度上呈现出广泛的变绿趋势,即植被绿度指数呈现年际增长的趋势。另一方面,干旱化以及极端事件又对植被生长产生着严重的抑制作用。因此,关注植被对气候变化的响应问题需要从对短期极端事件和长期气候趋势两个角度综合分析。中国西南地区地处湿润区,自然资源丰富,但同时该地区生态系统对气候波动与人类活动较为敏感。特别是该地区出现过严
环的扩张问题在代数学的研究中有着重要的地位.近年来,学者们将目光转向更为广泛也更一般的斜逆Laurent级数环上.主要研究方向有以下两种:一、对于某种环其斜逆Laurent级数环是否也是这种环;二、研究斜逆Laurent级数环本身的性质和结构.特别的,第二种方向也有可进行深入研究的两类特殊情形:(1)自同构σ=1或σ-导子δ=0,也就是常见的斜Laurent级数环和伪微分算子环;(2)特殊子环-斜