存在异常点时的变量选择及统计诊断

来源 :东南大学 | 被引量 : 0次 | 上传用户:testjmalt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文基于贝叶斯方法对存在异常点时的变量选择及变量选择的影响分析进行研究.   在存在异常点时的变量选择这个问题中,异常点的个数和被选自变量的个数都是未知的.在本文中,我们运用贝叶斯方法同时考虑异常点的诊断和自变量选择的问题.在以前的贝叶斯统计诊断文献中,一般假定正常点和异常点来自同一个分布族,只是参数值有所不同而已,这种做法要求我们对于异常点的产生机制预先有充分的了解.这在实际中并不总是可能的,因为异常点的来源一般是不清楚的.本文采用最保守的做法,假定异常点来自整个空间上的均匀分布,这相当于假定没有任何关于异常点的先验信息,对于每—个数据点,我们都给它设置了一个指示变量用以指示该数据点是否为异常点.通过更新指示变量来确定异常点,对于自变量选择,我们采用随机搜索法,即设置被选自变量的个数和被选自变量的下标(它们结合在一起决定了被选的自变量)为随机变量,通过更新这两个随机变量来进行自变量的选择,本文首先运用贝叶斯方法计算出了各参数的后验分布;其次依据各参数后验分布,本文给出了相应的算法:通过生死Markov链Monte Carlo方法和Gibbs抽样策略对维数变化的未知参数进行更新,通过有限次迭代可以估计出未知参数的值,即选择出自变量和异常点.   对于变量选择的影响分析,本文首先运用随机搜索法对原模型和数据删除模型分别进行自变量选择.通过比较被选自变量是否相同来确定所删除的数据点是否为强影响点;其次对方差扩大模型中变量选择的后验概率进行局部影响分析,通过计算每个数据点影响曲率的大小来确定那个点为强影响点.最后,通过随机模拟和对实际数据的分析来说明本文方法的有效性.
其他文献
随着科学技术的进步和生产力的不断发展,实际生活对材料方面提出了较高的要求,纳米复合材料正是符合社会进步的条件下应运而生。在纳米尺度下,由于材料的比表面积显著增加,表
本文主要研究了具有参数核的积分算子Tδ与局部可积函数所生成的多线性交换子T(b)δ的有界性问题。该积分算子包括Littlewood—Paley算子,Marcinkiewicz算子和Bochner—Riesz
反应扩散方程来自于生物、生态、生物化学、热传导等许多科学与工程领域.其对应的物理变量一般表示物质浓度或种群的密度等,它们都是非负量.由于方程是非线性的,因此通常无法求
Petri网是建模和分析的工具,它的主要特性包括:并行、不确定性、异步和分步描述和分析能力。它既有直观的图形表示,又有深刻的数学内涵和基础。Petri网可以精确的描述系统中
本文首先利用新定义的代数体函数的加法,研究了代数体函数的唯一性问题.然后运用待定系数的方法讨论了一类复微分方程亚纯解的存在性。全文分三部分。   第一部分利用孙道