论文部分内容阅读
本文基于贝叶斯方法对存在异常点时的变量选择及变量选择的影响分析进行研究.
在存在异常点时的变量选择这个问题中,异常点的个数和被选自变量的个数都是未知的.在本文中,我们运用贝叶斯方法同时考虑异常点的诊断和自变量选择的问题.在以前的贝叶斯统计诊断文献中,一般假定正常点和异常点来自同一个分布族,只是参数值有所不同而已,这种做法要求我们对于异常点的产生机制预先有充分的了解.这在实际中并不总是可能的,因为异常点的来源一般是不清楚的.本文采用最保守的做法,假定异常点来自整个空间上的均匀分布,这相当于假定没有任何关于异常点的先验信息,对于每—个数据点,我们都给它设置了一个指示变量用以指示该数据点是否为异常点.通过更新指示变量来确定异常点,对于自变量选择,我们采用随机搜索法,即设置被选自变量的个数和被选自变量的下标(它们结合在一起决定了被选的自变量)为随机变量,通过更新这两个随机变量来进行自变量的选择,本文首先运用贝叶斯方法计算出了各参数的后验分布;其次依据各参数后验分布,本文给出了相应的算法:通过生死Markov链Monte Carlo方法和Gibbs抽样策略对维数变化的未知参数进行更新,通过有限次迭代可以估计出未知参数的值,即选择出自变量和异常点.
对于变量选择的影响分析,本文首先运用随机搜索法对原模型和数据删除模型分别进行自变量选择.通过比较被选自变量是否相同来确定所删除的数据点是否为强影响点;其次对方差扩大模型中变量选择的后验概率进行局部影响分析,通过计算每个数据点影响曲率的大小来确定那个点为强影响点.最后,通过随机模拟和对实际数据的分析来说明本文方法的有效性.