论文部分内容阅读
变量选择在统计研究特别是高维数据研究中占有极其重要的地位.实际问题中对模型影响程度较大的预测变量往往是比较少的,而研究者通常会在预测模型时给出许多可能的预测变量以尽量提高预测的准确程度,那么如何将这些重要的变量选择出来,以得到精确的预测模型是我们非常关心的问题,这就是变量选择的过程.加入惩罚函数的观点在变量选择的研究中是相当有用和有效的,这种方法能够将模型中显著变量的系数进行很小的压缩或者不压缩的保留于原模型中,而对于较小的系数会将其压缩为零,这样便实现了同时对模型变量的选择和对模型参数的估计的效果,进而显著提高了计算的效率.大部分问题在构造模型时还有可能存在另一种情况,即所提出的解释变量之间多数是具有很高的相关性的,特别是在具有很多变量参与即高维的情形下.这里我们更为关注对共线性问题的探讨.本文给出了我们关于高维数据中相关度过高(即共线性)的数据下的参数估计和变量选择问题的研究所取得的一些成果.本文的内容结构如下:文章第二部分讨论了组合惩罚下联合均值与方差模型的变量选择问题.该模型的提出是由于在回归模型中,对均值参数估计的有效性依赖于对方差参数的估计,因此对方差的讨论能更好地解释数据变化的原因和规律.这里我们对所提出的估计的相合性和渐近正态性做出了论证.同时将该模型与组合惩罚相结合,用于处理相关度较高的数据的变量选择.文章第三部分给出了参数发散的情况下广义线性模型的变量选择和参数估计的问题.在给出的组合惩罚之下得到了这种估计的渐近结果.提出的相应算法得到的模拟和实际数据分析结果说明了该组合惩罚对于处理相关性较高的模型具有重要的意义.文章第四部分讨论了超高维情况下广义线性模型的变量选择.应用SCAD-Ridge组合的惩罚,在一定的假设条件之下,证明了该模型的估计所具有的理论性质.当调整参数满足适当的条件时,该方法能够一致地选出真实模型,模拟结果也表明了这一方法是很有实际应用价值的.文章第五部分提出了一种新的很有实际意义的模型-混合总体广义线性模型.这一模型可以用来讨论混合总体中个体的特征情况,我们利用M-估计的方法对这个模型的参数进行了估计,同时证明了该估计具有相合性和渐近正态性.为了验证这一估计的优良程度我们给出了相应的模拟结果.