论文部分内容阅读
这篇论文致力于对充分降维领域中一些理论的深入研究以及方法上的延伸。在充分降维领域中有两个重要的话题。第一个是估计中心(均值)降维空间的基方向。而经典降维方法基方向样本估计的大样本性质至今仍不明了。为了进一步了解这些常用降维方法特别是其方向估计的理论性质,在这篇论文中我们首先研究了这些方法的核矩阵以及基方向样本估计的二阶渐近性质。我们推导了四种常见的降维方法,包括切片逆回归(Sliced Inverse Regression, SIR, Li,1991),切片平均方差估计(Sliced Average Variance Estimation, Cook and Weisberg,1991),海赛主方向(Principal Hessian Direction, Li,1992)和方向回归(Directional Regression, Li and Wang,2007),它们样本估计的二阶渐近展开式。利用这些降维方法的二阶渐近展式,我们可以进一步考虑纠正其O(n-1)偏差以提高估计的精度。从已经得到的二阶渐近展式中,我们可以求出降维方法方向估计二阶偏差的显示表达式,继而可以很容易得到二阶偏差的相合样本估计。我们随后提出一种一般的降维方法的偏差纠正策略,其思想很简单:即是将某一种降维方法基方向的样本估计减去其二阶偏差的样本估计。并且我们证明了经过偏差纠正后,这些降维方法方向估计的偏差被缩小到O(n-2)。充分降维领域中的另一个重要的问题是决定中心(均值)降维子空间的结构维数。常用的选取结构维数的方法都有其局限性。序贯检验法依赖于检验的显著性水平。重抽样方法的运算量过大。Zhu, Miao and Peng (2006)提出的BIC准则虽然可以相合的估计结构维数,但如何基于数据选取最优的惩罚函数是一个难题。更重要的是,一般充分降维的过程分为两步,首先是决定维数,然后再选取相应的基方向。论文的第二部分基于对降维方法核矩阵样本特征值的压缩估计提出一种稀疏谱分解方法用以决定结构维数。该方法的主要思路是通过建立矩阵谱分解与最小二乘之间的联系,然后利用Zou(2006)所提出的自适应性最小绝对缩减和变量选择算子得到样本特征值的稀疏估计。和以往降维方法的两步估计不同,稀疏谱分解方法可以同时估计结构维数和中心(均值)降维子空间的基方向。同时我们还证明了稀疏谱分解方法具有Oracle性质。本文的第三部分是将非参数方法B样条用以估计降维方法SIR和SAVE的核矩阵。和已有的切片方法以及核估计方法相比,B样条方法估计精度更高并且也同样计算简单。另外我们修正了Zhu, Miao and Peng (2006)所提出的BIC准则。修正的目的是为了平衡BIC准则中的主项与惩罚项,使得其数量级大致相仿。这种修正的BIC准则在估计结构维数方面的精度较之传统方法也有所提高。对于半参数模型的降维一般有两个出发点:一是找出模型中可能存在的变量的线性组合,二是选择模型中的重要变量。其中第一点就是充分降维的概念。而第二点是当前统计学界非常热门的话题:变量选择。本文的第四部分提出一种同时进行充分降维和变量选择的新方法。受到Candes and Tao(2007)一文的启发,我们借鉴DantzigSelector对SIR方法进行了e1规范化。这种新方法的本质是在从SIR的谱分解形式中求解基方向与极小化基方向e1模长之间的一种折中方案。我们所提出的这种新的充分降维与变量选择相结合的方法,在样本量n小于变量维数p的情形下仍然行之有效。当变量维数p固定时,我们得到了这种新方法的相合性和渐近正态性。当变量维数p和n以一定形式趋向于无穷时(需要指出的是p>n的情形只是这种形式的特殊情形),我们得到了这种方法估计的误差上界。最后我们基于方向回归提出一种不基于模型假设的变量显著性检验。我们推导了在原假设下所提出的统计量的渐近分布。另外基于统计量的渐近性质,我们提出了两种非常简单的不基于模型假设的变量选择方法。这两种新方法不同于当前流行的变量选择方法比如最小绝对缩减和变量选择算子(Least Absolute Shrinkage and Selection Operator, LASSO, Tibshirani,1996)的地方在于:不依赖模型假设而且也不是惩罚似然的思路。并且我们证明了在一定条件下这两种新的变量选择方法可以几乎以趋向于1的概率选对重要变量。通过大量的模拟实验我们比较了本文中提出的各方法和一些已有的方法,进而验证了这些新方法的有效性。另外我们还将这些方法用于分析各种实际数据,比如棒球击打手的年薪数据,贝类生物horse mussel数据,淋巴癌数据以及波士顿房价数据,说明了这些方法的应用价值所在。