充分降维理论和方法的拓展研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:xiaogouku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这篇论文致力于对充分降维领域中一些理论的深入研究以及方法上的延伸。在充分降维领域中有两个重要的话题。第一个是估计中心(均值)降维空间的基方向。而经典降维方法基方向样本估计的大样本性质至今仍不明了。为了进一步了解这些常用降维方法特别是其方向估计的理论性质,在这篇论文中我们首先研究了这些方法的核矩阵以及基方向样本估计的二阶渐近性质。我们推导了四种常见的降维方法,包括切片逆回归(Sliced Inverse Regression, SIR, Li,1991),切片平均方差估计(Sliced Average Variance Estimation, Cook and Weisberg,1991),海赛主方向(Principal Hessian Direction, Li,1992)和方向回归(Directional Regression, Li and Wang,2007),它们样本估计的二阶渐近展开式。利用这些降维方法的二阶渐近展式,我们可以进一步考虑纠正其O(n-1)偏差以提高估计的精度。从已经得到的二阶渐近展式中,我们可以求出降维方法方向估计二阶偏差的显示表达式,继而可以很容易得到二阶偏差的相合样本估计。我们随后提出一种一般的降维方法的偏差纠正策略,其思想很简单:即是将某一种降维方法基方向的样本估计减去其二阶偏差的样本估计。并且我们证明了经过偏差纠正后,这些降维方法方向估计的偏差被缩小到O(n-2)。充分降维领域中的另一个重要的问题是决定中心(均值)降维子空间的结构维数。常用的选取结构维数的方法都有其局限性。序贯检验法依赖于检验的显著性水平。重抽样方法的运算量过大。Zhu, Miao and Peng (2006)提出的BIC准则虽然可以相合的估计结构维数,但如何基于数据选取最优的惩罚函数是一个难题。更重要的是,一般充分降维的过程分为两步,首先是决定维数,然后再选取相应的基方向。论文的第二部分基于对降维方法核矩阵样本特征值的压缩估计提出一种稀疏谱分解方法用以决定结构维数。该方法的主要思路是通过建立矩阵谱分解与最小二乘之间的联系,然后利用Zou(2006)所提出的自适应性最小绝对缩减和变量选择算子得到样本特征值的稀疏估计。和以往降维方法的两步估计不同,稀疏谱分解方法可以同时估计结构维数和中心(均值)降维子空间的基方向。同时我们还证明了稀疏谱分解方法具有Oracle性质。本文的第三部分是将非参数方法B样条用以估计降维方法SIR和SAVE的核矩阵。和已有的切片方法以及核估计方法相比,B样条方法估计精度更高并且也同样计算简单。另外我们修正了Zhu, Miao and Peng (2006)所提出的BIC准则。修正的目的是为了平衡BIC准则中的主项与惩罚项,使得其数量级大致相仿。这种修正的BIC准则在估计结构维数方面的精度较之传统方法也有所提高。对于半参数模型的降维一般有两个出发点:一是找出模型中可能存在的变量的线性组合,二是选择模型中的重要变量。其中第一点就是充分降维的概念。而第二点是当前统计学界非常热门的话题:变量选择。本文的第四部分提出一种同时进行充分降维和变量选择的新方法。受到Candes and Tao(2007)一文的启发,我们借鉴DantzigSelector对SIR方法进行了e1规范化。这种新方法的本质是在从SIR的谱分解形式中求解基方向与极小化基方向e1模长之间的一种折中方案。我们所提出的这种新的充分降维与变量选择相结合的方法,在样本量n小于变量维数p的情形下仍然行之有效。当变量维数p固定时,我们得到了这种新方法的相合性和渐近正态性。当变量维数p和n以一定形式趋向于无穷时(需要指出的是p>n的情形只是这种形式的特殊情形),我们得到了这种方法估计的误差上界。最后我们基于方向回归提出一种不基于模型假设的变量显著性检验。我们推导了在原假设下所提出的统计量的渐近分布。另外基于统计量的渐近性质,我们提出了两种非常简单的不基于模型假设的变量选择方法。这两种新方法不同于当前流行的变量选择方法比如最小绝对缩减和变量选择算子(Least Absolute Shrinkage and Selection Operator, LASSO, Tibshirani,1996)的地方在于:不依赖模型假设而且也不是惩罚似然的思路。并且我们证明了在一定条件下这两种新的变量选择方法可以几乎以趋向于1的概率选对重要变量。通过大量的模拟实验我们比较了本文中提出的各方法和一些已有的方法,进而验证了这些新方法的有效性。另外我们还将这些方法用于分析各种实际数据,比如棒球击打手的年薪数据,贝类生物horse mussel数据,淋巴癌数据以及波士顿房价数据,说明了这些方法的应用价值所在。
其他文献
针对化学教材中"铜与浓硫酸的反应实验"存在不可控和污染等问题,做了实验探究。用具支试管或干燥管作反应器;螺旋状的粗铜丝作反应物实现对反应过程的控制;干燥管作检验和吸
全生命期性能数字样机作为一项工程课题,它不仅关注一个机械系统,或是系统中关键零件的设计性能,而且还关注其性能在整个可用生命期内随使用时间的变化过程。这就要求,一个全
客车急转工况是一种由“驾驶员—车辆—道路”诸因素集成作用的特殊行驶状态,此时客车往往行驶速度较快、转向角较大或较急,容易发生侧滑、侧翻等失稳、失控状况,进而引发交
<正>日前,全球可持续发展进入了以绿色经济为主驱动力的新阶段。美国的"绿色新政",日本的"绿色发展战略"总体规划,德国的"绿色经济"研究等表明,经济的"绿色化"已经成为增长的
利用电力线进行数据通信由来已久。由于电力线分布广泛,电力线通信有着显著的成本优势。电力线信道是一种复杂的通信信道,它具有频率选择性衰落、带宽受限、存在脉冲噪声干扰
采用有机早强剂三乙醇胺和无机早强剂硫酸锂,进行了单掺和复掺早强剂的胶砂流动性和强度的试验研究。结果表明,硫酸锂和三乙醇胺复合早强剂可有效提高胶砂的早期强度,且对胶
卤虫,又名丰年虾,是一种古老的极端生物。它拥有两套截然不同的生殖方式,能够适应不同的生存环境。当条件适宜时,卤虫可以通过卵胎生途径直接产生游动的无节幼体;而当遭遇到极
丹参作为传统中药,其活性成分生物合成的分子机制尚不清楚。本研究首次将第二代和第三代高通量组合测序策略应用于植物全长转录组研究,从组学水平分析药用模式植物丹参的基因
单殖吸虫隶属于扁形动物门、单殖吸虫纲,历来是分类学和系统发育学研究的重要类群。迄今为止,不论是来自形态学还是分子生物学方面的证据,对于单殖吸虫的进化起源问题始终未
第一部分小于胎龄儿追赶生长特点及影响因素分析目的研究河北省廊坊地区小于胎龄儿(small for gestational age,SGA)出生后追赶生长的特点以及相关影响因素。方法以2012年1月