【摘 要】
:
随着互联网数据库的不断扩展,实际问题中收集到的数据很多都是高维数据。为了处理高维数据分析的问题,许多参数和半参数模型被提出用来避免“维数祸根”的问题。在众多的参数
论文部分内容阅读
随着互联网数据库的不断扩展,实际问题中收集到的数据很多都是高维数据。为了处理高维数据分析的问题,许多参数和半参数模型被提出用来避免“维数祸根”的问题。在众多的参数和半参数模型中,变系数部分线性模型由于模型本身既包含了常系数,又包含了函数型系数,从而受到广泛的关注。一般常用的估计模型方法有最小二乘法(LSE),最小方差法(MAVE)等,但这些方法得到的估计结果可能不是有效估计,这就要求我们发展更适合的估计方法。另一方面,由于数据的不断积累,数据中的协变量的数目经常呈多项式速率增长,有时甚至呈指数速率增长。在高维数据下如何更好地对参数或半参数模型进行估计和统计推断,就更加重要。因此,当我们研究变系数部分线性模型在高维和超高维情况下的统计问题时,就要求我们发展更合适的处理方法。本文系统地研究了变系数部分线性模型的估计、变量选择以及在超高维数据中的降维问题。研究结果表明通过建立有效估计方程可以得到有效估计;使用group lasso方法进行变量选择可以识别出常系数变量和函数型变量;通过排序KL距离来进行特征筛选,可以降低超高维数据的维数。本文研究了变系数部分线性模型在不同维数情况下的一些统计问题。主要内容如下:(1)研究了带异方差的变系数部分线性模型的估计有效性问题,给出完全样本下感兴趣参数的有效得分向量函数和有效估计。提出有效估计方程并给出带异方差的变系数部分线性模型的半参数有效界,证明所得估计为有效估计,并证明其大样本性质,通过数值模拟研究其有限样本性质。(2)研究了在高维数据下,变系数部分线性模型的变量选择问题。提出两阶段变量选择方法,分别对模型的线性部分和变系数部分做变量选择,得到参数的Adaptive Lasso估计,证明了估计的渐近性质与相合性,并利用数值模拟研究估计的有限样本性质。(3)研究了超高维数据情况下的变系数模型变量筛选问题,提出基于KL距离的变量筛选方法,通过条件累计分布函数构造协变量与响应变量之间的边际KL距离统计量,进行排序来筛选变量,并利用数值模拟验证了所提出方法的有限样本性质。
其他文献
管道在石油化工等生产运输中,占有极其重要的地位,一旦发生事故,就会危及正常生产,甚至引起火灾、中毒、爆炸等恶性事故。管道破坏的原因很多,不管是腐蚀破坏、疲劳破坏,还是脆性破
随机耦合技术在研究随机Loewner演变(SLEκ)的可逆性方面是一个强有力的工具.本文的主要工作:第一,讨论带形区域Sπ上SLEκ(κ∈(0,4])的随机耦合.应用Feynman-Kac表示式证明
本文主要讨论广义Hopf映射在构造可积Hamilton系统中的应用.由Lie群SU(2)到SO(3)的同态导出了Hopf映射以及两种推广的Hopf映射,并用它们在Lie-Poisson结构下讨论了C2N上三种P
本文研究了如下耗散Boussinesq方程的Cauchy问题在小初值情形下方程解的整体存在唯一性和衰减性.其中u0, u1是已知的初值函数,f(u)是非线性项,β>0,η> 0.首先,利用Fourier变
位于西北太平洋上空的副热带高压(简称西太副高)是东亚夏季风系统的重要成员之一,其南北位置的变动具有缓慢与跳跃两种特征,且是一种全球现象。西太副高脊线两次北跳时间的早
近年来在全球气候变化的背景下,高温热浪等极端天气气候事件增多,对民众的健康、工农业生产和交通运输等国民经济各行业产生了重要影响。本文利用1961~2008年CN05格点气温逐日
对流是灾害性天气发生的先兆。因此,对流启动的监测是气象部门临近预报非常关注的内容。近年来,随着卫星遥感技术的发展,卫星的时间分辨率和空间分辨率都有了较大的提高,目前
本文利用兰州大学半干旱气候与环境观测站(SACOL站)2006-2012年陆面过程观测资料和榆中站气象资料,分析了7年间榆中气温降水的气候变化背景,讨论了陆面地表能量平衡分量的年
党的十八大以来,以习近平同志为核心的党中央高度重视社会心理服务体系建设。党的十九大报告提出,“加强社会心理服务体系建设,培育自尊自信、理性平和、积极向上的社会心态”。党的十九届五中全会提出,“健全社会心理服务体系和危机干预机制”。部队心理服务体系建设是社会心理服务体系建设的重要一环,事关练兵备战,更要建好建强。
翻译控制肿瘤蛋白(Translationally controlled tumor protein,TCTP)在真核生物体内广泛分布并在众多细胞过程中发挥着重要作用,通过对其参与的不同细胞信号通路的研究,TCTP