论文部分内容阅读
在科学实验、工农业生产以及社会调研等领域中,对兴趣变量进行测量时,往往会受到多种因素的影响,导致一些偏差,如抽样误差、仪器误差、记录误差等等;另外,人们考察变量之间的关系时,往往只关心主要因素对兴趣变量的影响,其它影响不大的因素的效应将反映于兴趣变量取值的偏差中.文献中这种观测数据带有误差的问题通常称为“测量误差问题”,分析这些数据的统计模型通常称为“测量误差模型”或“EV(errors-in-variables)模型”.在实践中,利用各种EV模型(包括线性EV模型、非线性EV模型、半参数EV模型等)解决实际问题时,常常会遇到各种各样的复杂数据,例如删失数据、纵向数据、缺失数据以及时间序列数据等等.因此,研究各种复杂数据下的EV模型富有现实意义,此类问题目前已经成为统计学界研究的热点课题之一.
本论文研究的模型主要包括:线性EV模型、半参数EV模型、非线性半参数EV模型以及单指标EV模型等统计模型.研究的主要目的是:基于各种复杂数据(如纵向数据、删失数据、缺失数据等等)研究此类模型中兴趣参数及兴趣函数估计的大样本问题,如估计量的渐近正态性、相合性及其收敛速度等统计性质.
首先,在生存数据分析中,数据删失的现象是非常普遍的,因此考虑响应变量随机删失情形下的半参数EV模型较单纯的半参数EV模型而言更富有现实意义.由于数据随机删失,通常的处理EV模型的方法不能直接使用.通过对数据的适当转化,构造了未知参数的两种经验对数似然比统计量,即估计的经验对数似然比统计量和调整的经验对数似然比统计量.证明了所构造的统计量的分布渐近于χ2分布,所得结果可以用来构造未知参数的置信域.模拟研究说明所提出的经验似然比统计量在有限样本情形下具有良好的表现.
其次,考虑了纵向数据下半参数EV模型的估计问题.针对协变量两种不同的设计情形,即固定设计和随机设计,分别讨论了半参数EV模型中未知参数和未知函数的估计问题.对于固定设计下半参数EV模型,基于一般非参数权函数估计方法和广义的最小二乘法给出了未知参数、误差方差以及未知函数的估计.在一般的条件下,证明了未知参数和误差方差估计的渐近正态性,同时也给出了未知函数估计的收敛速度.其结果是独立数据情形下相应结果的推广.对于随机设计下半参数EV模型,应用核估计和修正的加权最小二乘法给出了未知参数和未知函数的估计.在一般的条件下,证明了估计量的渐近正态性.另外,模拟结果表明本文的估计方法在有限样本情形下具有良好的表现,说明估计方法是可行的。
再次,虽然EV模型在工农业生产等众多领域中有了广泛的应用,然而当该模型用于缺失数据的分析时却遇到了困难.因为对于缺失数据,通常的回归方法不能直接使用.本论文考虑了响应变量缺失而协变量带有测量误差的两类EV模型(即线性可加EV模型,非线性半参数一般EV模型)的估计问题.对于线性EV模型,通过引进调整因子,给出了调整的经验似然比统计量,证明了所构造的统计量的分布渐近于标准χ2分布,从而解决了由于数据缺失而带来的估计困难.对于非线性半参数一般EV模型,由于在实际问题中,核实数据往往很难得到,或者耗费较大.因而要获得大量核实数据往往不太现实.对此提出了一种新的修正的核估计方法,较好地解决由于高维核估计而带来的“维数灾祸”问题.通过利用核实数据,分别构造了未知参数和非参数函数的两种估计量.证明了未知参数估计的渐近正态性,并给出了非参数函数估计的最优收敛速度.
最后,讨论了解释变量带有测量误差的单指标EV模型.单指标模型的提出就在于解决维数灾祸问题.然而当协变量带有测量误差,尤其是当替代变量和解释变量的关系不能确定时,单指标模型的估计实际上就成了一般非参数估计的问题了.这样一来就存在维数灾祸问题.如何有效地估计单指标EV模型是本论文讨论的核心问题之一.虽然利用高维核估计可以给出未知函数的估计,然而在非参数回归估计中,这一推断需要较大的核实数据才能达到合适的精度.为此,本文提出了一种降维方法.通过利用核实数据,构造了未知参数的两种经验对数似然比统计量.证明了所构造的经验似然比统计量的分布渐近于χ2分布,所得结果可以用来构造未知参数的置信域.由于估计过程采用降维技术,因而所得结果可以用于生物工程,网络工程等领域的高维数据的处理之中.