论文部分内容阅读
纵向数据是一类重要的复杂数据类型,它在临床医学、流行病和社会学等领域有着广泛应用。长期以来,对纵向数据的统计分析是统计学的一个重要研究领域之一。在本世纪前,几乎所有有关纵向数据的研究都集中在参数回归模型的情形。虽然参数回归模型简单易行且容易解释,但由于实际问题的复杂性,参数回归模型缺少灵活性的特点容易导致较大的建模偏差。由于结合了非参数回归及参数回归的优点(既克服了纯粹参数回归方法要预先设定响应与解释变量关系的缺点,同时又克服了纯粹非参数回归方法的“维数祸根”、不易外推和解释等缺点),近年来纵向数据非/半参数回归模型(包括半参数回归模型和结构非参数回归模型)受到了统计学家和实际应用者的重视。而被广泛使用的半参数回归模型包括可加非参数回归模型、变系数回归模型以及单指标回归模型等。 在大多数传统的纵向数据非/半参数模型中,时间效应是通过解释变量间接来影响响应变量的。Jiang和Wang[40,41]和Zhang,Park和Wang[99]提出了一种新的纵向数据动态建模方法。在这些回归模型中,他们允许解释变量对响应的影响是非线性、未知的,同时允许这种影响随着观测时间的变化而变化,即解释变量和观测时间的一个两元未知函数。由此大大增加了建模的灵活性,在某种程度上避免了系统的建模偏差,而且传统的纵向数据非/半参数模型都变成了它们的特例。 Jiang和Wang[40,41]和Zhang,Park和Wang[99]在他们的文献中提出了感兴趣估计量的估计方法,但都或多或少存在不足,例如,他们都没有考虑纵向数据个体内部之间的相关性。Zhang,Park和Wang[99]提出了一种新的后移算法(Backfitting algorithm)来解决他们提出的新的动态可加模型的计算问题,同时他们也没有解决是否每个解释变量对响应的影响都是随时间变化的,而且他们的估计方法都建立在最小二乘的基础之上。众所周知的是,考虑纵向数据个体内部的相关性可以提高估计量的有效性和统计推断的精确性,后移算法(Backfitting algorithm)计算量大而且不能保证计算结果的收敛性,同时最小二乘方法虽然简单但不够稳健。针对他们研究中存在的不足,本博士论文的研究内容和结构安排如下: 第一章主要介绍后面章节要用到的一些基本概念和工具,包括纵向数据的定义及特征、非参数建模方法(局部多项式和回归B样条)、变量选择和稳健估计。同时还介绍了国内外纵向数据非/半参数模型的研究现状和本博士论文的结构安排。 第二章主要考虑了纵向或函数数据的非参数回归问题。对于这类非参数问题,一个重要的可选的建模方法是,时间和随时间变化的一个协变量组成的二元函数来共同影响响应变量。对于这类重要的模型本章有两个贡献。第一是从理论和实际两个方面证明了用回归的方法来对协方差进行建模能够有效提高二元均值函数的估计效率。具体而言,使用了修正的Cholesky分解和与协变量相关的自回归系数方法来考虑个体内部的相关性。第二,从理论上提出了一种新的惩罚方法来识别协变量对响应变量的影响是否是随时间变化的。本章还通过模拟实验来评价所提出方法的有限样本性质,并通过实际数据分析来展示所提出的方法的效果。 第三章研究了纵向数据一种新的单指标模型的有效估计问题,这种新模型可以反映协变量的线性组合随时间变化而对响应变量的影响。这一章提出了一种由可行的偏差修正的广义估计方程得到的有效估计量。为了达到这个目的,首先将纵向数据当作独立样本来得到初始估计,接着用非参数光滑方法来对协方差进行估计。然后用得到的协方差估计并结合广义估计方程方法得到参数指标的有效估计。当在合适选择的参数指标的初始估计量满足一定条件下,本章证明了最后得到的参数指标的√n相合性和渐近正态性,同时证明了两阶段估计量比初始估计更加有效。另外也考虑了非参数函数的有效估计问题并建立了它们的最优收敛速度。本章还通过模拟实验来说明估计量的有限样本性质,最后给出了一个实际数据分析的例子。 第四章主要研究的是可加模型。可加模型是一类受欢迎的可以解决“维数祸根”的降维模型。Wang和Yang[83]提出了一种时间序列数据非线性可加模型成员函数的样条-后移核估计量,他们的方法计算简单而且理论可靠。最近,Zhang,Park和Wang[99]提出了一种成员函数是解释变量和时间的二元函数的新的纵向数据可加模型和后移算法。他们认为这类动态可加模型更符合纵向数据的实际分析情况。受这些文章的启发,本章研究了纵向数据动态可加模型的两步估计方法,并证明了得到的估计量具有Oracle性质,即估计成员函数时可以认为其它成员函数是已知的。更进一步,在这一章提出了一种惩罚方法来检验是否每个成员函数都是随时间变化的。模拟研究表明,在有限样本下,所提出的方法效果是不错的,表明结果是与渐近理论相符的。同时本章还提供了一个实际数据的例子来说明这种方法的有用性。 第五章中,众所周知,M估计是被广泛使用的稳健统计推断方法和变系数模型在许多研究领域被广泛使用。这一章研究了纵向数据二元变系数模型的M估计和模型识别问题。具体而言,首先用二元乘积B样条来近似系数函数并通过最小化凸目标函数来考虑M形式的回归样条估计。均值和中位数回归都属于这类M估计。另外,通过使用两个SCAD惩罚函数,研究了同时进行模型结构识别和函数估计问题。在合适的条件下,证明了所提出的方法具有Oracle性质,即得到的估计量和在分析之前就已经知道模型的结构所得到的估计量一样有效。模拟实验研究表明这章的方法在有限样本下是不错的。同时本章还分析了一个实际数据问题。 在第六章,对本博士论文所提出的方法就行了总结并考虑了一些潜在的研究方向和这些方法待改进的地方。