论文部分内容阅读
剩余寿命是指在个体已经活过某段时间的前提下,该个体还能继续存活多久,即其剩余寿命还有多长时间.剩余寿命问题在生物医学及金融领域中经常遇到.在医学临床试验中,剩余寿命通常是病人们最关心的量,尤其对于那些患慢性疾病或不可治愈疾病(如癌症)的病人,他们想知道某种治疗是否可以延长自己的寿命.另一方面,医生也需要知道这些疾病是如何发展的,所采取的治疗方案是否有效,以及应用新的治疗方法是否就能延长病人的寿命等问题.这就需要对病人的剩余寿命进行研究.剩余寿命刻画的是寿命的条件特性,近来对剩余寿命的研究工作,主要有两个方面,一个是剩余寿命均值,另外一个是剩余寿命分位数.尽管关于剩余寿命均值的理论研究已经有很多研究成果,但是剩余寿命均值有很多缺点.首先,当分布是厚尾分布时剩余寿命的均值并不是总是存在的.其次,若实际寿命的分布具有高度的偏性,一个具有较长寿命的个体会对剩余寿命的均值有较大的影响,即均值受异常点的影响比较大,而分位数对此却不是很敏感.而且剩余寿命直观易解释,应用广泛,所以剩余寿命的分位数模型得到了很大的关注.本文讨论了长度偏差右删失数据和一般偏差右删失数据下剩余寿命分位数的回归模型和半参数模型.首先针对长度偏差数据右删失数据和一般偏差右删失数据给出了剩余寿命分位数回归模型,并且考虑了删失变量与协变量独立和不独立的两种情况,进而我们把模型推广到更一般的情形,给出了长度偏差数据右删失数据和一般偏差右删失数据下剩余寿命分位数的半参数模型,半参数模型更加灵活,可以涵盖更多的模型,应用范围更广.本文的内容主要分为三大部分,第一部分即本文的第一章,介绍复杂数据的特点,剩余寿命及研究现状和本文的创新之处.第二部分内容为长度偏差右删失数据和一般偏差右删失数据下剩余寿命分位数回归模型,即本文的第二章和第三章,提出了相应的估计方法并给出估计方程和参数估计的渐近性质,以及通过数值模拟验证文中所提出方法在有限样本下的表现.第三部分内容为长度偏差右删失数据和一般偏差右删失数据下剩余寿命分位数的半参数模型,即本文的第四章,类似于第二部分内容提出了相应的模型和估计方法并给出参数估计的渐近性质,以及定理的相关证明.在统计分析中,研究的首要步骤就是收集、整理和分析数据.简单数据即通常意义下的独立同分布样本,它是统计学中应用最广泛,最基本的数据类型.但是现实中所收集到的数据往往比这复杂的多.由于现实条件的限制,使得观测到的数据信息不全,或者观测数据不再是独立同分布的样本,这时我们得到的数据是“复杂数据”,如删失数据、截断数据、有偏数据等.复杂的数据结构会影响到统计模型的建立,因此就需要对复杂的数据结构进行深入分析,根据不同的数据特征建立合适的统计模型,并给出相应的统计推断方法.因此本文第一章主要介绍复杂数据的特点,剩余寿命及研究现状和本文的创新之处.当个体被抽的概率取决于它本身的取值,即每个个体被抽样的概率不同时,所得到的数据为偏差数据.当收集到的数据是偏差数据时,原先关于简单数据的统计推断方法已经不再适用,我们必须寻找针对偏差数据的方法.长度偏差数据为一类特殊的偏差数据,也属于一类特殊的左截断数据.左截断数据是指只有满足一定条件的个体才能进入试验样本的一类数据.当事件的发生过程是一个平稳的泊松过程时,截断变量所服从的分布为均匀分布.当生存时间是左截断的并且截断变量服从均匀分布时,所观测到的生存时间为长度偏差数据.长度偏差抽样下观测的样本是长度较长或者生存时间较长的样本,会过度代表了目标总体.如果忽略长度偏差,将会使得估计产生偏差.在生存分析中,当实验或者研究结束时,某些被观察的个体没有出现所关心的事件,因而不能具体地观察到事件发生的准确时间,这个持续时间通常称为个体的生存时间.由于不能观察到准确的生存时间,而被通常称为删失时间的量所删失.删失数据对事件的研究提供的一定的信息,简单的把删失数据去掉或者将删失数据做为完整数据来处理,会造成偏差.在实际问题中,抽样数据常存在偏差且被右删失,因此右删失机制进一步增加了偏差数据的复杂度.剩余寿命直观易解释,应用广泛.关于剩余寿命的研究工作主要有剩余寿命均值和剩余寿命分位数.分位数回归模型是对剩余寿命的条件分位数直接进行建模,得到的结果更加容易解释.相比于剩余寿命均值和中位数,分位数回归更加灵活和稳健,能全面刻画生存分布的特征,而且允许协变量变化时,生存分布具有不同的尾部,而且更容易抓住样本的非齐次性.在本文的第二章,我们针对长度偏差右删失数据下剩余寿命分位数提出了对数形式的线性回归模型,充分考虑有偏抽样机制对模型的影响,忽略这种有偏性会导致估计产生严重偏差,甚至错误的结果.由于在实际问题中删失变量往往与协变量不是独立的,我们对于删失变量与协变量独立和不独立的两种情况给出了模型参数的估计方程.对于删失变量与协变量不独立的情况,我们引入Cox模型来刻画删失变量与协变量的相关性.在给定的条件下我们给出了参数估计的相合性和渐近正态性,并且我们用Parzen,Wei和Ying(1994)提出的bootstrap方法给出了渐近方差的估计.另外,本章对提出的估计方法进行了数值模拟,并用该方法对奥斯卡数据进行分析.在本文的第三章,我们将第二章的方法推广到一般偏差右删失数据的情况,讨论一般偏差右删失下剩余寿命分位数回归问题.首先,我们给出了该条件下的剩余寿命分位数对数形式的回归模型.之前的很多研究成果要求删失变量与协变量独立,而本章对删失变量与协变量独立和不独立的两种情况都进行了研究,利用一般估计方程的方法给出了两种情况下模型参数的估计方程.由于估计方程不是参数的光滑函数,在求解参数时存在一定的困难,在本章中我们把求解估计方程解的问题转化为求1型凸函数求最小值问题,而不是直接解估计方程.其次,在满足某些条件下给出了估计的渐近性质并给出了渐近方差的估计.为了估计参数的渐近方差,我们需要估计失效时间的无偏密度函数,一般采用非参数估计,使得渐近方差的估计过于繁琐.因此我们与第二章同样的bootstrap方法给出了渐近方差的估计.另外,我们给出不同偏差函数下的模拟结果来验证所提出的方法在有限样本下的表现.最后,我们给出了相关引理和定理的证明.在本文的第四章,我们首先在长度偏差右删失数据下将第二章的剩余寿命分位数回归模型推广到一个半参数模型.其次,类似的我们将第三章提出的一般偏差右删失下剩余寿命分位数回归模型也推广到一个半参数模型.半参数模型介于参数回归模型与非参回归模型之间的,半参数回归模型克服了诸多局限,可以灵活地处理许多未知分布与不服从参数分布类型的数据.本章同样给出了删失变量与协变量独立和不独立两种情况下的估计方程.由于估计方程不是参数的光滑函数,且含有非参数部分8)0(),在求解参数时存在一定的困难,我们分两步解决参数估计的问题.第一步,通过构造估计方程,对于给定的参数我们推导出8)0()的逐点估计;第二步,由于协变量的效应不随时间变化,根据这个特征我们构造另外一个估计方程给出参数的合理估计.在分位数问题分析中,通常会遇到两个问题.第一,由于估计方程不是参数的光滑函数,在求解时存在一定的困难,因此本章采用Hunter和Lange(2000)提出的MM算法来获得参数的估计.第二,剩余寿命分位数的渐近方差估计问题中需要先估计无偏总体的密度函数,一般采用非参数kernel核估计,这给方差估计工作带来很大的麻烦,因此用同前两章一样的重抽样的方法改进了渐近方差的估计,避免了更繁琐的计算过程.在本章中我们给出两种情况下参数估计的相合性和渐近正态性,给出了模拟结果以及相关引理和定理的证明.在第五章,我们对整篇论文的研究工作进行了一些总结,同时对未来的工作进一步的展望.