复杂数据下剩余寿命分位数的参数和半参数模型的统计推断

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:yaoye_1108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
剩余寿命是指在个体已经活过某段时间的前提下,该个体还能继续存活多久,即其剩余寿命还有多长时间.剩余寿命问题在生物医学及金融领域中经常遇到.在医学临床试验中,剩余寿命通常是病人们最关心的量,尤其对于那些患慢性疾病或不可治愈疾病(如癌症)的病人,他们想知道某种治疗是否可以延长自己的寿命.另一方面,医生也需要知道这些疾病是如何发展的,所采取的治疗方案是否有效,以及应用新的治疗方法是否就能延长病人的寿命等问题.这就需要对病人的剩余寿命进行研究.剩余寿命刻画的是寿命的条件特性,近来对剩余寿命的研究工作,主要有两个方面,一个是剩余寿命均值,另外一个是剩余寿命分位数.尽管关于剩余寿命均值的理论研究已经有很多研究成果,但是剩余寿命均值有很多缺点.首先,当分布是厚尾分布时剩余寿命的均值并不是总是存在的.其次,若实际寿命的分布具有高度的偏性,一个具有较长寿命的个体会对剩余寿命的均值有较大的影响,即均值受异常点的影响比较大,而分位数对此却不是很敏感.而且剩余寿命直观易解释,应用广泛,所以剩余寿命的分位数模型得到了很大的关注.本文讨论了长度偏差右删失数据和一般偏差右删失数据下剩余寿命分位数的回归模型和半参数模型.首先针对长度偏差数据右删失数据和一般偏差右删失数据给出了剩余寿命分位数回归模型,并且考虑了删失变量与协变量独立和不独立的两种情况,进而我们把模型推广到更一般的情形,给出了长度偏差数据右删失数据和一般偏差右删失数据下剩余寿命分位数的半参数模型,半参数模型更加灵活,可以涵盖更多的模型,应用范围更广.本文的内容主要分为三大部分,第一部分即本文的第一章,介绍复杂数据的特点,剩余寿命及研究现状和本文的创新之处.第二部分内容为长度偏差右删失数据和一般偏差右删失数据下剩余寿命分位数回归模型,即本文的第二章和第三章,提出了相应的估计方法并给出估计方程和参数估计的渐近性质,以及通过数值模拟验证文中所提出方法在有限样本下的表现.第三部分内容为长度偏差右删失数据和一般偏差右删失数据下剩余寿命分位数的半参数模型,即本文的第四章,类似于第二部分内容提出了相应的模型和估计方法并给出参数估计的渐近性质,以及定理的相关证明.在统计分析中,研究的首要步骤就是收集、整理和分析数据.简单数据即通常意义下的独立同分布样本,它是统计学中应用最广泛,最基本的数据类型.但是现实中所收集到的数据往往比这复杂的多.由于现实条件的限制,使得观测到的数据信息不全,或者观测数据不再是独立同分布的样本,这时我们得到的数据是“复杂数据”,如删失数据、截断数据、有偏数据等.复杂的数据结构会影响到统计模型的建立,因此就需要对复杂的数据结构进行深入分析,根据不同的数据特征建立合适的统计模型,并给出相应的统计推断方法.因此本文第一章主要介绍复杂数据的特点,剩余寿命及研究现状和本文的创新之处.当个体被抽的概率取决于它本身的取值,即每个个体被抽样的概率不同时,所得到的数据为偏差数据.当收集到的数据是偏差数据时,原先关于简单数据的统计推断方法已经不再适用,我们必须寻找针对偏差数据的方法.长度偏差数据为一类特殊的偏差数据,也属于一类特殊的左截断数据.左截断数据是指只有满足一定条件的个体才能进入试验样本的一类数据.当事件的发生过程是一个平稳的泊松过程时,截断变量所服从的分布为均匀分布.当生存时间是左截断的并且截断变量服从均匀分布时,所观测到的生存时间为长度偏差数据.长度偏差抽样下观测的样本是长度较长或者生存时间较长的样本,会过度代表了目标总体.如果忽略长度偏差,将会使得估计产生偏差.在生存分析中,当实验或者研究结束时,某些被观察的个体没有出现所关心的事件,因而不能具体地观察到事件发生的准确时间,这个持续时间通常称为个体的生存时间.由于不能观察到准确的生存时间,而被通常称为删失时间的量所删失.删失数据对事件的研究提供的一定的信息,简单的把删失数据去掉或者将删失数据做为完整数据来处理,会造成偏差.在实际问题中,抽样数据常存在偏差且被右删失,因此右删失机制进一步增加了偏差数据的复杂度.剩余寿命直观易解释,应用广泛.关于剩余寿命的研究工作主要有剩余寿命均值和剩余寿命分位数.分位数回归模型是对剩余寿命的条件分位数直接进行建模,得到的结果更加容易解释.相比于剩余寿命均值和中位数,分位数回归更加灵活和稳健,能全面刻画生存分布的特征,而且允许协变量变化时,生存分布具有不同的尾部,而且更容易抓住样本的非齐次性.在本文的第二章,我们针对长度偏差右删失数据下剩余寿命分位数提出了对数形式的线性回归模型,充分考虑有偏抽样机制对模型的影响,忽略这种有偏性会导致估计产生严重偏差,甚至错误的结果.由于在实际问题中删失变量往往与协变量不是独立的,我们对于删失变量与协变量独立和不独立的两种情况给出了模型参数的估计方程.对于删失变量与协变量不独立的情况,我们引入Cox模型来刻画删失变量与协变量的相关性.在给定的条件下我们给出了参数估计的相合性和渐近正态性,并且我们用Parzen,Wei和Ying(1994)提出的bootstrap方法给出了渐近方差的估计.另外,本章对提出的估计方法进行了数值模拟,并用该方法对奥斯卡数据进行分析.在本文的第三章,我们将第二章的方法推广到一般偏差右删失数据的情况,讨论一般偏差右删失下剩余寿命分位数回归问题.首先,我们给出了该条件下的剩余寿命分位数对数形式的回归模型.之前的很多研究成果要求删失变量与协变量独立,而本章对删失变量与协变量独立和不独立的两种情况都进行了研究,利用一般估计方程的方法给出了两种情况下模型参数的估计方程.由于估计方程不是参数的光滑函数,在求解参数时存在一定的困难,在本章中我们把求解估计方程解的问题转化为求1型凸函数求最小值问题,而不是直接解估计方程.其次,在满足某些条件下给出了估计的渐近性质并给出了渐近方差的估计.为了估计参数的渐近方差,我们需要估计失效时间的无偏密度函数,一般采用非参数估计,使得渐近方差的估计过于繁琐.因此我们与第二章同样的bootstrap方法给出了渐近方差的估计.另外,我们给出不同偏差函数下的模拟结果来验证所提出的方法在有限样本下的表现.最后,我们给出了相关引理和定理的证明.在本文的第四章,我们首先在长度偏差右删失数据下将第二章的剩余寿命分位数回归模型推广到一个半参数模型.其次,类似的我们将第三章提出的一般偏差右删失下剩余寿命分位数回归模型也推广到一个半参数模型.半参数模型介于参数回归模型与非参回归模型之间的,半参数回归模型克服了诸多局限,可以灵活地处理许多未知分布与不服从参数分布类型的数据.本章同样给出了删失变量与协变量独立和不独立两种情况下的估计方程.由于估计方程不是参数的光滑函数,且含有非参数部分8)0(),在求解参数时存在一定的困难,我们分两步解决参数估计的问题.第一步,通过构造估计方程,对于给定的参数我们推导出8)0()的逐点估计;第二步,由于协变量的效应不随时间变化,根据这个特征我们构造另外一个估计方程给出参数的合理估计.在分位数问题分析中,通常会遇到两个问题.第一,由于估计方程不是参数的光滑函数,在求解时存在一定的困难,因此本章采用Hunter和Lange(2000)提出的MM算法来获得参数的估计.第二,剩余寿命分位数的渐近方差估计问题中需要先估计无偏总体的密度函数,一般采用非参数kernel核估计,这给方差估计工作带来很大的麻烦,因此用同前两章一样的重抽样的方法改进了渐近方差的估计,避免了更繁琐的计算过程.在本章中我们给出两种情况下参数估计的相合性和渐近正态性,给出了模拟结果以及相关引理和定理的证明.在第五章,我们对整篇论文的研究工作进行了一些总结,同时对未来的工作进一步的展望.
其他文献
学位
近年来,乡村地区越来越被视为经济多元化和可持续发展的平台。创新是驱动乡村发展的关键因素,为乡村的可持续发展注入了活力。关于乡村创新的研究引起了一些学者的关注。借助CiteSpace软件对国外乡村创新文献进行计量分析,并进一步探究了乡村创新的概念、理论基础、研究热点及前沿、重点研究内容。通过研究发现:第一,乡村创新是一个跨学科的研究领域,目前国外学界最关注的是经济领域。第二,跨国或跨区域的作者合作研
背景:宫颈癌是常见的妇科恶性肿瘤之一,发病率仅次于乳腺癌,是威胁女性生命健康的第二大杀手。全世界每年大约有新发病例50万,死亡病例27万,85%以上的新发病例和死亡病例发生在发展中国家,近年来我国发病率和死亡率都有明显增高趋势。因此寻找宫颈癌相关分子标记物和治疗靶点显得尤为重要。KIF18B是我们通过TCGA数据库筛选发现的一种潜在的宫颈癌促癌基因。本研究旨在探讨KIF18B促进宫颈癌恶性进展的相
广州管圆线虫(Angiostrongylus cantonesis,A.cantonesis),又称为大鼠肺线虫,由我国著名寄生虫学家陈心陶教授于1935年在广州家鼠体内首次发现和命名。自1945年在我国台湾省发现了该虫的首例人体感染病例以来,迄今为止,全球已报告确诊或疑似病例约3000余例。以往,广州管圆线虫病流行于东南亚、太平洋岛屿地区,但近年来在北美、南美、非洲和澳大利亚陆续出现该病的病例报
背景:世界卫生组织在2001年颁布了《国际功能、残疾和健康分类》(The International Classification of Functioning,Disability and Health,ICF),为临床上功能评估提供了全面、标准的构架和语言。ICF通用组合是可用于不同健康状况人群及不同医疗机构的最小组合。本研究旨在验证ICF通用组合在临床应用中的如下指标:1)评估者间信度;2)
胃癌是世界范围内的常见恶性肿瘤之一,中国所在的东亚地区尤为高发。最新癌症数据显示,中国的胃癌发病率和死亡率均已上升至第二位。胃癌患者临床表现早期症状、体征不明显,同时又缺乏特异性的敏感初筛指标,大部分患者初次确诊时已处于中晚期不可手术切除。相对于乳腺癌、非小细胞肺癌、结直肠癌治疗近年来所取得的巨大进展,晚期胃癌全身化疗和靶向治疗的中位生存期仍维持在1年左右,至今没有取得疗效和生存时间的大幅度突破。
学位
学位
改革开放以来,中国民营企业,特别是农民创业企业,实现了从无到有,由弱变强的跨越式发展,书写出一篇篇留世佳作。企业的价值创造,离不开其治理体系的支撑,并且一直以来,绝大多数中国民营企业由农民创业者组成,属于宗族共治模式,也就是说,由宗族核心成员掌控企业的发展战略,形成了以血缘关系为纽带的精神、物质资源分配方式,逐渐发展成一系列有别于西方企业的独特治理模式(潘越等,2019)。现有文献多从正式制度的视
经历了2020年新冠肺炎疫情后,中小企业纷纷裁员甚至倒闭,失业人群超出想象。多个重要城市出台地摊经济相关指导措施,落实保民生、稳就业、促发展。但地摊经济也带来环境卫生、交通堵塞、社会治安等一系列问题。本文从准公共物品、外部效应、消费替代效应、政府职能理论等方面分析地摊经济带来的利弊,提出通过规范经营行为,加强技术指导和监督管理,因地制宜、科学布局,谨防“搭便车”行为,缓解地摊经济带来的负外部性,同