论文部分内容阅读
一、研究背景和研究目的随机对照试验被认为是当前评价试验产品是否具有治疗效果的研究设计金标准。然而在随机对照试验中,各种原因导致的数据缺失有其自身特点,但仍然十分普遍。由于数据缺失,导致结果产生偏倚。这势必会影响到数据的意向性分析,以及进一步威胁到研究结论的有效性。数据缺失处理方法的研究由来已久,迄今为止主要包括完整病例分析、填补法、基于似然的分析方法和逆概率加权法等。这些方法的应用都受制于数据缺失的机制,数据呈随机缺失的假设较易满足。当数据呈随机缺失时,除非缺失不影响结果,否则不建议直接采用完整病例法分析;而多重填补法和极大似然估计方法都有其各自的特点和局限性。例如,多重填补时,分析模型不能含有填补模型之外的变量、非线性项和交互项,因此,该兼容性要求对结局分析模型的构建有一定的限制,而且两模型容易产生冲突。此外多重填补牵涉随机抽样,决策考虑要点也较多,结果不确定不唯一。应用极大似然估计法时,其依赖于参数假设,如数据呈正态性;需合理构建似然函数;缺失比例不宜过大;当采用贝叶斯后验推断时,结果依赖于先验信息等。逆概率加权法增加完整病例的权重,分析直观;但是单纯性逆概率加权不能利用部分缺失病例的信息,并且权重采用Logistic回归获得受制于回归模型且有时过大。因此,本研究基于随机缺失数据,对单纯性逆概率加权方法加以改进,一方面改进结局分析模型,改进后能同时利用完整病例和部分缺失病例的信息;另一方面,采用随机森林非参数的方法优化未缺失概率的估计,且尽量避免权重过大。此外,对缺失数据进行敏感性分析应用新方法,其不需要额外满足统计假设,且从临床角度看,结果也容易解释。二、研究方法首先,理论上合理构建双稳健逆概率加权方法。一方面我们在单纯性逆概率加权方法的算式中,增加期望值为0的项,而该项可以加入部分缺失病例的信息。另一方面,未缺失概率模型中倾向性评分的估计还采用随机森林非参数的方法加以比较。其次,我们利用模拟数据建立双稳健逆概率加权方法并采用SAS和R语言加以实现,同时与其它方法进行模拟数据处理效果的比较。模拟数据时从随机对照试验数据缺失的特点出发,预设研究主要终点呈单调性缺失,其缺失机制呈随机缺失,即采用Logit模型基于每个受试者的基线协变量和研究中辅助变量的信息对其主要终点是否缺失进行模拟。研究中主要终点的模拟在其呈正态分布的基础上,还增加了另外三种情景,即结局分析模型有随机中心效应、主要终点呈非正态分布、未缺失概率模型错误结局分析模型正确。这四种情景中,我们均考虑了4种大小的样本量(N=120;240;600;1,000),每种样本量下又进一步设计了不同的研究总缺失比例(10%;20%;30%)。统计分析时,首先对Logit建模和随机森林法的倾向性评分进行比较;然后再对单纯性逆概率加权、双稳健逆概率加权与多重填补法等进行分析方法比较。评价指标包括疗效组间差异的绝对误差均值、95%可信区间覆盖率和组间差异的误差均方。最后,还进一步在一个非劣效设计的糖尿病随机对照试验中进行应用比较。对Logit建模和随机森林法进行了倾向性评分的比较,还比较了这几种缺失处理方法的表现。为了支持研究结论的稳健性,采用反转点方法,分缺失填补数据的标准差等于零、等于组内观测值的标准差、填补后整组的标准差等于观测值的标准差三种情况,对主要分析结果进行敏感性分析。三、结果基于II型糖尿病的初步临床规律,设立未缺失概率模型和结局分析模型的函数关系。各种模拟情形中,通过调整未缺失概率模型函数的系数,均达到了预期的研究总缺失比例。模拟数据倾向性评分不论是试验组或对照组、不同的预设缺失比例或不同的研究样本量时,均是随机森林的倾向性评分值变异度小,并且极端小的倾向性评分值少,平均值或中位数均稍微较大。此外,不同研究样本量之间,两种算法内部各自的倾向性评分估计值十分接近。在相同缺失比例的试验组或者对照组内,随着研究样本量的增加,随机森林算法的倾向性评分值几乎都逐渐增加向1接近;而Logit回归模型算法的倾向性评分值在四种情景中的趋势并不完全一致,有时增加有时降低。模拟数据疗效差异的绝对误差均值和误差均方由于偶然性,模拟中无缺失数据仍然有一定的误差,但误差均是最小的。不论采用何种缺失处理方式,样本量越大绝对误差均值越小;缺失比例越大绝对误差均值越大。四种情景中,均是双稳健逆概率加权法优于单纯性逆概率加权法。除结局变量呈非正态分布的情景外,随机森林倾向性评分加权法往往表现最优。Logit模型倾向性评分加权法的表现往往较差。另外,同步采用误差均方进行评价时,各种方法表现出来的规律与采用绝对误差均值发现的规律类似。模拟数据疗效差异的95%可信区间覆盖率可信区间覆盖率的规律性不如绝对误差均值指标的明显,并未出现双稳健逆概率加权法一致优于单纯性逆概率加权法,也未出现随机森林算法一致优于Logit模型。但多重填补法具有良好的覆盖率。实际应用数据分析不论试验组、对照组还是两组合计,随机森林算法的倾向性评分的平均水平(平均值和中位数)均较高,但倾向性评分的标准差并不总是随机森林算法的小。从疗效的组间差值看,多重填补法的结果最大,其最小二乘均数及95%可信区间为0.069(-0.148,0.286);Logit的单纯性逆概率加权法的结果最小,其最小二乘均数及95%可信区间为0.014(-0.207,0.235);其余处理方法的结果十分接近。总体而言,不论采用哪一种处理方法,研究的非劣效结论均成立。反转点分析结果表明,从临床角度看,非劣效结论在三种情况下均成立是可信的。四、结论在模拟随机对照临床试验数据中,当主要终点呈单调性缺失且属于随机缺失时,采用双稳健逆概率加权法,尤其随机森林双稳健逆概率加权法处理具有良好的表现,优于单纯性逆概率加权法,且除主要终点呈非正态分布情况下甚至优于广受欢迎的多重填补法,值得考虑应用。在实际应用中,随机森林结合逆概率加权的方法以及Logit双稳健逆概率加权法,均获得了稳健的分析结果。反转点分析作为一种敏感性分析方法,不要求额外统计假设,临床上亦易于解释。总之,本研究建立了随机森林结合双稳健逆概率加权法处理缺失的方法,尽量避免了过大的权重,同时利用了部分缺失病例的信息,为随机对照临床试验主要终点呈单调性随机缺失时的分析提供了一种值得考虑的处理方法。