论文部分内容阅读
在医学纵向研究中,数据缺失往往无法避免。如果反应变量的缺失与未观测到的反应变量有关,则缺失机制为非随机缺失。对于含有非随机缺失机制的纵向数据,目前常用模式混合模型进行分析。然而,非随机缺失模式混合模型仅考虑了某几个固定时间点上的数据缺失,将缺失时间的分布看作离散分布。但在实际问题研究中,研究对象常由于有事或外出等原因,未能按规定的时间点实施监测。此时,数据缺失的发生,就不仅局限于预先设计的几个固定时间点上,而可能发生在观测期内的任一时间点,即缺失时间为连续分布。此时,模式混合模型就无能为力了。本研究针对存在非随机缺失,且缺失时间为连续分布的纵向监测资料,在模式混合模型的基础上,通过贝叶斯惩罚样条函数,探索构建纵向数据均值参数与方差成分均随缺失时间变化的变系数模型(varyingcoefficientmodelsVCMs)。由于缺失时间的分布类型未知,建模时假定模型回归系数和方差成分均通过未知的平滑函数随缺失时间变化。本研究通过模拟研究,证实了不同缺失比例和样本含量下变系数模型参数估计结果的准确性,并将该模型应用于全国社区高血压规范化管理纵向监测研究的数据分析中。主要结果如下:1、在不同的样本含量和缺失比例下,变系数模型均能得到较准确的参数估计值。模拟研究结果证实,在缺失比例一定的情况下,随着样本含量的增加,变系数模型的参数估计值越来越接近于真值;当样本含量达到300时,参数估计值趋向于稳定;且随着样本含量的逐渐增大,参数估计的标准误越来越小。在样本含量一定的情况下,缺失比例对参数估计值的影响不大,即不同的缺失比例下均能得到与模拟真值相近的参数估计值;但随着缺失比例的增加,参数估计的标准误也随之增大。2、非随机缺失的变系数模型可更客观的解释社区高血压规范化管理资料,结果解释合理。社区高血压规范化管理资料中研究结果表明,收缩压和舒张压的截距项、年龄参数、性别参数等均随缺失时间而变化,即早期缺失的高血压患者和晚期缺失的高血压患者具有不同的模型参数。患者收缩压变系数模型研究表明,高血压患者的年龄参数随缺失时间呈下降趋势,且为负值,说明晚期缺失的高血压患者的血压值随年龄的下降趋势更明显。性别参数呈上升趋势,且为正值,说明晚期缺失的高血压患者,男性收缩压的控制效果优于女性。对舒张压而言,高血压病程呈上升趋势,且为正值,高血压病程对早期缺失的患者影响较小,而对于晚期高血压患者来说,高血压病程越长,舒张压越高。3、敏感性分析进一步证实变系数模型对社区高血压规范化管理资料的参数估计效果较好,结果可靠。本研究在建立变系数模型时,假定对于包含缺失信息的观测值与未包含缺失信息的观测值具有相同的参数估计结果。但是该假定无法用已观测到的数据进行验证,故有必要进行敏感性分析。四个社区不同性别血压估计值变化的敏感性分析结果表明,在设定敏感性参数a=5和a=10时,不同敏感性参数下的估计结果与原模型估计值相近,说明该数据用变系数模型估计效果较好,结果解释合理。综上所述,本文从原理、方法介绍、计算机编程与实现及高血压规范化管理实例分析,系统阐述了一种处理伴有非随机缺失纵向数据的变系数模型。该模型是在模式混合模型原理的基础上,利用贝叶斯惩罚样条函数构建的。模型中容许把模型回归系数和方差成分均视为缺失时间u的未知平滑函数。它克服了模式混合模型中缺失时间为离散分布的不足,解决了缺失是连续型分布的问题,是缺失时间为连续分布的非随机缺失机制纵向数据分析的最佳选择。