论文部分内容阅读
健康管理(health management, HM)是对个体(包括健康个体、亚健康个体和病人)或群体(包括健康人群、亚健康人群、疾病人群)的健康危险因素进行全面监测、分析、评估、预测,旨在提供健康咨询和指导以及对健康危险因素进行干预的全过程。广义的健康管理还涵盖了疾病管理,即对个人处于疾病的低危险状态→进入疾病危险状态→发生早期病理改变阶段的管理通常称为健康管理,而对其出现临床症状→疾病→不同转归预后阶段的管理则称为疾病管理。尽管健康管理的概念还尚未完善,健康管理学的学科内涵、理论与技术方法还很不成熟,但社会公众对健康管理的渴求,已经使健康管理学研究成为国家和政府必须关注的、重点支持和优先发展的领域。健康管理概念的提出、健康管理学独立学科的发展趋势,以及我国健康管理的兴起和对健康管理行业的巨大需求,迫切需要对健康管理学的理论、方法和策略进行深入研究。其中,基于健康体检系统的“大型多中心纵向监测健康管理队列”是推动健康管理理论方法创新研究及其推广转化的重要数据管理平台。此种队列的建设,不仅是进行个人健康信息收集与健康档案管理、个体健康风险评估与人群分类、个体和群体健康干预及其健康改善效果评价的健康管理平台,而且是阐明疾病发生、发展与转归的研究平台。为此,本课题组自2004年就在山东省启动了“大型多中心纵向监测健康管理队列”,作者自2007年作为项目组的核心成员,参与了整个队列建设的数据采集、管理和数据库构建、队列随访等一系列工作,本文体现了本人所负责完成的队列建设研究经历。本文从多中心大型纵向监测健康管理队列构建、数据整合平台构建(数据清理、集成、变换等预处理)、数据填补及数据分析(广义估计方程及混合效应模型分析,Cox回归分析和Joint模型分析,各回归方法模拟比较)等几个方面进行了系统研究,并以尿酸对代谢综合征的影响研究为例进一步说明其应用性,旨在建立大型纵向监测健康管理队列及其统计分析策略。研究结果如下:1.构建“多中心纵向监测健康管理队列数据管理系统”,通过完善相应的数据字典和疾病字典、管理赋值规则、导入原始数据、查询导出处理后数据,将多中心纵向监测健康管理队列的原始数据转换成可利用统计软件直接进行分析的数据格式。2.利用SAS软件的mi过程或R软件的Amelia Ⅱ程序包,将缺失数据进行了有效的填补和相应的诊断。3.在调整了各项混杂后,广义估计方程、混合效应模型、Cox回归和Joint模型均证实血尿酸水平与代谢综合征的关联性有统计学意义,与正常血尿酸水平人群相比,高血尿酸人群患代谢综合征的风险是分别是1.449(95%CI:1.215,1.727),1.527(95%CI:1.187,1.965)、1.496(95%CI:1.287,1.740)和1.3735(95%CI:1.1565,1.6313)倍,提示四种模型均可用于大型纵向监测健康管理队列数据的统计分析。4.基于实际纵向监测健康管理数据,以Joint模型产生模拟数据,比较了广义估计方程、混合效应模型分析、Cox回归分析和Joint模型四种回归分析模型的第一类错误概率、检验效能和偏回归系数估计偏性。H0成立时,在0.05的检验水准下,四种方法的第一类错误概率均接近0.05,其中广义估计方程和Cox回归能较好地在0.05附近波动,而混合效应模型和Joint模型则稍稍高于0.05水平。H0不成立时,随样本含量的增大和偏回归系数的增大,广义估计方程、混合效应模型、Cox回归和Joint模型的检验效能单调递增,逐渐接近并达到100%,四种方法的检验效能的变化程度和变化趋势相似,但广义估计方程和混合效应模型始终略高于Cox回归和Joint模型。在比较估计偏性的方面,混合效应模型的估计最小,其次依次是广义估计方程、Cox回归和Joint模型。结论:1.运用这一纵向监测健康管理队列设计及其统计分析策略,可以解决纵向监测健康管理队列设计和数据综合分析利用的问题,将健康管理从采集健康信息的初始阶段,延伸至现状评估、疾病预测、健康促进与干预管理的深层阶段。2.“多中心纵向监测健康管理队列数据管理系统”可以将多个中心健康体检数据整合到统一的数据管理平台中,软件界面亲和、友好,易于操作,为进一步的填补和回归分析奠定了基础。3.对缺失数据的填补:基于MCMC算法的mi过程是较为经典和使用普遍的方法,而基于EMB算法的Amelia Ⅱ过程,可以方便的利用AmeliaView的视窗进行简便的数据导入、填补、导出、诊断,并可以填补横截面数据、时间序列数据和时间序列-横截面数据(可看作纵向数据)等多种类型的数据。4.统计模拟表明,对于大型纵向监测健康管理队列数据回归方法的选择:①由于样本含量足够大,一般情况下,可采用常规的广义估计方程来估计变量之间的关联性。②对于多中心(多水平)的纵向监测健康管理队列数据的回归分析,应利用混合效应模型进行建模分析。③一般情况下,上述两种回归分析模型皆可取得满意的效果。④理论方法更为复杂的Joint模型在分析此类大样本纵向监测健康管理队列数据时,并未显示出其优越性,但它可以计算个体特定时间点的发病风险和生存概率,特别适用于疾病的风险评估和风险预警。⑤对于此类纵向监测健康管理队列数据,若简单地利用Cox回归模型进行分析,其回归系数估计偏性较大。5.实例分析证明高血尿酸水平可增加代谢综合征的发病风险。创新点:1.提出了大型纵向监测健康管理队列设计及其统计分析策略的整体思路框架。2.自主研发的“多中心纵向监测健康管理队列数据管理系统”可以有效地对各中心体检数据整合、集成、变换、清理。3.在纵向监测健康管理队列数据中,对广义估计模型、混合效应模型、Cox回归和Joint模型进行了模拟评价,并提出了相应的回归分析策略。不足之处:在缺失值填补阶段,未纳入更多的填补方法和相应的诊断技术:对于给出的两种填补方法,未进行模拟试验评价其表现;在对广义估计模型、混合效应模型、Cox回归和Joint模型进行模拟评价时,未能从数理角度分析影响模型表现的关键因素。