论文部分内容阅读
目的心血管疾病是世界范围内严重危害人类健康的疾病,近年来研究显示,其发病率和死亡率在发展中国家日益增高。目前已经有很多研究探讨心肌梗死发病的危险因素并预测发病概率。预测疾病发病概率需要建立统计学模型,对于目前常规使用的统计模型预测能力有限。我们希望寻找一种更好的分析变量间更为复杂的非线性关系的数学模型,从而为中国人群急性心肌梗死的诊断和预防提供参考。神经网络模型是在模拟人脑神经组织的基础上发展起来的计算系统,是由大量处理单元通过广泛互联而构成的网络体系,它具有生物神经系统的基本特征,具有非线性映射能力、学习能力、自适应能力、容错能力、联想储存的功能,是数据挖掘方法中一类非常重要的模型。本研究的目的是构建Logistic回归模型、BP神经网络模型和Elman神经网络模型,并将常规的统计学方法与神经网络模型的方法结合起来运用到急性心肌梗死的预测中,期望能够提高疾病的预测能力。方法我们将中国人群急性心肌梗死流行学调查数据中涉及的变量分为常规变量和基因SNP位点变量。常规变量分为定性变量和定量变量,进行了变量的描述和单变量分析。对于基因SNP位点变量,进行了基因频率和基因型频率计算、哈代-温伯格平衡定律验证、趋势检验和SNP位点单体型区域的构建。之后我们构建了3种统计预测模型,常规Logistic回归模型、BP神经网络模型和Elman神经网络模型,回代数据计算ROC曲线下面积,初步比较三种模型的预测精度;而后利用随机抽样的方法将数据分为训练集和验证集,重新构建模型评价3种模型的泛化能力,利用反复抽样的方法比较三种模型的预测精度;最后我们随机模拟数据,考虑到连续型变量和离散型变量在模型中的差别,因此,我们将随机模拟分为两种情况,第一部分模拟连续型变量具有统计学意义;第二部分模拟离散型变量具有统计学意义,分别构建模型,并针对模型对变量的适应性和模型的稳定性进行研究。结果经过数据随机抽样分为预测数据集和验证数据集拟合模型比较3种模型的预测能力,结果表明10%-40%4种不同验证数据集比例情况下,BP神经网络模型ROC曲线下面积相比Logistic回归模型分别高出4.5%、3.1%、3.3%和2.9%,具有统计学意义。Elman (?)神经网络模型ROC曲线下面积相比Logistic回归模型分别高出4.2%、2.1%、2.9%和1.4%,20%和40%比例人群作为验证数据集情况下无统计学意义。BP模型ROC曲线下面积相比Elman模型4种不同验证数据集比例差别为:0.2%、0.9%、0.4%和1.6%,差别不具有统计学意义。BP神经网络模型相比常规的Logistic回归模型能够显著提高模型的泛化能力。随机模拟数据研究结果表明,第一部分模拟连续型变量具有统计学意义,3种模型的预测性能均较高;第二部分模拟离散型变量具有统计学意义,在10%-40%4种不同验证数据集比例情况下,BP神经网络模型与Elman神经网络模型ROC曲线下面积相比Logistic回归模型分别高出3.2%、2.9%、3.2%和3.1%,具有统计学意义。2种神经网络模型预测性能均显著优于Logistic回归模型。Elman模型与BP模型差别无统计学意义。结论通过本研究的实际应用结果可知:利用BP神经网络、Elman神经网络模型具有良好的预测能力、较快的运算速度、良好的稳定性,具有解决复杂的非线性关系的能力,特别是在样本量不大、离散型变量较多、非线性关系复杂的数据研究中,神经网络模型的预测性能高于Logistic回归分析,充分显示出神经网络方法的优越性和合理性。这2种神经网络方法在心脏病流行病学领域预测和评价方面的使用将具有较好的实际应用价值。