论文部分内容阅读
目的目前肺癌已成为癌症死亡的首要原因,在许多国家其发病率及死亡率呈上升趋势。检测肿瘤发生过程中的早期分子标志,从而发现癌前病变或早期癌变被认为是肺癌早期诊断最具应用前景的手段,但目前肿瘤标志距离临床应用还有一定的距离。近年来发展起来的数据挖掘技术在解决大量的变量带来的多参数问题上具有独特的优势。此研究用数据挖掘技术联合可能发生于肺癌早期的遗传学及表观遗传学分子生物标志和流行病学参数建立肺癌的早期预警模型,并评价各模型对肺癌预警效果。对象与方法1.研究对象的选择:200例原发性肺癌患者的血标本于2009年1月至2010年6月取自郑州大学第一附属医院呼吸内科和胸外科;200例正常对照血标本取自同期郑州大学第一附属医院体检科体健的正常人群。经知情同意后由专业的调查员和医生收集研究对象的流行病学资料并采集血标本。2.DNA甲基化水平检测:用实时荧光定量甲基化特异性PCR分析p16、RASSFIA和FHIT基因甲基化水平3.相对端粒长度的测定:用实时荧光定量PCR分析外周血DNA相对端粒长度。4.数据挖掘:把样本按3:1的比例随机分成训练集,分别用判别分析、决策树、人工神经网络和支持向量机建立模型,然后用训练好的模型对预测集进行预测,并结合诊断试验评价指标对这几种模型的预测结果进行比较,其中判别分析、决策树和支持向量机在SPSS Clementine12.0软件下运行,人工神经网络分别在SPSS Clementine12.0(C-神经网络)和Matlab7.1软件下运行(M-神经网络)。5.统计学分析在SPSS12.0软件下运行。根据定量资料分布类型选择表示方法和组间统计学检验方法。定性资料组间比较用χ2检验。检验水准α=0.05。结果:1.甲基化水平检测结果:p16、RASSFIA和FHIT基因在肺癌组的甲基化水平均高于对照组,差异有统计学意义(P<0.05);单因素分析3个基因的甲基化水平均与性别、年龄、吸烟史和肺癌的组织学类型及临床分期无关(P>0.05);分别按3个基因的甲基化水平分为4组后,随着甲基化水平的增加,肺癌的危险性增加(Ptrend<0.05)。2.相对端粒长度测定结果:肺癌组端粒长度显著短于对照组(P<0.001);按对照组的端粒长度分为4组,随着端粒的缩短,肺癌的危险性增加(P<0.001);此外,在对照组中,年龄的增加也会使端粒缩短(P<0.001)。3.数据挖掘模型的评价结果:判别分析对预测集的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为80.0%、54.0%、67.0%、63.6%、37.0%和0.670;C-神经网络预测集的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为78.0%、74.0%、76.0%、75.0%、77.8%和0.760,其中对21例临床Ⅰ+Ⅱ患者的预测准确率达到71.4%;M-神经网络对预测集的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为80.0%、76.0%、78.0%、76.9%、79.2%和0.780,其中对21例临床Ⅰ+Ⅱ患者的预测准确率达到71.4%;决策树对预测集的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为80.0%、82.0%、81.0%、81.6%、80.4%和0.810,其中对21例临床Ⅰ+Ⅱ患者的预测准确率达到76.2%;支持向量机对预测集的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为82.0%、80.0%、81.0%、80.4%、81.6%和0.810,其中对21例临床Ⅰ+Ⅱ患者的预测准确率达到76.2%;神经网络、决策树和支持向量机的AUC要高于判别分析,神经网络、决策树和支持向量机的AUC差别不大,但前者预测结果每次都不一样,而后两者输出结果一致且比较易理解。结论:1.外周血DNA p16、RASSFIA和FHIT基因启动子甲基化与肺癌有关;p16、RASSFIA和FHIT基因启动子甲基化率与肺癌的组织学类型和临床分期无关;外周血相对端粒长度缩短可以增加患肺癌的危险性。2.数据挖掘中的决策树、支持向量机和神经网络模型对肺癌的早期预警效果优于Fisher判别分析,可以用于肺癌的早期预警;决策树和支持向量机对肺癌的预警效果略好于人工神经网络模型的预警效果。