论文部分内容阅读
结核病(Tuberculosis,TB)是结核分枝杆菌(Mycobacterium tuberculosis,MTB,以下简称结核菌)引起的传染病,全球约三分之一的人被结核菌潜伏感染。每年约900万新增结核病患者,导致约150万人死亡,结核病严重威胁人类健康。中国是结核病高负担国家,结核病是我国的重点防治对象。早发现,早治疗是防控结核病的关键所在。结核病的诊断主要依靠传统的MTB抗酸染色法和MTB培养技术。但前者的灵敏度较差,后者耗时较长,不能满足如今对结核病快速诊断的需求。免疫学诊断,分子诊断以及影像学诊断方法方便快捷,但对结核病诊断的敏感性有待提高。尽管在结核病的诊断和治疗方面取得了巨大的进步,但及时、精确的诊断结核病仍然存在诸多困难。为了达到消灭结核病的目的,我们需要对结核病有更深层次的认识。数据科学,信息技术和生物技术的交叉融合,大数据的产生,给我们提供了一个对抗结核病的新途径。我们能从更宏观和更微观的角度来了解结核病的致病机理、MTB与人类基因的相互关系和耐药MTB的产生,开辟新的结核病诊断和治疗方法。面对结核病防治工作的难题,世界卫生组织提出新的理想的结核病诊断方法应使用易收集的非痰样本(如血液,尿液),诊断方法对儿童和细菌共感染者敏感性高,且可用于疗效监测。血液样本易收集,易定量,基于血液样本的结核病分子诊断方法有望满足其要求,但目前缺少相关诊断标志物的研究。测序技术飞速发展,测序成本降低,芯片技术不断普及,基因表达谱数据量增长迅猛。公共数据库如美国国立卫生研究院(National Institutes of Health,NIH)的基因表达数据库(Gene Expression Omnibus,GEO)中存储有大量人感染结核分枝杆菌的基因表达谱数据。这些数据尚未被完全利用,背后蕴含丰富的价值有待进一步挖掘,是寻找结核病诊断标志分子的一条新的途径。本研究检索NIH GEO数据库,从中筛选出6个含有结核病人外周血单核细胞基因表达谱数据集,用于挖掘结核病诊断标识基因。其中GSE19491作为发现数据集,GSE40553,GSE56153,GSE42834,GSE39941和GSE37250作为验证数据集。首先,利用R语言对GSE19491的原始数据进行预处理,计算差异表达基因,构建WGCNA共表达网络,分析基因表达变化趋势,通过比较分析得到与结核病相关的63个基因,功能富集分析发现它们与人免疫应答有关;然后对这63个基因进一步筛选,利用结核病人和健康人的血液样本进行RT-PCR验证,最终确定4个在结核病人与健康人血液中的差异表达的基因,它们分别是:UBE2L6(Ubiquitin/ISG15-conjugating enzyme E2 L6),BATF2(Basic leucine zipper transcriptional factor ATF-like),SERPING1(Plasma protease C1 inhibitor)和VAMP5(Vesicle-associated membrane protein 5),分别与泛素化、免疫细胞分化、补体活化和囊泡运输有关;最后,利用受试者工作特征曲线(receiver operating characteristic curve,ROC)对这4个基因在包含不同条件的共约1000个样本的5个独立数据集中进行可靠性验证,平均AUC=0.86,特异性81%,敏感性86%,四个基因的表达量还随着治疗进程显著降低。BATF2,UBE2L6,VAMP5和SERPING1是潜在的结核病诊断和治疗效果监测的标志物。本研究结果已经申报PCT专利(PCT/CN2019/080563,结核病标志物在结核病诊断和疗效评估中的运用)。