论文部分内容阅读
背景与目的:乳腺癌目前是全球女性最常见的恶性肿瘤,尽管在过去的十年中乳腺癌的治疗已经取得巨大的进步,但由于较高的肿瘤特异性死亡,患者的预后仍值得关注。因此,随着精准医学、高通量测序技术与基因组芯片技术的快速发展,研究乳腺癌发生发展的分子生物学基础,发现能够评估乳腺癌风险、早期诊断乳腺癌、预测患者预后和治疗乳腺癌的新的靶点的分子标志物至关重要。目前临床实践中主要根据不同的分子分型来规范乳腺癌的综合治疗,而分子分型的确立仅基于蛋白质编码基因,其小于人类基因序列的2%,其余的非编码序列约占98%之多,且约有90%的非编码序列发生转录,产生大量非编码转录产物,即非编码RNA(non-codingRNA,ncRNA),其中转录长度超过200nt的长链非编码RNA(long ncRNA,lncRNA)在乳腺癌的发生、发展、侵袭、浸润、复发及转移都发挥着非常重要的作用。近年来,研究表明在乳腺组织的恶变过程中,发现大量基因和转录组的变化,这些变化往往与lncRNA的异常表达密切相关。本研究通过整合TCGA数据库乳腺癌(Breast Cancer,BRCA)转录组信息,构建乳腺癌lncRNA相关的预后风险模型,为乳腺癌患者的预后风险预测提供依据和参考价值。方法:通过肿瘤基因组图谱计划(The Cancer Genome Atlas,TCGA)网站下载TCGA-BRCA转录组的Manifest和Metadata数据,然后借助GDC-client下载工具,在cmd环境下下载原始HTSeq-Counts数据。利用Perl语言脚本提取原始数据的表达矩阵,通过Ensembl网站下载Homo_sapiens.GRCh38.95.chr.gtf.gz文件,比对后得到基于gene symbol的基因表达谱矩阵,然后利用Perl语言提取lncRNA表达谱矩阵;利用R语言的“edgeR”包筛选差异表达的lncRNA,设置阈值为(|log FC |>2.0 和 adj.P.val<0.05);同时从TCGA数据库下载TCGA-BRCA的临床生存数据,利用R语言脚本合并生存数据与lncRNA表达数据后,进行单因素COX回归分析,然后根据单因素P值选择lncRNA进行LASSO回归分析,再根据Lambda值筛选lncRNA进行后续多因素COX回归分析。基于多因素回归分析后选择lncRNA表达谱和回归系数构建生存相关的线性风险评估模型,根据各样本相应lncRNA的表达量和回归系数计算出每个样本的风险值(risk score),取risk score的中位数为截断值,将样本分为高、低风险组;采用时间依赖的ROC曲线评估预后模型在3年和5年生存期的预测能力,同时计算该预后模型的C指数,并进一步利用Kaplan-Meier生存分析方法绘制高、低风险组的生存曲线。利用R语言的随机函数把总样本随机分为“随机组1“和“随机组2”两部分,两组样本互相独立,再次利用以上统计学方法计算出每个样本的风险值(risk score),根据risk score的中位数将各亚组分为高、低风险组;利用ROC曲线和Kaplan-Meier生存分析对各亚组分析,进而验证该预后风险模型。结果:从TCGA数据库共获得1222个样本的转录组counts数据,其中正常样本113个,肿瘤样本1109个,整合后得到60489个基因表达谱矩阵,提取出14447个lncRNA的表达谱。通过差异基因筛选后,共获得差异表达的lncRNA 973个,其中上调702个,调271个、对差异表达lncRNA进行单因素COX回归分析,取P值小于0.05后筛选出31个lncRNA,对31个lncRNA进行LASSO回归分析,根据参数Lambda值筛选出15个lncRNA;重新构建15个lncRNA的基因表达及临床数据矩阵进行多因素COX回归分析,结合单因素分析结果,12个lncRNA(AC010542.1、AC046158.1、AC079779.3、AC093025.1、AL031598.1、ERVK-28、LINC01405、LINC01733、LINC01962、MNX1-AS2、MTUS2-AS1、SLX1A-SULT1A3)的回归系数大于零,HR(Hazard ratio)=exp(coef)>1,与患者生存时间呈负相关,3个lncRNA(LINC01710、MAPT-AS1、TCL6)的回归系数小于零,HR=exp(coef)<1,与患者生存时间呈正相关。提取15个lncRNA多因素COX分析的回归系数,构建由15个lncRNA组成的预后风险评分模型,并计算出每一个样本的风险值,根据风险值的中位数将样本划分为高风险组和低风险组。利用R语言绘制高低风险热图、ROC曲线及K-M生存曲线,时间依赖的ROC曲线说明该风险评估模型对预测乳腺癌患者的3年和5年生存预后较为稳定(3年和5年生存率的ROC曲线下面积AUC分别为0.713和0.677);同时计算该预后风险模型的C指数为0.69(95%CI:0.64—0.74),说明该模型具有较好的预测能力。高、低风险组样本的K-M生存曲线表明高风险组患者的总体生存率较低,且两组间差异有统计学意义(P=3.93E-06)。随机组1的ROC曲线3年和5年生存率的AUC分别为0.661和0.633;随机组2的ROC曲线3年和5年生存率的AUC分别为0.766和0.724;各亚组K-M生存曲线同样表明高风险组患者的总体生存率较低,且两组间差异有统计学意义(分别为P=0.00506415和P=0.00035932);说明该模型具有较好的稳定性与有效性。结论:基于15个lncRNA组成的预后风险模型能较好的预测乳腺癌患者的生存预后,对乳腺癌患者预后的评估具有一定的参考价值。结合乳腺癌分子水平的预后因素,可筛选高风险群体,指导制定个体化治疗方案。