论文部分内容阅读
乳腺癌是一种严重危害女性健康的恶性肿瘤,具有高度的异质性,严重影响了个体化诊治。新辅助化疗虽然能降乳腺癌复发风险,但是低复发风险的患者并无明显受益。因此,需要确定可靠的预后标志物,为临床提供决策依据。目前,已经有研究从肿瘤血流异质性角度对乳腺癌影像分解分析,并评估了影像特征对预后的预测效果。但是这种基于影像的评估方法可解释性不强,特异性相对较差,尤其是缺乏潜在的生物和分子机制的解释。相比之下,基因表达数据则具有丰富的基因型,更能代表细胞的功能。而且从基因角度,细胞亚群可以反映癌症组织的异质性,因此,本研究整合影像学数据和基因数据进行研究,并将基因表达数据抽象为细胞亚群表达的混合加权,基于混合物凸分析方法(Convex Analysis of Mixtures,CAM)从基因表达数据中分解出不同细胞亚群,并依据亚群所占的比重不同,建立与预后的关联,并从分子功能角度对其进行解释,然后将得到的结论结合影像学方法进行研究,从而发现预后影像标记物。本论文的具体研究内容包括:(1)基因表达数据的分解:基于CAM模型分解乳腺癌基因表达数据,通过最小描述长度确定分解的亚群数量,进而得到亚群比例矩阵、特定表达矩阵以及表征各亚群的标记基因。且分解得到的两矩阵的乘积近似等价于原基因表达数据。对标记基因通路分析,进而揭示每个亚群代表的生物学意义及分子机制。(2)分解产生的亚群与预后的关联性研究:亚群比例矩阵反应了基因表达信息在每个亚群中的占比,是病人表达数据产生差异的主要原因。所以对每一亚群的比例信息进行生存分析,探究其与预后的关系。然后将与预后相关的特征亚群进行聚类得到亚群亚型,建立与预后的关联,最后在独立测试集中验证亚群亚型的预后价值。(3)基于影像基因组学方法将基因表达分析的结论映射到影像中进行预后分析:在匹配了基因表达数据和影像数据的数据集中,建立基因表达与影像特征的关联关系,然后建立逻辑回归分类预测模型,并在独立验证集中预测病人的标签。实验结果表明,不同类别的病人之间有生存差异。本论文通过对乳腺癌基因表达数据与预后进行关联性研究,证明了亚群可以作为影响预后的因素,其对应的标记基因有潜力成为预后分子标志物;同时通过基因表达数据与影像特征的关联性研究,找到了潜在的影像学预后标志物。由本研究确定的分子标志物和影像标志物或许能够为乳腺癌患者的预后预测提供有效信息,并为精准治疗提供理论依据及治疗靶点。