论文部分内容阅读
乳腺癌(breast cancer,BC)是影响女性健康的最主要的恶性肿瘤之一,位居女性恶性肿瘤死亡首位。研究表明,雌激素受体(ER)、孕激素受体(PR)以及人类表皮生长因子受体2(HER-2)是重要的乳腺癌分子标志物,根据不同的受体表达情况以及相关指标可以将乳腺癌分为管腔A型、管腔B型、HER-2过表达型、三阴性基底样型等亚型。乳腺癌的不同亚型不仅决定了临床病理学特点差异,也决定了预后的差异。因此,深入揭示不同乳腺癌亚型的分子机制,对提高乳腺癌精准诊断和治疗具有重要意义。长链非编码RNA(long non-coding RNA,lncRNA)是一类转录本长度大于200 bp的非编码RNA,作为人类基因组中重要的一类调控分子,lncRNA与mRNA、microRNA等之间存在紧密的调控关系。鉴于lncRNA在癌症发生、转移及耐药中起到的重要调控作用,探究lncRNA与乳腺癌及其亚型的关系有助于揭示乳腺癌分子机制和发现乳腺癌发生发展过程中重要分子标志物。传统生物学往往以研究单个基因或者转录本的具体功能为基础,在局部范围内阐述生物过程的分子调控机制。本文从系统生物学的角度,利用多样本转录组数据和生物网络方法,对不同乳腺癌亚型中lncRNA转录调控网络及其基因共表达网络进行了亚型特异性的探究。lncRNA转录调控网络目前,转录因子(transcription factor,TF)对基因的调控关系的研究大多集中在蛋白编码基因上,关于lncRNA转录调控的研究仍较少。本文第一部分研究全基因组尺度上人转录因子对lncRNA的一般性转录调控。通过计算预测转录因子在lncRNA启动子区域的结合位点获得转录因子对lncRNA的转录调控关系,以更深入了解lncRNA转录机制和功能。通过对人类1 100个转录因子的1 349个结合位点模体(motif)和16066个lncRNA启动子区域进行计算得到4 589 094个转录因子结合位点,反映出非特异性转录调控网络中潜在的847 455对TF-lncRNA转录调控关系。经文献检索显示预测结果中部分TF-lncRNA转录调控关系已有实验证据支持,一定程度上证明预测的可参考性和有效性。共表达网络分析不同乳腺癌亚型中关键lncRNA本文第二部分对于5个主要乳腺癌亚型共13个细胞系的转录组数据,利用加权基因共表达方法划分表达模式相似的基因模块,从而构建共表达网络。随后利用样本的乳腺癌亚型的临床分型信息,筛选与疾病高度相关特异的基因模块并进行关键基因的挖掘与验证。共鉴定到16个分别与Wnt信号通路、HIF-1信号通路等密切相关的具有不同共表达模式的基因模块。对其中有5个与乳腺癌各亚型高度特异性相关的模块内部基因挖掘,分别获得与乳腺癌管腔A型、管腔B型、HER-2过表达型、三阴性基底样型、三阴性CL型高度相关的44、47、16、19、28个关键lncRNA和35、77、47、26、22个关键蛋白编码基因(包括2、5、4、5、3个关键转录因子)。以三阴性基底样型相关tan模块为例,32%关键lncRNA,如 AC074351.1、LINC01606、LINC01186 等在 lncRNA 疾病数据库中报道与癌症有关,23%关键蛋白编码基因,如GABRP、EGFR、TM4SF1等已在文献中有报道影响三阴性基底样型发生发展。结合表达量分析,进一步得到5个乳腺癌亚型中分别有9、14、6、4、5个同时满足高表达且高连通性的关键lncRNA;同时发现对于管腔型乳腺癌,除了分别有8个和9个lncRNA在管腔A型和管腔B型中高特异性表达,而有18个lncRNA在两种管腔亚型中共特异性表达,这一结果体现出lncRNA在亚型间特异性程度是不同的。共表达网络与转录调控网络结合分析共表达网络反映出表达模式相似基因的功能相关性,转录调控网络则提供了生物分子调控的靶向性。本文第三部分对各亚型特异性的模块中TF-lncRNA共表达关系,结合TF-lncRNA转录调控关系,综合表达量和靶向性两方面的数据挖掘TF-lncRNA转录调控网络。首先获得乳腺癌管腔A型、管腔B型、HER-2过表达型、三阴性基底样型、三阴性CL型高度相关的亚型特异性共表达网络中25、47、31、28、44对TF和lncRNA共表达关系,结合全基因组TF-lncRNA转录调控关系预测结果,发现五种亚型中分别有4、10、4、7、2对TF-lncRNA调控关系同时也共表达。例如在三阴性基底亚型模块中,关键lncRNA AC074351.1、LINC01667、AC008514.1、AC092920.1、ELDR被关键转录因子ARID5B调控,且已有文献报道。本文以lncRNA为主要研究对象,利用加权基因共表达网络和转录调控网络,从系统生物学层面研究不同乳腺癌亚型中的关键lncRNA以及lncRNA转录调控机制,构建乳腺癌亚型特异性的lncRNA转录调控网络。首先获得了全基因组尺度的lncRNA转录调控靶向网络。随后通过WGCNA加权基因共表达网络分析结合乳腺癌临床信息筛选到5个不同亚型特异性高度相关基因模块;接着从基因模块中挖掘到与乳腺癌管腔A型、管腔B型、HER2+型、三阴性基底样型、三阴性CL型相关的44、47、16、19、28个高连通性关键lncRNA,且富集分析得到基因参与Wnt信号通路、HIF-1信号通路等影响癌症发生发展的生物通路。并通过表达量分析,在高连通性基础上进一步挖掘到5个乳腺癌亚型中分别9、14、6、4、5个同时满足高表达且高连通性的关键lncRNA;也发现不同lncRNA在亚型间具有不同程度的特异性。最后结合共表达网络和靶向网络从25、47、31、28、44条TF-lncRNA共表达关系中进一步挖掘到4、10、4、7、2条共表达且靶向结合TF-lncRNA转录调控关系,并且其中部分涉及基因亚型特异性高表达。这些结果为后续研究乳腺癌及其亚型的分子调控机制以及新诊断标志物的发现提供了重要参考思路。