论文部分内容阅读
文献挖掘是一种能够从文献中抽取、整合并发现知识的高效工具,而且它能够快速处理大量文献并获得某一特定领域的知识信息。生物医学文献数据库因涵盖了生命科学的绝大部分领域,所包含的文献数量巨大,而成为全世界生物信息挖掘的一大源泉。繁殖性能是影响养猪业的重要经济性状之一,然而猪的基因组测序还没有全部完成,已确定的对猪繁殖性状有影响的基因不多。大多数研究者通过查阅人及模式生物小鼠、大鼠等的生殖相关文献来确定候选基因进而采用候选基因法进行相关研究。然而面对海量的生殖相关研究文献,单个研究者不可能全部阅读,更不可能完全掌握所有的基因及其之间的关系。因此,我们从比较基因组学的角度,以人类生殖相关基因作为猪繁殖相关的候选基因,运用生物自然语言处理技术和Swanson理论对MEDLINE数据库中的数据进行文献挖掘,构建了ReCGiP数据库,同时为了检验该数据库的有效性,以所获得的个别重要基因为例,对其进行分子进化和功能分化分析及实验验证。具体研究内容及结果如下:
1.猪繁殖性状候选基因的文献挖掘通过文献挖掘获得了以精子形成、卵子形成、受精、胚胎着床前发育、胚胎着床和胎盘发育六个生殖主要过程为主题的一系列可作为影响猪繁殖性状候选基因的主题相关基因,并针对这六个主题分别构建了基因同现网络,整合了相关的文献、GO注释和KEGG通路等信息,构建了猪繁殖性状候选基因数据库(Database of ReproductionCandidate Genes In Pigs based on bibliomics,ReCGiP),用户可以通过网址http://klab.sjtu.edu.cn/ReCGiP对ReCGiP数据库进行访问。ReCGiP数据库还包括经自然语言处理和人工筛查的与繁殖过程和繁殖性状(如产仔数、出生活仔数和乳头数等)相关的猪的基因和文献信息。
2.HIF-α基因家族的分子进化选择和功能分化分析依据ReCGiP数据库,对所获得的六个主题的相关基因进行生物通路富集分析,发现血管内皮生长因子(VEGF)信号通路是诸多通路中的一个富集通路,该通路在生殖过程中有重要作用。同时,我们发现基因VEGFA是精子形成、卵子形成、受精、着床和胎盘发育5个生殖主要过程中的重要基因,而缺氧诱导因子1α(HIF1A)是胎盘发育过程中的重要基因。VEGFA是血管生成中最主要的血管新生调节因子,对血管的生成和渗透能力有重要作用,是诱导着床和早期妊娠血管变化的重要基因。而缺氧诱导因子α家族是一转录调控因子家族,该家族成员对VEGFA有调控作用。因此,我们认为VEGFA和HIF-α基因家族成员可能是影响猪繁殖性状的重要基因。有鉴于此,我们首先采用三种假设条件不同的模型对脊椎动物HIF-α基因家族的DNA序列数据进行分析,估计分子替代率、确定选择压力。同时应用TreeSAAP程序和DIVERGE程序算法研究影响HIF-α基因家族进化的选择压力、预测重要的选择位点。结果表明,基因复制是HIF-α基因家族三个成员形成的原因。而且通过对氧基酸理化性质变化评估和采用最大似然法检测发现对HIF-α基因家族进化起主要作用的是纯化选择。此外,HIF-α基因家族成员两两成对比较表明该基因家族发生系统分化后可变的功能约束发生在一些特殊的氨基酸位点。这些发现可以为进一步的实验验证提供参考。
3.HIF-α基因家族和VEGFA基因多态性与猪繁殖性状的相关研究在对HIF-α基因家族的分子进化选择和功能分化分析的基础上,我们运用直接测序法在猪中寻找基因HIF1A、EPAS1、HIF3A和VEGFA的多态位点,同时采用PCR-RFLP方法进行多态位点的检测及分子标记与性状的关联分析研究,获得4个基因的片段长度分别为4245bp,4010bp,802bp和2562bp。使用生物信息学方法和辐射杂种克隆板将基因HIF1A定位于猪1号染色体长臂,具体核苷酸序列位置是199605043bp~199827355bp;基因EPAS1定位于猪3号染色体长臂11-14区,具体核苷酸序列位置是87502103bp~87601420bp。在基因VEGFA的扩增片段中共检测到17个多态位点,其中有4个位点可以进行PCR-RFLP检测。在梅山猪保种群和法系大白猪群体中对VEGFA基因的4个多态位点进行基因型频率及等位基因频率分析,结果表明:VEGFA基因的BstH2I、Eco32I、PspEI三个多态位点在梅山猪中A等位基因占优势,BcnI多态位点在梅山猪中B等位基因占优势,而在法系大白猪中VEGFA基因的BstH2I和PspEI多态位点相关的A等位基因频率为0,Eco32I和BcnI多态位点相关的A、B等位基因频率均不到1%。单倍体型推断结果表明VEGFA基因4个多态位点在梅山猪群体中共存在10种单倍体型,而在法系大白猪群体中只存在2种单倍体型BBBA和BBAB,且只有一个个体的单倍体型是BBAB。通过性状关联分析,发现梅山猪群体中VEGFA基因单倍体型BBBA对初产总仔数影响显著(p<0.05);单倍体型BABA对经产总仔数和经产活仔数影响显著(p<0.05);单倍体型BBAA对初生窝重影响显著(p<0.05)。
VEGFA基因4个多态位点的等位基因频率和基因型频率在梅山猪保种群和法系大白猪群体中分布差异显著,而且VEGFA基因的单倍体型BBBA、BABA和BBAA分别对梅山猪群体的初产总仔数、经产总仔数与经产仔数、出生窝重四种繁殖性状有影响,上述试验结果证明我们所建立的基于比较基因组学的通过文献挖掘获得猪繁殖性状候选基因的途径是行之有效的。我们所搭建的平台--ReCGiP数据库,为进行猪繁殖性状候选基因分析及标记辅助选择,进而改良猪繁殖性能的研究提供了坚实的基础。