论文部分内容阅读
研究背景乙型病毒性肝炎是由乙型肝炎病毒(Hepatitis B Virus, HBV)引起的、以肝脏炎性病变为主,并可引起多器官损害的一种疾病。乙型肝炎病毒感染造成的乙型肝炎,以及乙型肝炎相关性疾病如肝硬化、肝细胞癌等肝脏疾病严重威胁着人类健康,已经成为全球公共卫生的重大挑战。乙型肝炎病毒是属于嗜肝DNA病毒科的一种部分双链环状DNA病毒,基因组全长只有约3200bp,是已知最小的DNA病毒。至今为止,依据乙型肝炎病毒的遗传异质性,按HBV基因组全长序列的差异大于8%的标准,HBV可分为8个公认的基因型A-H。另外尚有2个暂时命名的基因型:由A/C/G型重组形成的I基因型和1例分离自日本的不属于已知A-I基因型和4种猿类HBV的病毒株形成的J基因型。另外根据基因组全长序列的基因异质性大于4%的标准,在基因型内还可细分为不同的基因亚型。伴随种族的不同和人口迁徙的历史原因,HBV基因型具有明显的地理分布特征:基因型A主要分布于欧洲、北美、南美及非洲地区,基因型B和C主要分布在东亚和东南亚地区,基因型D呈全球分布性趋势,尤其流行于地中海地区、中东、南亚和大洋洲,基因型F主要分布于中美洲和南美洲,基因型E、G和H则一般分别局限分布于撒哈拉以南非洲、美国和中美洲地区。近年来在越南、老挝、印度和中国西南地区陆续发现了新的疑似基因型I的HBV流行株。基因重组在HBV不同基因型间并不少见,如广泛分布在东南亚地区的Ba基因型病毒株被普遍认为是由B和C基因型重组形成的。随着生物信息学技术的发展及基因重组探测软件的出现,基因型之间的重组事件在HBV相关性的系统进化分析研究中被相继发现,例如中国西北地区和印度的C/D重组体,意大利和南非的A/D重组体,非洲喀麦隆的A/E重组体、泰国的C/G重组体等。然而,不同基因型之间的重组机制到目前为止仍未明确,基因重组被认为是HBV基因变异的重要机制之一,同时也是基因进化过程中的重要动力。研究目的中国是个HBV高感染率国家,有必要对中国地区的HBV基因组进行一次全面系统的重组体筛查,因此,本文旨在运用生物信息学方法探索中国地区的HBV基因型之间的重组事件、重组位点和分布规律。对象和方法本次实验以HBV基因重组的片段分型法为基础,通过进一步改进,对中国地区的人HBV基因型重组进行检测鉴定,具体方法如下:首先从NCBI的GenBank中下载来自中国包括香港和台湾地区的人HBV全基因组序列,截止时间是2013年11月20日。从数据库中相关的序列详细信息及相关文献中获得每条基因组序列的资料,并通过实验对象纳入标准即排除基因组序列全长少于3000bp及未知核苷酸数多于50的序列,剔除不同版本的相同序列和人工突变的全长序列。构建中国人HBV基因全长序列数据库,合计得到1642条序列用于本实验的重组分析,将所有核苷酸序列的起点调整至EcoRI位点,便于序列比对。然后通过GenBank中HBV全基因组序列资料和序列相关参考文献中已知的基因型信息,下载每个基因型的所有序列并通过这些序列建立8个基因型A-H的一致性序列。运用MEGA5.21软件中的Muscle方法比对8条基因型一致性序列,将比对后的一致性序列切割成13个片段,每个片段约为250bp。以此104个一致性序列片段为数据库,用1642条来自中国的HBV全基因组序列对该数据库做blast分析,按照最大序列相似性原则,得到每条全长序列上的对应数据库中一致性序列的片段的最可能基因型,因此每条全长基因组序列的基因型都可以表示为13个相应片段的基因型组合。并分析每条HBV全基因组的基因型组合,若序列基因型组合的13个基因型不一致则考虑为疑似重组序列,进入下一轮重组筛查。剔除13个基因型一致的全长序列,剩余的序列再次进行多重比对,并将比对后的序列切割为13个片段。以8条一致性全序列为数据库,用二次筛查中切割的所有片段对此数据库做Blast分析,若每条序列的13个片段的最大可能基因型全部一致,则不考虑为重组序列;反之,则考虑为疑似重组序列,序列13个片段中占较小比例的非一致基因型的片段作为疑似重组片段进一步通过系统发育分析校正片段基因型。利用MEGA5.21软件,与8条一致性全长序列,每个基因型随机2条全长序列及1条外群序列的相对应片段构建系统发育进化树。最后运用Simplot软件对疑似重组序列进行重组事件的鉴定,以疑似重组序列与2条亲本一致性序列和1条外群序列运行程序确定重组序列的精确重组断点。并按照重组位点将这些疑似镶嵌片段从基因组上切割下来,与各个基因型参考序列的相应片段建立系统发育进化树,以进化树中镶嵌片段与相应基因型所有参考序列片段构成独立支系的自展支持率大于75%为标准,来确保重组事件的可信度。结果本次研究囊括了目前GenBank中已登记的所有来自中国包括香港、台湾地区共计1642条人HBV全基因组序列,经过片段分型法分析确定所有全基因组序列的基因型及基因型间重组。1642条HBV序列基因型的分型如下:A型8条(0.5%),B型634条(38.6%),C型935条(57.0%),D型30条(1.8%),I型35条(2.1%),未发现E-H4种基因型。5种基因型中,B基因型和C基因型为绝对优势基因型,所占比例高达95.6%,其中B基因型中全部为Ba亚型,未发现纯B基因型,即Bj亚型。本次分析检测出755条HBV重组序列:B/C重组型676条,C/D重组型75条,A/C重组型3条,C/I重组型1条。总共涉及31种重组体,其中4种重组体为首次发现,均为B/C重组型:BBBBCBBBCNBBB, CBCCBBBBCNBBB, CCCCCCCCCCCBC, CBCCNNBCCCCCC。所有来自中国地区的重组体均涉及C基因型的参与。通过Simplot软件分析,本次研究检测出的31种重组体的代表序列的断点位置均已精确定位。根据每种重组体的断点位置对应HBV全基因组形成的重组断点分布情况,与既往报道的HBV基因重组的热点区域基本一致。结论本文首次完成了对GenBank中已登记的所有来自中国地区的人HBV全基因组序列进行基因型间重组的检测。本实验运用片段分型法,以序列相似性原则为基础的Blast搜索结合系统发育进化分析,并利用Simplot软件鉴定重组事件及断点,适用于大规模的重组分析,降低计算量及时间成本。HBV基因型因地理和种族的不同而在世界各地有着明显的分布差异。在中国流行的基因型主要是A、B、C、D,其中C基因型为优势基因型,并主要分布在我国北方地区,其次是B基因型,在南方地区较为普遍,而D基因型则局限于西北新疆地区,较为少见,A基因型最为少见。这与本次实验确定的基因型分布情况基本一致。本文共检测出755条重组全基因组序列,占全部1642条序列的46%。31种重组体中,71%(22/31)的重组体为B/C型,C/D型为16.1%(5/31),C/A型为9.7%(3/31),C/I型为3.2%(1/31)。有报道称C基因型在HBV基因型间重组中具有较高频率的倾向性,本次中国地区检测出的重组体均有C基因型的参与符合这一特点,同时C基因型在中国地区的广泛流行,与A、B、D、I基因型的混合感染发生率较高,进而涉及重组的机会可能增加。634条B基因型序列全部经鉴定为B/C重组型,由10种重组体组成。本次研究尚未发现纯B基因型,即Bj亚型序列,而BBBBBBBBCNBBB重组体鉴定的624条序列全部都在前C/C区域与C基因型重组,可以归类于分布亚洲的Ba亚型。另外9个属于B基因型的重组体亦有重组片段覆盖于前C/C基因区域,其中有7个B/C重组体出现了二次重组。由于本次在中国地区并未发现Bj亚型,因此出现二次重组的B/C重组体更有可能是流行于中国的Ba亚型与C基因型重组的结果,而非纯B基因型与C基因型重组的结果。类似的情况也出现在本次研究检测出的C/I重组体上,普遍认为I型是由A、C、G基因型疑似重组而形成的新兴基因型,在此基础上,I基因型和C基因型的混合感染可能导致C/I重组体的发生,并非只是C基因型的重组位点不同而一次重组形成的A/C/G重组体,这种推测还需更多类似重组序列的发现加以证实。本次研究表明C/D重组体是中国地区仅次于B/C重组体的重组类型。西藏、青海及川西地区因其独特的高原环境,种族上与流行D基因型的南亚印度等国比较接近,而甘肃、新疆是历史上著名的丝绸之路的必经地区,连接欧亚大陆,同时作为维吾尔族和回族的聚居地,在种族上也与D基因型较为普遍的中亚各国更为接近。不同条件下与中国北方地区主要流行C基因型的汉族的融合可能导致了C/D重组体的不同特点。本研究主要分析了GenBank中来自中国的人HBV基因组全长序列的重组体,总结了所有重组体的重组位点信息,为HBV的遗传进化分析、重组机制的进一步的研究提供参考依据。