【摘 要】
:
DNA测序技术的发明改变了近现代分子生物学以及生物化学研究的走向,而人类基因组计划作为基因组学上的里程碑,为后续的基因组研究奠定了坚实的基础。与此同时,测序技术的高速发展大大降低了大型基因组测序的成本,这使得近年有更多物种的基因组进行全基因组测序。并且,近些年出现的第三代长测序技术由于在序列通量和读长上的提升进一步加速了基因组测序的速度。其中,牛津纳米孔公司推出的Nanopore测序技术由于其较低
论文部分内容阅读
DNA测序技术的发明改变了近现代分子生物学以及生物化学研究的走向,而人类基因组计划作为基因组学上的里程碑,为后续的基因组研究奠定了坚实的基础。与此同时,测序技术的高速发展大大降低了大型基因组测序的成本,这使得近年有更多物种的基因组进行全基因组测序。并且,近些年出现的第三代长测序技术由于在序列通量和读长上的提升进一步加速了基因组测序的速度。其中,牛津纳米孔公司推出的Nanopore测序技术由于其较低的价格,以及较长的测序序列读长得到了广泛的推广。但是,由于其较高的错误率,由此技术产生的基因组序列中可能会存在一些碱基级别的错误。虽然,之前有研究工作者对Nanopore技术的错误率进行了研究,但是,并没有将其与传统的Sanger测序方法进行系统性比较研究。因此,为了探究基因组测序中最终在碱基水平测序错误产生的原因,以便寻找应对方法,本研究利用BAC宿主细胞中只含有低拷贝外源片段以及其包含的外源片段长度可达150 kb左右的天然特性优势,用不同方法对来自摩擦禾(Tripsacum dactyloides)和大刍草(Zea mays ssp.parviglumis)的两个BAC克隆进行了测序和比较分析。首先选用传统金标准的BAC shotgun方法对这两个BAC克隆进行测序和序列组装。其次,通过自建illumina测序文库的方式对BAC克隆进行双端150 bp的二代测序,此序列作为矫正序列,结合经典Sanger拼装结果得到标准的参考序列。通过使用ONT Min ION测序仪,在使用R9.4.1芯片的情况下对BAC克隆进行连接法和全长测序。对Nanopore产生的原始序列,使用Albacore和最新的Guppy方法进行碱基识别得到基于Nanopore的fastq序列。在提取BAC全长5X,10X,17X,30X,50X,100X,200X,500X,1000X倍覆盖度后,对提取后的Nanopore序列使用canu,Flye,HINGE,NECAT,ra,shasta,wtdbg2进行序列拼装后进行质量评估。最后对每个拼装软件产生的结果,选取部分高质量值的特征结果依次使用racon,medaka进行基于Nanopore自身序列的矫正,再使用pilon进行基于illumina数据的序列矫正。最终和经典Sanger测序产生的BAC序列进行比较。在上述过程中,分别获得了长度168672 bp以及146066 bp的BAC参考序列级别高质量序列。在Nanopore BAC全长测序中成功获取了长度超过160 kb和140 kb的原始序列。在对Nanopore序列进行Albacore和Guppy碱基识别研究时,发现Guppy碱基识别方法相对Albacore碱基识别方法能够将Nanopore序列的原始序列质量值提升3%-4%。而在对Sanger,illumina以及Nanopore进行错误产生原因分析时,发现三种技术在k-mer分布上都有一定的系统偏好性。其中Nanopore在“GGGGG”k-mer的大比例变化较为常见。之后,在Nanopore的长序列拼装及矫正过程中,发现了Nanopore的最终拼装序列和其参考序列在碱基水平上的差异可能与Nanopore原始序列中“GGGGG”k-mer的大比例变化有关。利用获取的BAC全长序列完成了ADH1基因区段的共线性分析,发现玉米B73以及玉米SK在ADH1区段之间存在一定的序列差异性。通过上述研究得出结论,在玉米亲属区域基因组测序中使用Nanopore测序方法,能够得到与金标准Sanger方法高度一致的序列,而Nanopore与传统Sanger方法在最终基因组中产生的序列差异大概率是由于其自身原始序列中的系统误差所产生。
其他文献
随着化石能源的逐渐消耗殆尽以及日益严重的环境问题,人们逐渐将目光转向高效、清洁、可循环利用的新能源。而氢能具有能量密度高、环境友好型等特点,有望成为未来的能源主体。电解水是制备氢气最有效的方法之一。目前商用的电解水催化剂以铂、钌等贵金属为主,但有限的地壳储量和较高的成本限制了其在商业上大规模使用。镍作为一种过渡族金属,其储量丰富,具有独特的电化学性质和稳定性,是作为电解水催化剂的优良材料。本文以镍
生物多样性是地球生命的基础,昆虫多样性监测与评估是衡量生态环境质量的重要组成部分。武陵山区湖北地区来凤县和鹤峰县特有的地理环境与气候条件造就了当地丰富的昆虫资源,本研究采用样线踏查法、灯光诱集法和马来氏网法三种调查方法,于2019年-2020年对来凤县和鹤峰县开展了三次大规模的昆虫多样性本底调查,并分析了来凤县和鹤峰县昆虫多样性指数和评估其威胁因素,研究结果如下:1.来凤县和鹤峰县昆虫种类组成及多
鳜(Siniperca chuatsi)作为肉食性鱼类的典型代表对饵料中蛋白质的需求要明显高于草食性、杂食性甚至部分肉食性鱼类,不同规格水产动物对饵料中蛋白质的需求有较大的差异性和品种特性。随着鳜饲料养殖模式和技术的不断突破和改进,为了更好的降低养殖成本、提高饲料利用效率和减轻尾水排放,探索和明确鳜不同生长阶段对蛋白质的适宜需求量非常关键。为此,本实验以三种不同规格的鳜为研究对象,进行为期八周的生
杂草稻是指在稻田中与栽培稻伴生,既拥有栽培稻的某些特征,同时也具有一些野生稻的特征,与栽培稻和野生稻都有一定相似性的特殊杂草。杂草稻在长期的进化历程中,积累了较多的抗逆性状,对不利环境的抵抗能力较高,同时也积累了比较丰富的遗传多样性。杂草稻与普通栽培稻基因组同源性高,形态和生理生化特性相似性高,人工除草和化学除草剂防除难度很大。由于杂草稻具有穗大粒多等有利性状,也可作为栽培稻遗传改良的重要种质资源
在本研究的前期工作中,分别利用RNA-Seq和Microarray技术进行了华癸中慢生根瘤菌7653R在自生条件以及在根瘤共生状态下的转录组测序,获得了3000多个在自生和共生状态下差异表达的根瘤菌基因。本研究选择上调表达差异倍数为前25的两个基因MCHK_RS31355、MCHK_8170,以及表达差异倍数大于20的相邻两个hub基因MCHK_0866和MCHK_0867,构建了基因突变菌株和互
STEM教育强调跨学科和做中学,在真实的问题情境中进行跨学科的融合和问题解决,STEM教育的教学评价不仅要关注学生创造的结果,还要关注学生体验和实践的学习过程。在这种背景下,本研究将电子档案袋评价引入STEM课程,引导学生收集STEM学习单、学习日志、作品与其他学习证据,并对这些证据开展评价从而了解学生在学习过程中的思考路径与学习效果。本研究首先根据档案袋评价和STEM教育的相关理论对基于档案袋评
近年来,在政府对数字医疗创新的支持下,越来越多的医药企业开启数字化转型之路。医药企业尝试通过数字化手段促进业务发展,创新优化运营,探索挖掘新模式。但深入研究发现,目前绝大多数企业的数字化转型还处于初级阶段,对数字化转型存在着概念不清晰、资金投入不到位以及顶层规划缺失等情况。企业如何进行数字化变革及如何通过数字化变革增强业务人员的专业技能,从而实现数字赋能业务,是一个亟待解决的问题。本文以作者所在企
随着科学技术的发展,OCR识别技术在生产生活中的应用愈发广泛。本文在对仓储物流行业进行深入了解的基础上,研究了大量需要人工处理的单据,以及由此而损失的耗材成本、人工成本、时间成本,主要目标是研发一种基于文字识别的CFS系统。通过采用基于机器学习的文字识别技术,为前台人员提供更高效的数据录入途径并简化单据审核。该系统将自动识别客户所提供的进仓通知、货物信息等图像数据,对其进行有图像处理和分析,最终将
海南常受到灾害性海浪侵袭,灾害性海浪预测是防灾减灾的重要组成部分。台风是海南近海海域灾害性海浪的主要来源,通过机器学习方法,开展台风引起的灾害性海浪预测研究,对海南近海海域的防灾减灾工作有着重要的指导作用。目前国内外在灾害性海浪预测的研究工作主要集中于开发物理数值模型,缺点是运算效率低,时效性差。针对这一实际问题,分析台风对海浪波高的影响,构建海浪波高预测模型,进一步结合实际应用,利用台风离散数据
随着中国经济的快速发展,国内企业的业务规模不断扩大,企业的业务流程复杂度也随之增加。为了适应时代的发展,更多的企业引入工作流技术管理业务流程,在工作流技术中,工作流模型是业务流程流转的基础,工作流模型结构的正确性直接关系到业务流程流转的正确性,如果错误的工作流模型结构投入到企业的生产环境中,将会给企业带来不可估量的损失。因此在业务流程流转前,需要对其工作流模型结构进行验证,确保业务流程以正确的工作