基于深度学习的Cas9及变体sgRNA活性预测算法研究和工具开发

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:zonsun168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
CRISPR/Cas9系统介导的基因组定点修饰技术,已广泛应用于畜禽功能基因筛选与基因编辑育种等领域,经过突变与改造的Cas9变体与野生型相比具有低脱靶和拓宽PAM位点等优势。CRISPR/Cas9系统应用成功的先决条件是设计高效特异sg RNA。目前缺乏针对Cas9及其变体的sg RNA活性准确预测的算法,因而亟需开发一种能解析Cas9及其变体的sg RNA且具有高预测准确性的新算法。针对上述的问题,本研究收集了Sp Cas9与8种Cas9变体包含有e Sp Cas9(1.1)、Hypa Cas9、evo Cas9、Sp Cas9-VRQR、Sniper-Cas9、Sp Cas9-HF1、Sp Cas9-NG和x Cas9的sg RNA活性数据集,利用Lightgbm和注意力机制两种算法解析了针对Cas9及其变体的sg RNA序列特征与碱基组成的活性规律。由此研发了一个针对Cas9及其变体的sg RNA活性预测新算法(sg Rscore),并开发了一款适用于Cas9及其变体的sg RNA活性预测与脱靶评估的新软件(sg RNAcas9-AI),可广泛用于哺乳动物中设计sg RNA。主要研究结果如下:(1)利用sg RNA活性数据集,比较了标签编码(label编码)、独热编码(one-hot编码)和双核苷酸编码(two编码)这3种序列编码方式,增加靶标侧翼序列使sg RNA序列长度达20、22、24、26、28和30nt这6种情况下,在多层感知机算法(MLP)上sg RNA活性预测的准确性,发现靶标侧翼序列在Sp Cas9、x Cas9以及Sp Cas9-NG在3个变体中预测准确率平均提升了20%。(2)通过比较全连接神经网络(FNN)、卷积神经网络(CNN)、循环神经网络(RNN)、门控单元神经网络(GRU)以及长短期记忆网络(LSTM)这5种不同的神经网络在Cas9及其变体sg RNA活性数据集上的预测准确性,发现LSTM算法相比其他神经网络在数据集上有最高的sg RNA活性预测准确性。(3)使用Lightgbm算法提取序列的特征重要性对Cas9及变体的sg RNA不同位置碱基组成对活性预测影响进行评估,发现evo Cas9、Hyapa Cas9、Sniper-Cas9和x Cas9等4个Cas9变体,其sg RNA序列对sg RNA活性影响的碱基组成在各个位置分布均匀;而Sp Cas9、e Sp Cas9(1.1)和Sp Cas9-HF1 3个变体sg RNA序列对sg RNA活性影响的不同位置碱基组成规律相似性高,其他变体sg RNA序列对sg RNA活性影响的不同位置碱基组成有较大差异。(4)利用sg RNA活性数据集,构建了一个基于注意力机制的深度学习算法,通过提取训练模型中注意力权重系数来评估sg RNA序列对sg RNA活性的位置依赖型核苷酸偏好,发现sg RNA序列中碱基T会降低Sniper-Cas9的sg RNA活性,而sg RNA序列中碱基C会降低Sp Cas9-VRQR的sg RNA活性;进一步在基于注意力机制的算法中叠加LSTM算法,提取模型中的二阶偏好矩阵后发现,sg RNA活性受到sg RNA序列相邻碱基互作的影响。(5)基于Cas9及其变体sg RNA活性位置依赖型核苷酸偏好规律,开发了sg RNA活性预测新算法sg Rscore,与有代表性的6种sg RNA活性预测算法Deep Cas9、Deep Sp Cas9、Deep Sp Cas9variants、CNN-SVR、C_RNNCrispr和Deep HF进行比较,发现sg Rscore算法在sg RNA活性数据集以及Chuai2018独立数据集上有更高的预测准确性。(6)进一步开发了能适用Cas9及变体变体的sg RNA设计需求的新软件sg RNAcas9-AI,与CRISPRpick、CHOPCHOP、E-CRISP和CRISPOR这4个代表性的软件比较,发现sg RNAcas9-AI软件在Kim2020-NBE-lenti293T数据集上有更高的预测准确性。与CRISPRseek、cas-offinder以及off-spotter这3个sg RNA脱靶评估软件相比,sg RNAcas9-AI软件具有更快的脱靶计算速度。通过实验鉴定发现,sg RNAcas9-AI软件对sg RNA活性预测值与基于实验检测的sg RNA活性呈正相关(0.77),表明sg RNAcas9-AI软件预测sg RNA的活性准确性较高。总之,本研究基于Cas9及其变体sg RNA活性数据集,通过深度学习方法阐明了Cas9变体的sg RNA序列对其活性的位置依赖性核苷酸偏好规律,开发了针对Cas9及其变体sg RNA活性预测算法,进而研发了能适用于Cas9及变体的sg RNA设计的新软件,为利用Cas9及变其异体开展猪的功能基因研究和基因编辑育种提供了新工具。
其他文献
猪是重要的农业经济动物,由于其体型、器官大小和人类较为接近,也被广泛应用于人类疾病研究、药物反应测试和治疗的替代模型。在基因组水平上,猪的基因序列与人类和小鼠高度相似,受限于有限的基因注释信息,猪的基因功能研究往往会参考其在小鼠或人基因组上的同源基因信息,该做法往往缺乏足够的科学依据。基因功能的发生关键在于其转录与表达,基因表达调控模式的相似性更能代表功能的相似性。先前的研究表明,功能基因往往是共
学位
氨气是一种有毒气体,主要产生于畜禽场、化肥厂或田间施肥。长期或高浓度的氨气暴露,会影响人和动物的健康,导致动物生产力下降,甚至引起个体死亡。肺是呼吸道的终末器官,在维持机体健康方面扮演重要角色。肺也是氨气的重要靶器官之一。本课题组前期研究发现,与对照组相比,15 mg/m~3和38 mg/m~3氨气刺激仔猪30天以后,仔猪肺部出现了细胞外基质成分增多、肺泡间隔增厚等结构性病变。本研究通过转录组学分
学位
在胚胎性腺中,支持细胞是最先进行分化的体细胞,其对公猪生精过程及睾丸发育具有重要作用。公猪产生精子的能力受到成熟支持细胞数量的限制,而成熟支持细胞的数量是由未成熟支持细胞的增殖活力决定的。已有部分研究表明环状RNA对支持细胞增殖或凋亡有关键调控作用,然而目前鉴定出的大部分环状RNA其功能仍是未知的。本研究鉴定了circ01801的环状结构,检测其在不同时期梅山、杜洛克与大白公猪睾丸中的表达水平,利
学位
绵羊作为短日照动物,通常在秋冬季节集中发情,在次年春天集中产羔。这种季节性繁殖的特性限制了其繁殖效率,从而极大地限制了肉羊出栏量。因此,研究季节性繁殖的内在原因至关重要。CRY基因与哺乳动物季节性繁殖密切相关,本研究以哺乳动物CRY为研究对象,分析其起源与分化,以及在季节性繁殖哺乳动物中的选择压力。从转录水平分析CRY1基因在湖羊初情期前后性腺轴中的变化,并研究了CRY1基因的核心启动子区。主要结
学位
由灰葡萄孢引起的灰霉病每年对我国果蔬生产造成严重损失,目前生产中使用化学杀菌剂仍是防治该病的主要手段。灰葡萄孢具有较高的抗药性风险,解析灰葡萄孢对杀菌剂的抗性机制和抗性快速检测技术的研发具有重要现实意义。苯胺基嘧啶类杀菌剂(APs)是一类对灰霉病高效的杀菌剂,但相关抗性机理尚不明确;苯并咪唑类杀菌剂(MBCs)是防治灰霉病的常用药剂,生产中已经产生抗性。本课题从AP类杀菌剂抗性相关候选基因功能分析
学位
鸡毒支原体(Mycoplasma gallisepticum,MG)是引起鸡慢性呼吸道病(CRD)的病原体,在世界范围内广泛流行,且常与其他病原微生物混合或继发感染,给家禽业造成巨大的经济损失。目前生产上治疗CRD的主要措施之一是使用抗生素,但抗生素极易造成耐药菌株的产生,且引起禽产品药物残留,严重威胁公众的健康。中草药具有显著的杀菌、抗炎、提高机体免疫力,且长期使用不易产生耐药性的特点,是一个替
学位
随着人们对肉的需求量越来越大,肉制品安全问题引起了广泛关注,一些不法商家甚至使用猫、狗、狐、水貂等常见食肉目动物的肉进行掺假售卖。据报道,猫、狗、水貂等食肉目动物具有感染和传播新型冠状病毒(Severe acute respiratory syndrome coronavirus-2,SARS-Co V-2)的风险,且是多种人畜共患病的宿主,食用这些肉容易造成疫病传播,给人们的健康带来隐患。目前已
学位
在汉代统一多民族国家政权的巩固过程中,东汉社会文化也伴随着汉族与少数民族之间的关系发展而变迁。基于儒学和道教发展兴盛的文化背景,砖铭文字资料作为一种客观历史存在,其内容涉及许多社会文化层面,包括民间生活状况、民俗信仰、丧葬礼仪等,这些砖文刻写粗糙,不拘成法,是区别于历代经典书法的另一种创造。因此在传统学问与现代学科之间,东汉砖铭所传递的古代社会文化信息、古代书法艺术特色是我们今人探索东汉史学的重要
学位
在畜牧生产中,动物受到应激后通过下丘脑-垂体-肾上腺轴分泌糖皮质激素(Glucocorticoid,GC),作用于身体各个器官,直接影响畜禽屠宰后的肉质性状。糖皮质激素常通过与转录因子糖皮质激素受体α(Glucocorticoid Receptorα,GRα)结合,调控下游基因发挥作用。畜禽应激后常导致滴水损失发生改变,其改变将影响肉的营养风味甚至带来经济损失。细胞骨架蛋白的降解能够影响滴水损失的
学位
油菜作为一种重要的油料作物,是我国植物油的主要供应源。随着种植面积的减小和植物油需求量的增加,高含油量成为油菜育种的重要方向,超高含油量的油菜种子所占市场份额逐年增长。高含油量的油菜种子在带来可观的经济效益的同时,在某些逆境条件下却表现出较弱的生活力,如萌发力弱、不耐渍涝等现象时有发生。本研究采用了一些物理、化学的方法,在不破坏油菜种子结构和不影响正常萌发的前提下降低了油菜种子含油含量,提升了油菜
学位