【摘 要】
:
CRISPR/Cas9作为第三代的基因编辑技术是目前基因操作应用中最有前途和最通用的工具,然而,最新的一些研究发现Cas9核酸酶有时会切割与靶基因相类似的基因序列,这种现象也被称之为脱靶反应。脱靶的不确定性会给被编辑的生物体带来不可预料的后果。对于计算机辅助程序而言,如果能够在生物实验之前预知脱靶反应的部位,不仅能提前做好出现不良反应的准备,也能根据预测结果筛选反应试剂,避免危险情况的发生。本文针
论文部分内容阅读
CRISPR/Cas9作为第三代的基因编辑技术是目前基因操作应用中最有前途和最通用的工具,然而,最新的一些研究发现Cas9核酸酶有时会切割与靶基因相类似的基因序列,这种现象也被称之为脱靶反应。脱靶的不确定性会给被编辑的生物体带来不可预料的后果。对于计算机辅助程序而言,如果能够在生物实验之前预知脱靶反应的部位,不仅能提前做好出现不良反应的准备,也能根据预测结果筛选反应试剂,避免危险情况的发生。本文针对CRISPR/Cas9中出现的数据少和类不平衡问题,提出了基于自监督学习的CRISPR/Cas9脱靶预测方法DNA-BERT和基于VAE数据增强的CRISPR/Cas9脱靶预测方法,具体研究工作如下:(1)基于自监督学习的CRISPR/Cas9脱靶预测方法:从海量的无标签基因数据入手,通过预训练任务让模型在无标签的基因组数据上进行自监督训练,并且在自监督学习的过程中融入生物特征信息以缓解有标签的数据少的问题。在文本预训练框架BERT的基础上提出了针对DNA序列的预训练模型:DNA-BERT,实验结果表明,DNA-BERT在公开数据集上较目前最优的Deep CRISR模型在各种评估指标上都有着提升,在ROC-AUC和Spearman相关系数上分别提高了13.07%和21.47%,尤其是在AUC-PR和加权Spearman相关系数这些能显著反应模型在不平衡数据上性能的指标上,相对于Deep CRISPR分别提高了52.8%和162%。这证明了本模型能够对CRISPR/Cas9脱靶位点进行有效地预测,同时也证明额外的预训练也能缓解类不平衡的情形。(2)基于VAE数据增强的CRISPR/Cas9脱靶预测方法:首先针对现有模型对碱基对的匹配信息提取能力弱的问题,提出了一种基于Pair编码的深度学习框架,使得模型能充分利用到sg RNA-DNA碱基对的匹配信息。同时,该编码方式也能够处理错配脱靶意外的类型。由于数据类别极度不平衡造成模型训练极不稳定,本文提出了一种基于变分自编码器的少样本数据增强方法。实验结果表明,在各种类型的数据集上,本文提出的方法H-VAE都能取得最好的效果,不仅在Mismatch数据集上有着提高,在新的Indels数据集测试场景下,相较于CRISPR-Net,在ROC-AUC和PR-AUC上分别提高1.53%和31.89%,这证明了H-VAE在各种场景下都能够提升模型的性能,从PR-AUC上的提高也能看出H-VAE能够显著地提高不平衡分类的效果。
其他文献
永磁同步电机凭借其功率密度大、能效比高的优势,在风机、压缩机、泵类、飞轮储能、高速离心机等领域大量应用。永磁同步电机控制系统采用位置传感器获得电机转子位置和转子速度,实现电机矢量控制。然而使用位置传感器增大了系统体积和复杂度,且其价格昂贵,可靠性低,不能满足工业上特定工况下高可靠性的要求,推动了无位置传感器控制技术蓬勃发展。带速重投是永磁同步电机无传控制的难点之一,首先需要使用带速重投方法观测出惰
关联成像是一种基于强度关联的成像技术,与传统成像技术相比,其具有非局域成像的特征以及提高成像分辨率的优势。在关联成像实验中,信号光路包含一个待成像的物体和一个不具备分辨率的探测器,信号光与物体作用后由该探测器接收。参考光路的探测器具备高分辨率,用来接收自由传播一段距离后的参考光。将两个探测器中的光强涨落信息进行关联计算,从而得到分辨率较高的物像或者衍射像。因此,关联成像在国防、光学信息加密、遥感、
透明天线在未来无线通信系统中有着重要的应用前景。它们可以应用于许多透明结构中,例如镜子、窗口或显示器。它们也可以用于一些可穿戴工具,如手表或眼镜。而材料又是设计透明天线非常重要的一点。首先,天线的成本与材料的加工难度取决于材料。其次,天线的性能很大程度上由材料决定。最重要的是,必须选用正确的材料才能保证透明天线的高透明度。许多材料已经被研究用于透明天线的设计,如掺氟氧化锡、氧化铟锡和氧化铟锌锡。然
随着网络制造技术的兴起,协同设计已成为工程设计的重要形式。工程图形作为一种重要的制造数据,在协作单位之间传递频繁。此外,对于军事、建筑、机械和服装等对载体精度有较高要求的场景,通常要求算法可逆。为方便协作方之间重要信息的传递,并确保工程图形在传递过程中的安全,二维CAD工程图形的低失真可逆信息隐藏算法具有重要的研究意义。本文首先介绍了二维CAD工程图形低失真可逆信息隐藏算法的研究背景及意义,然后对
随着经济的快速发展,徐海地区乡村的建设多注重经济社会效益,缺乏建筑对层面的关注和规范指导,使得乡村空间破碎、风貌杂乱和社交危机。乡村作为聚落的两种形式之一,同样是“人们记忆的场所”,这种记忆在发展过程中转换为乡村物质形态载体,成为乡村风貌的内在逻辑秩序,因此“集体记忆”成为本文的一个研究视角,试图探求一种有内在生成逻辑又符合徐海地区乡村发展定位的风貌营建策略,以期为徐海地区的现代乡村发展提供建议。
目前越来越多的工业机器人需要进行视觉识别,由于机器人本身的运算能力有限,一般需要将工业现场的机器人采集的视频传输至后端处理。然而由于现场的工业机器人控制实时性的要求,普通的视频传输时延无法满足其实时性的要求,因此如何提高视频传输在工业机器人远程控制系统的实时性和可靠性是一个值得研究的问题。最早用于美国海军的数据分发服务(Data Distribution Service,DDS),已成为实时系统的
随着互联网的发展和普及应用,共享理念逐渐兴起,并在衣食住行等生活的方方面得到了广泛的应用。同时,共享理念作为当前社会发展的重要理念之一,在很大程度上改变了人们的生活方式,“共享”已成为当今时代讨论的热点话题。在共享理念的背景下,当今大学生的居住行为特征和居住需求发生了改变,这在一定程度上阻碍了学生的成长与发展,需要探讨新的大学生宿舍空间模式设计方法以适应不断变化的学生需求。因此,本文围绕大学生宿舍
7050铝合金具有高强、高韧、耐蚀、高淬透性等性能优点,在航空、航天,国防工业及交通运输等领域具有重要的应用价值和广阔的应用前景。研究表明,具有纤维状晶粒组织和小角度晶界的7000系铝合金,强度、断裂韧性及耐腐蚀性能更佳。因此,如何获得高体积分数小角度晶界和未完全再结晶变形组织是提高合金综合性能的关键。7000系铝合金热模拟研究结果表明,增大应变速率能有效抑制合金的再结晶,得到纤维状晶粒组织。时效
随着物联网和无线通信技术的持续快速发展,各种智能设备和新型应用不断涌现,使得网络中的数据量呈指数级增长。一方面,云计算模式难以适应庞大的数据量传输带来的网络带宽高负荷问题,另一方面,新型应用计算密集性强、时延敏感度高,而远距离无线传输能耗大、时延高,大大降低了用户服务体验。边缘计算是有效解决上述问题的方案之一。然而,单个边缘服务器难以连续提供资源,随着接入到网络中的用户设备越来越多,运营商提出部署