基于表征策略和机器学习的单细胞转录组分析

来源 :浙江大学 | 被引量 : 0次 | 上传用户:vcnewer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单细胞分析能够揭示细胞层面的生命活动机制,被广泛应用于生物学、药学和医学等生命科学领域。随着人类基因组计划的完成和下一代测序技术的发展,单细胞转录组学逐渐成为单细胞分析最常用的工具。近年来人工智能技术的发展,使得机器学习在单细胞转录组学中的应用受到了广泛关注,其主要分为面向测序数据的研究和面向生物学实体的研究。面向测序数据的研究处于单细胞分析的上游,为下游的面向生物学实体的研究提供数据质量保障,高通量测序过程中产生的异常二聚体检测是其中的重要研究方向。面向生物学实体的研究如细胞对扰动因素的反应预测等则是对具体生物学对象和机制的研究。然而由于缺乏合理有效的数据表征策略,单细胞转录组数据的高维、无序和稀疏等特性严重影响了机器学习方法的应用。本研究以表征策略的创新为切入点,提出了一种基于三维复合表征的二聚体检测深度学习算法So Cube进行异常二聚体检测剔除,并进一步提出了一种基于折叠表征的细胞扰动反应预测算法sc Pert,进而实现了从不同任务视角较为全面深入地探究单细胞转录组学数据表征策略和机器学习算法设计。二聚体是在高通量测序过程中产生的多个细胞叠加的异常信号,它的存在会干扰后续的差异表达分析、细胞轨迹推断和细胞扰动反应预测等任务,并限制了测序通量的提升。So Cube提出了一种新型的三维复合表征策略,将原始的单细胞转录组学数据转为三维特征,既挖掘了基因之间的关联性信息,又解决了原始数据的稀疏性问题。并设计了与表征策略配套的多核多通道集成卷积神经网络架构来识别二聚体。So Cube在16个基准测试数据集上进行了充分的性能评估,结果表明So Cube在10/16的基准测试数据集上达到了最佳性能,显著优于过往的二聚体检测算法Doublet Finder(2/16)、sc Dbl Finder(3/16)和Solo(2/16),从而有效减少二聚体对后续任务的负面影响。通过对So Cube学习得到的特征进行的可解释性分析,验证了So Cube确实能够捕捉到基因之间的生物学关系。因此So Cube算法是一种有效的二聚体检测算法,其提出的三维复合表征策略是算法性能提升的关键。So Cube算法已被开发为命令行软件,并开源至Git Hub(https://github.com/GCS-ZHN/socube/)。细胞对外界的扰动因素会产生反应性变化。通过预测这种反应性变化能够有助于研究细胞层面的各种生物学机制。但由于单细胞转录组的数据维度高,多数算法需要对数据进行降维处理。这种方式会导致信息不可逆丢失而不利于细胞扰动反应预测这类高维回归任务。sc Pert设计了一种折叠表征策略,避免降维损失的同时,使得模型能够在有限的计算资源下正常训练。相应设计的CNN-Transformer复合模型架构,能够在折叠表征数据上有效地利用自注意力机制整合基因之间的关联性信息。同时,sc Pert创新性地提出了一种基于距离相似性的扰动关系映射策略,能够为训练集中不同状态的细胞之间建立映射关系,从而将此前相关算法的无监督学习过程转化为监督学习过程。sc Pert在多个维度上的性能评估说明了sc Pert算法设计的有效性。对sc Pert算法的生物学解释性分析表明,sc Pert能够捕获在扰动反应过程中发生关键性作用的基因,这解释了sc Pert算法的生效机制。因此,sc Pert算法是一种有效的细胞扰动反应预测算法,其折叠式表征策略和数据映射策略使得模型能够在有限计算资源下有效捕捉特征所包含的生物学信息。sc Pert算法被开源于Git Hub(https://github.com/GCS-ZHN/sc Pert/)。本研究认为,表征策略与机器学习算法设计既要将生物学知识与算法原理相结合,又要充分考虑到具体任务的特点,还要充分考虑到计算资源的有限性。一套合理的表征策略与机器学习算法设计,能够挖掘数据中隐藏的生物学信息,最大化利用有限的计算资源和经典机器学习模型的学习能力,从而有助于突破单细胞转录组学各类分析任务的研究瓶颈。本研究所提出的So Cube算法和sc Pert算法,不仅能够有效地解决相应的问题,同时也能迁移应用其设计思路和表征策略到其他基于机器学习的单细胞分析任务中。
其他文献
<正>截至2019年一季度末,我国高铁累计运输旅客超过100亿人次,累计完成旅客周转量3.34万亿人公里。同时,我国铁路客运周转量、货运发送量、换算周转量、运输密度等主要运输经济指标稳居世界第一位。近年来,在党中央的坚强领导下,中国高速铁路快速发展,走出了一条具有中国特色的高速铁路发展道路。
期刊
光伏发电面临间歇性、随机性和波动性等问题,大规模并网可能会给电网运行带来安全性和稳定性挑战。本文提出利用不同特性的储能元件组成混合储能系统,通过与光伏电站优势互补,组成光储混合系统,以期达到有效平抑光伏并网功率的波动的目的。建立了光储混合系统中光伏电池、铅炭电池和超级电容器的数学模型,其中光伏电池模型表现出良好的I-U特性和P-U特性,铅炭电池展现良好的储能能力,超级电容器具备快速充放电能力,进而
学位
降低用电碳排放是“3060”目标的重要组成部分,随着“双碳”实践不断向精准控碳方向演进,准确计量用电碳排放和引导用电行为低碳化是两个降碳的关键抓手,动态电碳因子是打通“电-碳”联动路径的关键桥梁。本文从区域动态电碳因子的计算、电碳因子序列长时预测和典型用电行为刻画及低碳用电策略设计的流程出发,开展以下研究:1.提出了一种基于多层级潮流追踪的区域动态电碳因子计算框架。框架考虑发电节点的性质转变,对区
学位
我国可燃固废产量逐年递增,无害化处置需求大,实现其燃料化利用能有效减少其处置压力。然而,可燃固废燃料化利用过程存在固废种类多、特性差异大、关键热反应特性智能调控不足等问题,导致可燃固废燃料化应用成本高、效率低。针对以上问题,有必要开展可燃固废特性数据智能管理研究,开发可燃固废关键特性参数智能预测与优化调控应用系统,提高可燃固废燃料化利用效率和经济性。本文基于B/S架构、MySQL数据库和Djang
学位
清洁能源的大规模应用对于CO2的减排十分关键,在人类实现“碳中和”的进程中起着重大作用。储能储热可以有效解决新能源利用过程中产生的“弃风弃光”问题,而熔盐储热具有的高温大容量优势使其成为储热领域中前景极佳的技术选择。大型熔盐储热系统的储罐泄漏问题不仅严重威胁安全运行,还大大掣肘了熔盐储热的推广,小型移动式熔盐蓄热器的储热介质热稳定性和腐蚀性也是决定其运行效率和使用寿命的关键性影响因素。基于上述工程
学位
高速磁悬浮列车具有高速、安全、稳定、舒适、无噪声等优点,适用于市郊、机场线、城际线等中长距离交通运输场景。实现牵引驱动的长定子直线同步电机定子电枢绕组和馈电电缆绕组长时间户外运行,会产生绝缘材料老化、绝缘层破损、运动引起的绕组磨损等故障风险,导致绕组、电缆发生短路或断路故障,另外逆变器中开关管也会发生短路或断路的故障。这些短路或断路故障会影响列车的牵引性能,使得车辆运行状态发生变化。本文围绕这几种
学位
随着电动汽车与储能技术的快速发展,锂离子电池作为一种高效的储能装置,在人们日常生活中得到越来越广泛的应用。与传统蓄电池相比,锂离子电池的能量密度更高,但同时也存在着较大安全隐患,在使用过程中需要利用电池管理系统对其进行精准有效的能量管理。荷电状态(State of Charge,SOC)是电池管理的重要指标之一,准确的SOC估计是对锂离子电池进行管理的基础。同时,由于生产工艺与使用环境的差异,锂离
学位
突如其来的新冠感染疫情似乎给正常的社会秩序以致命一击,打破了社会生产和生活的原有平衡,作为城市运转大动脉的公共交通亦难逃厄运,在严峻的疫情大环境重压之下遭受严重冲击。随着全民防疫意识的提高和管控策略的持续有效,整体疫情得到了良好的控制,复工大潮接踵而至,公共交通逐渐恢复正常运行,城市也渐渐复苏。然而,后疫情时期公共交通后遗症逐渐凸显:公共交通需求粘性黏性不高、回暖乏力,公交公司持续严重亏损、信心丧
学位
我国固体废弃物产量大,处置需求紧迫,废弃物焚烧处置是目前最有效的处置方式,焚烧技术主要包括循环流化床焚烧技术和炉排炉焚烧技术。当前,无论在高流速、高温高压的循环流化床焚烧炉还是大容量、大规模的炉排焚烧炉中,传统的热力计算和有限工况推理对现有大型工业固废燃烧处理系统的燃烧诊断仍存在泛化性差、时间延迟高等问题。本文基于新型图像算法建立了大型工业固废燃烧系统的实时诊断模型,提取并分析了焚烧炉火焰燃烧图像
学位
肝细胞癌(Hepatocellular carcinoma,HCC)是一种高异质性、高发病率和高死亡率的恶性肿瘤,基于HCC相关的分子特征建立分子分型方法,对改善患者预后具有重要意义。细胞焦亡和铁死亡作为两种新近发现的调节性细胞死亡方式,与HCC的发生、发展和治疗都密切相关,具有用于HCC分子分型的潜力。本文通过对大型肿瘤基因组数据库进行生物信息学分析,探究细胞焦亡和铁死亡用于HCC分子分型的潜力
学位