【摘 要】
:
癌症是一种死亡率极高且病因高度复杂的疾病,其高复杂性主要表现在肿瘤微环境中癌细胞和相关表型改变的非恶性细胞的克隆多样性。尽管目前用于治疗癌症的大多数药物是针对特定群体而开发,然而癌症的高复杂性会导致特定群体中的个体对同一药物有不同的敏感度。在癌症研究领域,精准医疗力求准确预测对个体患者有益的治疗方式,以实现更为精确和有效的基因靶向治疗。利用人类基因组学测序技术分析个体患者的肿瘤遗传信息,以对抗癌药
论文部分内容阅读
癌症是一种死亡率极高且病因高度复杂的疾病,其高复杂性主要表现在肿瘤微环境中癌细胞和相关表型改变的非恶性细胞的克隆多样性。尽管目前用于治疗癌症的大多数药物是针对特定群体而开发,然而癌症的高复杂性会导致特定群体中的个体对同一药物有不同的敏感度。在癌症研究领域,精准医疗力求准确预测对个体患者有益的治疗方式,以实现更为精确和有效的基因靶向治疗。利用人类基因组学测序技术分析个体患者的肿瘤遗传信息,以对抗癌药物反应进行预测,进而为患者设计个性化治疗方案,将有望提高抗癌药物的治疗效果。随着基因组学测序技术的迅速发展和深度学习算法在生物信息领域上的大放光彩,研究人员基于抗癌药物反应公开数据集设计了多种深度学习算法以预测抗癌药物反应,并取得了该领域目前的最领先性能,然而在该领域中的深度学习算法仍存在许多不足。首先,目前用于抗癌药物反应预测的深度学习算法主要基于单药建模和基因-药物对建模方式而设计,但这并不适用于临床中的抗癌药物推荐。同样,现有用于抗癌药物反应预测的基因数据编码器未曾从基因实体层面和基因交互层面考虑基因数据特征之间的交互。此外,由于抗癌药物反应数据库中具有药物反应标签的数据样本极为稀缺,在监督学习范式下训练的任务模型的泛化能力和任务性能通常较差。基于以上诸多的不足,本文研究设计了一个基于多药建模方式的抗癌药物反应多标签预测模型框架用于构建抗癌药物推荐模型,以期助力临床医生做出更精准的个性化药物治疗决策。同时,通过利用基因相关性先验知识,本文研究为每个基因数据样本构造了对应的基因交互图,并设计了一个名为GraphGE的图神经网络模型作为基因数据编码器,以实现基因实体层面和基因交互层面上的基因数据特征交互,进而更好地表征基因数据样本。随后,通过设计一个基于基因交互图的层次化原型对比学习策略,促使GraphGE模型捕获基因数据集中的潜在层次化语义信息,进而在不同粗细层次上衡量基因数据样本的相似度。此外,本文还设计了一个基于多种基因交互图数据增强方式的实例级对比学习策略,并与层次化原型对比学习策略联合对GraphGE模型进行预训练,以促使GraphGE模型学习到更平滑的局部实例级基因数据表征,并指导层次化原型对比学习策略中的层次化聚类学习。实验结果分析表明,本文提出的基于GraphGE的抗癌药物反应多标签预测模型优于本文所选用的所有基准模型,并分别在GDSC数据集的RMSE指标上降低了1.4%和在TCGA数据集的ROC-AUC指标上提升了1.9%。同样,相比于不使用自监督学习策略,在利用本文所提出的基于基因交互图的层次化原型对比学习策略和实例级对比学习策略进行预训练和微调后,基于GraphGE的抗癌药物反应多标签预测模型的任务性能有较明显的提升,并分别在GDSC数据集的RMSE指标上降低了3.4%和在TCGA数据集的ROC-AUC指标上提升了7.2%。可视化结果展示,利用层次化原型对比学习策略进行GraphGE模型的预训练,GraphGE能够捕获基因数据样本集上特定的全局语义结构,并实现对基因数据样本集上基因交互图表征的显著性的层次化聚簇和分离。
其他文献
清洁能源的大规模应用对于CO2的减排十分关键,在人类实现“碳中和”的进程中起着重大作用。储能储热可以有效解决新能源利用过程中产生的“弃风弃光”问题,而熔盐储热具有的高温大容量优势使其成为储热领域中前景极佳的技术选择。大型熔盐储热系统的储罐泄漏问题不仅严重威胁安全运行,还大大掣肘了熔盐储热的推广,小型移动式熔盐蓄热器的储热介质热稳定性和腐蚀性也是决定其运行效率和使用寿命的关键性影响因素。基于上述工程
高速磁悬浮列车具有高速、安全、稳定、舒适、无噪声等优点,适用于市郊、机场线、城际线等中长距离交通运输场景。实现牵引驱动的长定子直线同步电机定子电枢绕组和馈电电缆绕组长时间户外运行,会产生绝缘材料老化、绝缘层破损、运动引起的绕组磨损等故障风险,导致绕组、电缆发生短路或断路故障,另外逆变器中开关管也会发生短路或断路的故障。这些短路或断路故障会影响列车的牵引性能,使得车辆运行状态发生变化。本文围绕这几种
随着电动汽车与储能技术的快速发展,锂离子电池作为一种高效的储能装置,在人们日常生活中得到越来越广泛的应用。与传统蓄电池相比,锂离子电池的能量密度更高,但同时也存在着较大安全隐患,在使用过程中需要利用电池管理系统对其进行精准有效的能量管理。荷电状态(State of Charge,SOC)是电池管理的重要指标之一,准确的SOC估计是对锂离子电池进行管理的基础。同时,由于生产工艺与使用环境的差异,锂离
突如其来的新冠感染疫情似乎给正常的社会秩序以致命一击,打破了社会生产和生活的原有平衡,作为城市运转大动脉的公共交通亦难逃厄运,在严峻的疫情大环境重压之下遭受严重冲击。随着全民防疫意识的提高和管控策略的持续有效,整体疫情得到了良好的控制,复工大潮接踵而至,公共交通逐渐恢复正常运行,城市也渐渐复苏。然而,后疫情时期公共交通后遗症逐渐凸显:公共交通需求粘性黏性不高、回暖乏力,公交公司持续严重亏损、信心丧
我国固体废弃物产量大,处置需求紧迫,废弃物焚烧处置是目前最有效的处置方式,焚烧技术主要包括循环流化床焚烧技术和炉排炉焚烧技术。当前,无论在高流速、高温高压的循环流化床焚烧炉还是大容量、大规模的炉排焚烧炉中,传统的热力计算和有限工况推理对现有大型工业固废燃烧处理系统的燃烧诊断仍存在泛化性差、时间延迟高等问题。本文基于新型图像算法建立了大型工业固废燃烧系统的实时诊断模型,提取并分析了焚烧炉火焰燃烧图像
肝细胞癌(Hepatocellular carcinoma,HCC)是一种高异质性、高发病率和高死亡率的恶性肿瘤,基于HCC相关的分子特征建立分子分型方法,对改善患者预后具有重要意义。细胞焦亡和铁死亡作为两种新近发现的调节性细胞死亡方式,与HCC的发生、发展和治疗都密切相关,具有用于HCC分子分型的潜力。本文通过对大型肿瘤基因组数据库进行生物信息学分析,探究细胞焦亡和铁死亡用于HCC分子分型的潜力
单细胞分析能够揭示细胞层面的生命活动机制,被广泛应用于生物学、药学和医学等生命科学领域。随着人类基因组计划的完成和下一代测序技术的发展,单细胞转录组学逐渐成为单细胞分析最常用的工具。近年来人工智能技术的发展,使得机器学习在单细胞转录组学中的应用受到了广泛关注,其主要分为面向测序数据的研究和面向生物学实体的研究。面向测序数据的研究处于单细胞分析的上游,为下游的面向生物学实体的研究提供数据质量保障,高
电静液作动器与传统液压系统相比有着高功率密度、高集成度、高效率、易维护等一系列优势,是液压领域,尤其是航空液压领域未来的重要发展方向之一。针对电静液作动器由于高集成度所引发的散热面积小、局部易过热等热特性问题,本文分析了电静液作动器内部功率损失机理,建立了电静液作动器系统以及关键部件热特性仿真模型,设计了面向电静液作动器的数字孪生系统,并使用样机实验平台进行了实验验证。第一章:绪论。概述了使用数字
随着全球经济的快速发展,世界能源市场面临深刻地变革。一方面传统化石能源造成的生态环境污染不可小觑,另一方面人类对于能源需求不断提高。在此背景下,大力发展新能源技术,完成能源转型是大势所趋。作为一种在广泛分布且存储量巨大的绿色能源,风能已经成为缓解人类能源危机的重要资源之一。近几年风电行业发展迅猛,全世界风机装机容量逐年上升。与此同时,由于风资源本身的间歇性、不稳定性和突变性,准确及时的超短期风资源
近些年,随着人工智能和医学影像技术的快速发展,基于深度学习的智能医疗影像辅助诊断也取得亮眼成绩。在医学影像分类和分割任务中,一些深度学习方法已经取得媲美专业医生的水平。然而,由于不同医疗中心采集的数据之间存在域偏移问题,一个医疗中心(域)上训练的模型在另一个医疗中心(域)上精度下降,影响深度学习技术在临床中的应用。为了解决域偏移问题,研究人员提出了域适应方法,该方法旨在消除域偏移问题,利用源域数据