基于深度神经网络的多组学数据集成癌症亚型识别

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:vincent_iong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是一种由于病变细胞失去正常的调控机制从而不停自我繁殖的疾病,诱发癌症的病因并未被医学研究人员从根本上发现,所以癌症很难有效地预防。并且因为癌症是由于体内细胞异常导致的,与常见的大部分疾病不同,无法使用常规的医疗手段治疗,而目前常用于治疗癌症的放疗和化疗手段会杀死人体内正常的细胞,具有非常强烈的副作用,所以对癌症的预防与治疗是当代医学需要攻克的一大难题。传统划分癌症的方法是根据细胞病变的组织器官来划分的,比如肺癌、胃癌、乳腺癌等等。这种粗粒度的划分方式不利于对癌症患者进行针对性的治疗,所以研究人员又将同一癌症类型根据分子标志物或患者的临床反应划分为不同的亚型。癌症亚型识别不仅可以为癌症患者提供个性化的诊疗方案,更可以对癌症的发病机理进行研究。随着高通量测序技术的发展,已经有多个国家成立实验室来测量癌症患者的多组学数据,包括基因组、表观基因组、转录组、蛋白质组等。通常对单一组学数据的研究分析很难对癌症患者进行全面具体的描述。如何同时使用多个组学的数据对癌症患者进行分析成为当下癌症亚型识别问题研究的重点。由于不同组学的数据构成具有异质性,多组学数据集成分析成为一个巨大的挑战。本文针对现有的与癌症亚型识别相关的生物信息学方法展开研究和分析,提出了一种基于深度神经网络集成多组学数据的癌症亚型识别方法(Multi-view Deep Neural Networks,MDNNs),该方法使用深度信念网络预训练神经网络模型中的参数,使用改进后的深度自编码器模型来集成多组学数据,通过无监督学习的方式来从多组学数据中学习癌症患者的有效统一特征表示,并将学习后的特征使用k-means方法进行聚类,完成癌症亚型识别工作。预训练结果在聚类评价指标平均提升50.1%;在生存分析p-value方面降低了 69.8%,聚类结果明显更加显著。本文将提出的方法应用于TCGA数据库中的浸润性乳腺癌,通过集成DNA甲基化、miRNA和mRNA的表达数据识别浸润性乳腺癌的亚型。运用标准互信息、调整兰德系数等聚类指标评价癌症亚型识别结果,并通过KM生存曲线以及对数秩检验的p-value等指标评价癌症亚型识别结果的临床显著性。本文提出的方法的结果在聚类指标比较上相比SNF、PINS、LRA、iClusterPlus方法表现最好,比表现次好的LRA方法聚类评价指标高出了 6.3%。
其他文献
预防和延缓失能是促进健康老龄化的关键。运动干预是失能预防的有效策略,并且运动干预也因其成本低廉、实施难度低、接受度高、适用场景广等特征,呈现出显著的治疗优势和广阔的应用前景。因此,中华医学会老年医学分会护理学组、中国老年保健医学研究会老年医学护理分会、中国老年护理联盟、国家老年医学中心、中国医学科学院老年医学研究院联合制订发布《老年人失能预防运动干预临床实践指南(2023版)》,本指南严格按照《世
期刊
现如今的应用程序包含了大量复杂的数据,这些数据包含了多种形式的信息。属性图作为复杂数据库的一个特例,通常在网络应用中用于描述社交网络、基因和蛋白质连接、通信网络和产品共同购买。每个属性图都由其图形结构、节点属性以及与其他对象的交互来定义。例如,友谊关系以边的形式存储,而年龄、财富和各种其他特征则以属性形式存储。属性图中的每个节点都可以包含大量的特征。数据挖掘的目的是从由高维属性图组成的复杂数据库中
学位
大数据计算是信息化建设的重要引擎,Spark作为专门为大数据处理而开发设计的计算引擎,凭借其较Hadoop更好的性能、更强的通用性以及易用性,成为了当下流行大数据处理框架之一。与此同时公有云服务凭借低成本、高可靠性、高灵活性以及优秀的扩展性等特点,飞快的发展和普及,越来越多的用户选择将大数据计算任务部署到公有云环境中。然而用户将大数据计算任务交付公有云服务执行时,用户数据的管理权也同时转交给云服务
学位
慢性阻塞性肺疾病(chronic obstructive pulmonary disease, COPD)是常见的、可预防和治疗的慢性气道疾病,其特点是持续的气流受限及相应的呼吸道症状。60岁以上人群COPD患病率超27%,但关于老年COPD存在着认识与诊断不足等问题,因而其防治面临诸多挑战。为规范老年COPD的风险评估、干预、管理,提高中西医协同慢病管理水平,中国老年学和老年医学学会主持编制了《
期刊
微纳卫星遥感技术因其造价低、部署快,并能通过集群组网观测方式实现大区域、精细化的分布式协同遥感探测任务而成为近年来的研究热点。图像语义分割作为计算机视觉领域内热门的研究方向之一,在遥感图像处理领域得到了越来越多的应用,并被逐步部署应用在微纳卫星上,为用户提供低延迟、高能效的边缘端语义分割服务。传统的语义分割方法分割精度低、算法适应性差,无法满足高性能、精细化图像语义分割的应用需求。近年来,基于深度
学位
在危机情况下,如短期灾难或大流行(新冠肺炎-19)等长期事件,Twitter可能是一个有价值的信息来源。社交媒体通常能以比官方新闻等传统来源快得多的速度提供有关变化的事实,也能提供关于事件的个人观点,如在危机和大规模紧急情况下的观点或独特要求,Twitter正越来越多地被用作一种流行的信息来源,用于交流和分享危机环境下的情况,报告受影响的人员和伤亡情况。该领域的最新研究证实,此类社交媒体信息可用于
学位
<正>在敦煌壁画中我们经常会见到五弦琵琶,但真正的五弦琵琶是什么样子的呢?我们一起去看看吧!日本正仓院,位于日本奈良县的东大寺内,是用来保管寺内珍贵物品的仓库,建于公元8世纪中期的奈良时代。在我国唐开元二十一年(公元733年),大唐僧人鉴真第6次远渡重洋来到日本,他所带去的中国的佛经、医药、书法等众多珍贵物品都存放在正仓院内。在正仓院中,还有一件极其珍贵的乐器,那就是唐代螺钿(dian)紫檀五弦琵
期刊
水文监测是及时获取河流湖泊水情的有效途径,其中关键的一环是水位观测。水位观测是指对河流湖泊等的水位进行实地测定,它不仅能够直观地反映河流水情,还有利于及时发布水情预警。近年来,基于计算机视觉技术的图像测量方式开始应用于水位观测任务中。使用传统图像处理技术的水尺检测和水位识别方法需要手工设计特征,这严重影响了检测和识别的性能。而深度学习的方法通过卷积神经网络来自动提取特征信息,可显著提升检测和识别的
学位
在如今的大数据时代,现实世界中的很多应用都可以建模为图,如社会网络分析、交通网络分析等,并且图的规模通常达上亿或更高级别。大规模图需要在分布式图处理系统中处理和挖掘,如GraphLab、Giraph等。图划分是分布式图计算的基础工作,其作用是将大规模图划分到集群中的不同机器上。分布式图计算的性能主要由运行最慢的机器和不同机器间的通信成本决定。因此图划分的质量对分布式图计算的性能有很大的影响,其目标
学位
随着信息技术的发展,各种大数据应用层出不穷,如超高清视频、智慧城市、智慧医疗等。这些应用的数据量往往很庞大,计算任务的场景多种多样,有基于完全可分的大数据的应用,如图像处理应用,可以将图像看作大规模任意可分的像素点;也有基于粗粒度可分的大数据的应用,如矩阵运算(可以将矩阵看作行向量或纵向量上的运算)和音频视频处理(可以将音频和视频看作是由多帧数据和多段连续画面构成)等。可见,大数据往往任意可分或粗
学位