基于组学数据的癌症预后相关分子分型问题研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zdc8814844
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术的迅猛发展推动了生物医学研究领域的极大进步,生物医学数据的爆发带来了一场数据革命,多年来积累了大量不同类型的癌症数据。癌症在分子层面上的定义一直是生物信息领域的重要研究内容,是辅助医疗诊断,快速为不同亚型的患者提供诊断方案的重要途径。探究在多样的生物数据中挖掘有效的潜在信息成为癌症分子分型的研究热点之一。当前,癌症的分子分型常用方式依然是对单个类型数据源的分子分型,并且大多是以无监督或者是半监督的方式学习,这些方法无法将多种与癌症发生与发展机制相关的数据类型高效利用,容易造成信息损失。整合多组学数据不仅能够挖掘癌症与相关组学分子数据的联系,还能够发现各组学数据之间对癌症的协同共享的作用关系。由于生物数据普遍具有特征维度广、噪声干扰多、样本量少等特点,本文基于相似性网络融合的方法对多组学癌症数据进行整合,并针对原有方法使用欧氏距离的局限性,提出一种基于深度子空间模型的相似性网络融合算法。对于融合后的相似性网络,使用谱聚类从而实现癌症预后相关分子分型任务。传统方法分子分型算法大多使用连续的组学数据,而忽略了许多离散组学数据的对于癌症分型问题的意义。本文利用网络传播算法,结合基因相互作用网络,将离散稀疏的体细胞突变数据进行网络平滑,从而扩展了所提出的融合算法的适用范围。为了验证本文所提出的基于深度子空间模型的相似性网络融合算法,采用TCGA(The Cancer Genome Atlas)数据库五种癌症数据的m RNA、micro RNA、DNA甲基化三种类型组学数据来对算法进行验证,并采用轮廓系数和log-rank p值对最终的分型结果进行评价。另外,对三种癌症数据引入体细胞突变数据,验证使用网络传播模型平滑稀疏离散数据,扩展融合算法的适用范围的有效性。最终验证结果表明本文提出的方法在肿瘤的分子分型任务及其相关预后诊断治疗上能够发挥良好的作用。
其他文献
很多学者从混沌系统的非线性特性、物理学特性、动力学特性等不同方面,研究出各种新型方法来产生如多翼混沌系统、多涡卷混沌系统、时滞混沌系统等功能各异的混沌系统,而利用
现实生活中往往存在一些计算机难以处理或者处理效果不佳的问题,如给图像打标签、判断两个记录是不是同一个实体等。众包直接将这些问题发布到互联网上,通过集合互联网上的未
高能反应中产生的末态夸克(或胶子)转变为实验可观测强子的过程称为强子化。由于支配它的非微扰量子色动力学(NPQCD)仍未解决,其机制至今只能以唯象模型与实验的互动研究进行探索
目的:探讨IFT80(Intraflagellar transport 80)对胃癌细胞SGC-7901和MKN-45增殖、凋亡和侵袭的影响,以及IFT80过表达上调神经生长因子受体p75NGFR从而使MMP9表达增加以促进胃
目的本文在肝癌细胞(HepG2)和正常肝细胞(L02)中鉴定UHRF2的磷酸化修饰差异位点,并探究UHRF2的磷酸化修饰差异位点对其生物学功能的影响。方法本文通过LC-MS-MS技术定量分析U
事理图谱本质上是一个事理逻辑知识库,描述了事件之间的演化规律与模式。在事件预测、常识推理、商业推荐等领域具有重要的应用价值。事理图谱定义为一个有向有环图。图中的
光谱分析能够通过样品的光谱和校正模型来快速预测样品的成分。校正模型预测性能的好坏,很大程度上取决于所选取的输入波长。为了降低模型复杂度,提升模型预测性能,有必要在
林地是土地的重要组成部分,应坚持集体林地所有权,保护林地,保障林农权益。然而,随着改革开放的逐渐深入,特别是“三权分置”政策以及新《环境保护法》等相关法律的陆续出台,
自AISA于2003年成立以来,根据对阿富汗商业固定投资的调查,在阿富汗国内外的投资总额为89亿美元其中大部分投资分配给建筑、电信、银行和运输部门。尽管,阿富汗的农业产值已经在国内生产总值中占有很高的比重,但仍具有很大的投资空间,而这一点往往被人们所忽略。因此,本研究着重分析了那些受到政府、非政府组织和投资者关注的假设,基于这样的前提,能够得出阿富汗藏红花具有较好的发展潜力,并且能够为投资者带来高
随着社会的飞速发展以及数据采集设备的广泛应用,数据库中存储了大量数据。从数据中发现的知识能够帮助理解过去以及预测未来,因而推动了大量的数据挖掘技术的研究。图挖掘是