基于生成对抗网络和多特征融合的miRNA-疾病关联预测研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:xubin761
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
miRNA是一类长度约为22~24个核苷酸的非编码RNA,广泛存在于真核生物中,通过调控靶基因的表达在许多生物过程中发挥着至关重要的作用,如早期细胞生长、发育、增殖、分化、肿瘤侵袭和细胞凋亡等,而突变或生物功能障碍的miRNA会导致白血病、肺癌等多种疾病的发生。因此,研究miRNA与疾病之间的关联有助于从分子水平了解疾病的发病机制,对于研究疾病的预后、诊断、评估和治疗具有重要意义。现有的miRNA-疾病关联预测方法主要包括传统生物实验方法和计算预测方法,传统生物实验方法采用PCR和微阵列等生物技术,基于生物理论揭示miRNA与疾病之间的关系,可信度高,但其过程复杂、昂贵且耗时,难以实现大规模miRNA-疾病关联预测;而计算预测方法基于miRNA和疾病相似性信息,通过矩阵分解构建线性空间或采用机器学习、深度学习的方法学习非线性特征,可以有效预测miRNA-疾病间的关联,降低了miRNA-疾病关联预测的成本。然而,现有的计算预测方法直接以miRNA和疾病相似性作为输入进行特征提取,忽略了miRNA和疾病原始相似性矩阵中缺失值的处理,导致了特征中包含缺失值,影响特征学习的质量;在特征提取过程中未考虑相似性数据中拓扑结构信息以及miRNA和疾病的线性特征和非线性特征的融合,忽略了线性特征对非线性特征的补充,影响miRNA-疾病关联预测结果。本文针对上述问题,构建了基于生成对抗网络和多特征融合的miRNA-疾病关联预测模型,主要研究内容如下:(1)现有miRNA-疾病关联预测方法直接以miRNA和疾病语义相似性作为输入,未处理相似性数据中的缺失值,且在特征提取过程中,忽略了相似性数据中丰富的拓扑结构信息,针对该问题,本文提出了一种基于生成对抗网络和图卷积网络的miRNA-疾病关联预测模型GAGCN。该模型采用生成对抗网络插补miRNA和疾病相似性矩阵中的缺失值,从而降低相似性矩阵的稀疏性,构建更精确完整的初始特征空间;然后采用图卷积网络分别学习miRNA和疾病的拓扑特征表示,捕获miRNA和疾病相似性中的潜在关联信息,并嵌入卷积注意机制进行特征空间的自适应优化,实现miRNA-疾病关联预测。实验结果表明,相似性数据中缺失值的处理以及拓扑结构信息的学习可以更好地预测潜在miRNA-疾病关联。(2)GAGCN模型采用两层图卷积实现了非线性拓扑特征的有效提取,然而在特征提取过程中该模型采用的图卷积网络较浅,仅关注了低阶邻域信息的学习,无法有效提取高阶邻域信息,影响了miRNA和疾病深层特征表示的学习;且它仅提取了miRNA和疾病的非线性特征,未考虑线性特征中已知miRNA-疾病关联的潜在信息,忽略了线性特征对非线性特征的补充。基于此,本文提出了基于生成对抗网络和多特征融合的miRNA-疾病关联预测模型GA-Deep GCN,该模型引入非负矩阵分解方法学习miRNA和疾病的线性特征;并采用深度图卷积网络代替传统GCN,通过密集连接增加网络深度,以提取miRNA和疾病的深层非线性特征;最后,融合线性特征和非线性特征进行miRNA-疾病关联预测。实验结果表明深度图卷积网络的引入以及线性特征与非线性特征的融合可以有效提高miRNA-疾病关联预测性能。(3)本文基于提出的miRNA-疾病关联预测模型GA-DeepGCN,结合MVC框架开发了miRNA-疾病关联预测的Web服务平台。该平台集成实现了miRNA-疾病关联数据库查询功能和在线预测功能,用户可根据miRNA或疾病信息查看经过HMDD等数据库验证的关联,也可直接在线预测疾病相关的miRNA,有助于用户能够快速直观地观察本文模型的预测功能和效果。综上所述,本文采用生成对抗网络插补相似性矩阵中的缺失值,并结合非负矩阵分解方法和深度图卷积网络实现了miRNA和疾病的线性特征和深层非线性拓扑特征的融合,进一步丰富了特征空间,有效预测了潜在miRNA-疾病关联。与现就方法相比,GA-Deep GCN可以更好地预测疾病相关的miRNA,为疾病诊断和治疗领域的研究提供有效的靶点信息。
其他文献
新药物的开发是一个耗时耗力的过程,且新开发的药物实际利用率较低,造成了资源的浪费,因此,研究者们提出了药物重定位的思路,探索已上市的药物对于其他疾病的治疗效果,从而实现“旧药新用”。药物-疾病关联预测是药物重定位中的一项重要研究,该研究将药物和疾病的高通量数据作为输入,结合计算方法预测药物-疾病的潜在关联,能够为药物的高效研发和疾病的低成本治疗提供辅助性建议。现有的药物-疾病关联预测方法大多将药物
学位
深度神经网络已经广泛应用于包括医学图像分析在内的各种计算机视觉任务中。通常,大多数神经网络对来自相同分布的图像进行训练和评估,且假设数据集(训练集和测试集)共享相同的数据分布,但现有医学数据受固有的小数据集的影响,限制了大型深度学习模型的广泛临床采用。随着深度学习的深入,现实世界中研究的课题往往考虑收集具有不同场景分布的目标数据,但数据间的异质性严重受到领域转移的挑战。领域转移,即训练和测试数据特
学位
近年来,互联网和移动通信技术的发展日新月异,在线社交网络(OSN)的引入改变了人们相互联系和互动以及共享信息的方式,导致了以网络为中心的数据大爆炸,这些数据可以被收集以更好地利用,如个人或群体的社会学和行为学方面。因此,在线社交网络服务运营商被迫公布社交网络数据,以供诸如研究人员和广告商之类的第三方消费者使用。由于社交网络数据发布易受各种重识别和泄露攻击,开发隐私保护机制是一个活跃的研究领域,不仅
学位
近年来,经济全球化趋势日益明显,人工智能等互联网相关信息技术更新迭代越来越快,企业集团更加注重对自身资源配置的优化与整合。财政部于2013年颁布的《企业会计信息化工作规范》指出,对于符合要求的企业,应积极运用先进的信息技术来集中处理会计工作,鼓励通过构建财务共享服务中心来扭转财务管理模式分散化的局面。铁路运输企业正符合这一发展趋势,对其财务共享服务中心构建的探讨,为财务战略转型提供一点借鉴意义。
期刊
赖氨酸琥珀酰化(Lysine succinylation,Ksucc)是一种发生在赖氨酸残基上的酸性酰基化修饰,参与人体重要的生命活动,且其调控机制的异常对肿瘤、结核、神经系统疾病等的发生发展起到关键作用。现有的Ksucc位点研究主要包括传统生物实验技术和计算机辅助预测两方面。传统生物实验技术为Ksucc的深入研究奠定了基础,但其需要较高的成本和大规模的实验规格。计算机辅助预测作为传统生物实验方法
学位
期刊
阿尔茨海默症(Alzheimer’s Disease,AD)是不可逆的弥散性神经系统退行疾病,受多种基因和遗传变异的直接影响,患者表现为认知功能障碍和记忆损坏。轻度认知功能障碍(Mild Cognitive Impairment,MCI)处于健康老龄化和痴呆之间的过渡阶段,MCI患者已经出现认知和记忆方面的问题,MCI患者是发展为AD的高风险人群。目前AD发病机制尚不清楚,以药物为主的治疗效果有限
学位
期刊
随着深度学习技术在计算机视觉领域的广泛应用,在交通、医疗、军事等高风险领域中采用的模型方法是否具备可解释性和可靠性,引起了广泛的关注。受到近年来频繁出现的雾霾等恶劣天气的影响,基于光学成像系统处理信息的众多领域,由于无法直接获取到清晰的图像而严重影响了后期对信息的准确获取及处理工作。特别是夜间场景中存在人工活动光源,使得获取到的夜间图像被严重降质。由此对于夜间雾霾图像进行清晰化处理成为了重要的研究
学位
跨襄阳北编组站大桥为转体斜拉桥,转体时梁面以上塔高73 m,最大转体重量32 000 t,为提高转体过程中桥梁的抗倾覆稳定性,设计了基于齿轮齿轨传动的多点支撑转体系统。转体系统主要由转动系统(中心球铰、常规撑脚、滑道、齿条)及辅助支撑系统(驱动承力支腿、电气控制系统)组成。中心球铰设计最大承载28 000 t, 6个驱动承力支腿总设计承载6 000 t,通过6个驱动承力支腿的齿轮啮合齿轨实现桥梁转
期刊