论文部分内容阅读
生物系统由各类生物分子间的复杂交互构成,现有多种高通量技术可以对分子间的互作进行识别,并通过不同的网络模型进行表示。作为一种重要的计算生物学方法,生物网络建模可以有效地整合多个层面的组学数据,从系统水平对复杂疾病进行研究。但是现有的网络生物学研究仍普遍单独关注基因组,转录组,代谢组或蛋白质组层面的分子网络。事实上复杂疾病并不是单个基因变异,或单个成对基因互作缺失引起的,它们的致病机理异常复杂,通常是由多个基因或不同层次生物分子之间的互作异常引起的,所以从多层次生物分子网络的角度探索复杂疾病的病理是更科学的一种方式。近年来,生物知识的不断积累和多组学数据的井喷式涌现,为建立多层次生物分子网络并以此探索复杂疾病病理提供了契机。本论文的第一部分提出了一种基于多源数据融合和深度神经网络的可变剪接异构体(isoform)-疾病关联识别方法(Isoform-disease associations prediction by data fusion and deep learning,DeepIDA)。同一个基因受可变剪接的影响,可以生成多个可变剪接异构体,进而产生不同的蛋白质变种,可变剪接的异常与多种复杂疾病密切相关。然而现有isoform-疾病关联研究普遍停留在湿实验水平,相关计算学方法缺失,主要原因是缺乏isoform层面的疾病标签数据。为了克服这一难点,本文利用isoform-基因关联将基因层面的疾病标签转移到isoform层面。以此为基础,为了准确预测isoform-疾病关联,DeepIDA通过收集并对齐多层次生物分子关联数据建立了多层次分子网络,同时还额外收集了isoform的序列和表达特征数据。DeepIDA采用两个并行且不同结构的DNN子网络分别从多层次生物分子网络和isoform特征数据中提取整合异构特征,最后融合上述特征进行isoform-疾病关联预测。此外,为有效应对isoform-疾病关联预测中的类别不平衡问题,DeepIDA采用focal loss损失函数代替典型的交叉熵损失函数,以此克服类别不平衡数据中的多数类主导梯度损失方向导致整个模型学习方向偏移的风险。Focal loss可以在平衡正负类别权重的同时降低数据集中大量易分负类的权重,从而使得模型更加关注难以分类的样本。实验结果统计表明,相比于传统机器学习方法,本文提出的DeepIDA方法在多种评价度量上均可显著提升预测精度。Isoform-疾病关联预测研究还处于起步阶段,目前还没有相关的在线计算与可视化平台供研究人员使用,而基因层面的疾病关联预测在线平台已经十分普及。本文第二部分工作参考了大量基因-疾病关联可视化分析平台的设计思路,分析了isoform层面和基因层面的疾病关联预测分析平台中的共性需求,以及isoform-疾病关联分析平台的个性需要,对isoform-疾病关联可视化分析平台进行了详尽的可行性研究和需求分析。其次完成了系统架构设计、数据库设计并基于node.js express框架实现了在线查询模块,用户模块,计算模块以及结果展示模块。其中在线查询模块支持isoform ID查询和isoform序列查询,用户模块包括用户上传数据功能和任务管理功能,计算模块包括用户上传数据的预处理功能和在线计算isoform-疾病关联功能,结果展示模块包括文本结果展示和可视化结果展示功能。