论文部分内容阅读
发掘控制疾病发生的新基因具有重要的医学意义。致病基因为阐明疾病机理和预测疾病潜在风险提供了有效线索。近年来,伴随着生物信息学相关技术的发展,各种基因组、基因型和表型等生物数据出现爆发式增长,基于多重生物网络的计算方法为基因疾病关系预测发挥了重要作用。然而,这些生物网络通常伴随着高噪声高维度等特点,这大大影响了网络的可靠性。本文主要研究基因与疾病关联关系的预测方法,主要包括了基因和疾病的特提取及矩阵填充两个重要部分。本文围绕这两个环节进行优化和改进。具体的研究内容如下:1)为了获取更深层的生物特征,引入了深度学习模型——多层降噪自编码器(SDAE)来处理基因相关数据集,并与传统协同过滤方法相结合,构建一个深度协同过滤(DCF)模型。将这个模型作为本文研究工作的基准模型。2)由于基因-疾病关联关系数据存在不确定反馈的特性,采用基于正类和无标签样本的学习方法(PU learning),有差别地惩罚对正类样本和无标签样本误分类的情况。实验结果表明,PU模型性能略高于基准模型,验证了有偏学习方法的在这一特定场景下的作用。3)为了进一步挖掘基因相关数据集的可利用信息,借鉴网络表示学习中节点嵌入(node2vec)的方法,通过分析基因相互作用网络的结构,将每个基因节点映射成低维向量。实验结果证明了将基因节点表示成嵌入向量能有效提升模型预测的精确度和覆盖度。