【摘 要】
:
基因相似分析不仅可以提供有关基因生物学作用和功能的信息,还可以揭示各种基因之间的关系。现有的基因相似分析工作主要基于基因的序列特征、本体功能注释特征以及关联信息特征进行。然而,这三类方法通常以定量的方式度量基因的相似性,存在度量标准单一的问题;通常直接对相似性度量的定量结果进行比较,以此进行相似分析;此外,还存在忽略不同语义条件下相似度量结果不同的问题,使得基因相似分析结果偏颇。对此,本文提出了一
论文部分内容阅读
基因相似分析不仅可以提供有关基因生物学作用和功能的信息,还可以揭示各种基因之间的关系。现有的基因相似分析工作主要基于基因的序列特征、本体功能注释特征以及关联信息特征进行。然而,这三类方法通常以定量的方式度量基因的相似性,存在度量标准单一的问题;通常直接对相似性度量的定量结果进行比较,以此进行相似分析;此外,还存在忽略不同语义条件下相似度量结果不同的问题,使得基因相似分析结果偏颇。对此,本文提出了一种新的基因相似分析方法,即基于基因信息网络的基因相似语义子空间挖掘。主要贡献如下:(1)以基因相关的公开信息作为数据来源,融合多源生物医学数据构建基因信息网络。该网络包含了7种生物医学实体(基因、基因本体术语、蛋白质、药物、mi RNA、疾病、表型),以及7种关系(“基因-蛋白质”,“药物-蛋白质”,“基因本体术语-基因”,“基因-疾病”,“mi RNA-基因”,“mi RNA-疾病”,“疾病-表型”),分别从基因功能、基因产物、基因表达调控、基因靶向药物、基因致病性、基因表型这几方面对基因的特征进行描述。(2)针对进行基因相似分析的目标体量不同并基于基因信息网络路径语义,提出了基因相似语义子空间这一概念,设计并实现了针对基因对的相似语义子空间挖掘算法((?)imilar Semantic Subspa(?)e for G(?)e Simil(?)rity Explanat(?)n between Pairwise Genes,SCENARIO)以及针对多基因的相似语义子空间挖掘算法((?)imilar Semantic Subspa(?)e for G(?)e Simil(?)rity Explanat(?)n among (?)ultiple Genes,SCENARIO-M)。(3)在针对基因对的相似语义子空间挖掘算法SCENARIO中,为了解决相似度量标准单一的问题,给出了基于基因信息网络上的元路径计算基因语义相似性的方法;针对基因信息网络上元路径自动搜索问题,采用广度优先策略遍历基因信息网络构造基因元路径搜索树,获得目标基因对的最大元路径长度作为元路径搜索限制条件;为了分析目标基因对在复杂语义条件下的相似性,提出了基于语义子空间的相似度量标准。通过在真实数据集上进行实验,验证了SCENARIO算法的有效性、执行效率及可扩展性。(4)为了在更一般的情况下挖掘基因相似语义子空间,设计了SCENARIO-M算法,用于挖掘多基因(即基因集合)的相似语义子空间。利用基因元路径搜索树返回目标基因集合中任意基因对的语义子空间集合,经由交运算融合生成目标基因集合的语义子空间。最后,分析目标基因集合在各语义子空间下的相似性,挖掘出目标基因集合的相似语义子空间。利用真实数据进行实验并结合通路富集分析,验证了算法SCENARIOM在对多基因进行相似分析时的有效性。
其他文献
随着科技水平的提高和社会的发展,在物质生活已经得到满足之后,人们开始更加关注精神生活的水平,很多丰富精神文明的商品成为大家追逐的目标。其中,智能手机和家庭影院的普及,让人们能享受到更好的拍摄和观看的体验。但光学领域的研究中,由于镜头的透镜在生产时无法达到理想的精度而且在组装过程中也可能产生偏差,最后会使得到的图像产生畸变,影响人们的观看体验。相机镜头产生的畸变按种类分为:径向和切向。径向畸变是因为
如今,从网上购物、视听娱乐到生活旅游等方面,人们的日常行为和决定越来越多地受到推荐系统的影响。所谓推荐即是根据用户的历史、项目的相关属性进行建模,从海量的信息中,推断出用户的兴趣爱好,帮助用户找到感兴趣的项目。推荐系统的技术核心是如何从巨量信息中为用户挖掘出有效的信息。然而,传统的推荐算法里已有的数据稀疏性问题,会致使推荐质量不太理想,无法更好地提升用户对系统的满意度。再而,因缺少系统给出的推荐结
运动目标检测是许多视频分析应用中的关键步骤。由于真实视频数据通常存在相机抖动、光照变化和恶劣天气等复杂情况,导致基于背景减法的目标检测算法可能无法有效对背景信息建模,严重影响目标检测效果。因而具有鲁棒效果的鲁棒性主成分分析(Robust Principal Component Analysis,RPCA)在目标检测领域得到广泛应用。虽然RPCA模型被成功应用于目标检测领域,但是在经典RPCA模型中
科学文献是科研人员通过实验对自然科学现象进行充分观察或研究后,对成果与结论的书面表达。海量科学文献的发表使科学的结构不断发展与完善,对科学发展中的重要影响因素进行深入了解可以有效地解决环境、社会和技术问题。通过分析科学文献数据,揭示学科主题结构及发展历程,对理解学科特点、发现新兴研究以及预测未来趋势至关重要。围绕科学文献,现有研究只关注学科框架的构建或单研究领域的主题分析,缺少完善的从学科层级自顶
基于代理的建模技术经常被用于研究复杂的多细胞生物学现象,这一技术在生物医学研究中发挥着重要的作用。近年来通过建立仿真模型研究癌症发育的过程,推测癌细胞转移时机成为了一个重要的研究方向。现有的研究证明,癌细胞的转移扩散是导致癌症患者死亡的主要原因。对于目前发病率较高的结直肠癌,肝脏是其常见的转移靶器官。因此本文利用基于代理的建模技术对结肠癌的肝转移过程展开具有针对性的研究。本研究能够评估疾病进展,为
随着2018年国家标准《智慧校园总体框架》发布,致力于构建校园工作、学习和生活一体化的智慧校园正在全国多个高校逐步成型,从课堂到生活的教育理念已经被广为接受。传统基于预制定教学计划的培养模式已不能满足当前创新性人才的个性化培养需求。以大数据分析、人工智能等信息技术为支撑的智慧教育模式已成为教育信息化的趋势,通过掌握学生的兴趣、爱好、生活习惯等,提高人才培养质量成为当前教育数据挖掘领域的重要研究问题
在计算机三维动画领域中,通过模拟类似脂肪等软体的动态效果,能为模型形变带来更丰富的视觉效果。传统的模拟软体形变的方法受限于复杂的物理计算,往往需要昂贵的时间成本。近年来,位置动力学因其简单快速的物理模拟框架,被大量应用于实时应用中。位置动力学方法通过对模型的粒子系统施加形状匹配等约束来控制粒子间的位置关系,模拟软体的形变。在实际的计算过程中,位置动力学方法通过高斯赛德尔迭代来计算模型约束集合的近似
鲁棒性和数据稀疏问题已经成为推荐系统研究中的两大热点问题。鲁棒性推荐旨在从有噪声的用户数据中捕捉用户的真实偏好,提供准确且稳定的个性化推荐。数据稀疏问题是指,相对于推荐系统的海量用户和商品,每个用户交互过的物品仅仅是商品总量的很小一部分,这导致依赖于用户历史数据的推荐模型难以准确捕捉用户的个性化偏好。尽管现有工作已经对这两个问题进行了研究,但推荐系统的鲁棒性问题和数据稀疏问题仍未得到很好的解决。现
信息抽取任务旨在从非结构化文本中自动抽取信息,并转换为结构化的三元组(实体-关系-实体)。根据三元组中的关系类别是否限定,信息抽取任务可以分为封闭域和开放域两类。其中,开放域信息抽取不限定三元组中的关系类别,从文本中抽取所有可能的三元组,为问答系统、信息检索和知识库构建等自然语言处理任务提供有力支持。目前开放域信息抽取工作大多在句子上抽取三元组,但在结构复杂的句子上学习抽取模板、制定抽取规则具有极
用户界面作为向用户传递信息的直接桥梁,需要将界面中的信息合理地展现给用户。线框图是基于信息架构设计的,既能反映出信息架构的信息规划,又是信息架构的具体表现,可以说线框图已经确定了产品界面的雏形。然而合理布局信息元素、绘制高质量的线框图需要设计者具有长期的经验积累。参考符合信息架构的界面设计样例可以帮助设计者设计线框图,基于信息架构进行界面检索,可以帮助设计者在线框图设计阶段收集相似信息架构的界面设