基于微阵列数据的诊断基因模式发现技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:hitiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA微阵列技术推动生物信息学跨入了多基因、全基因组研究的崭新时代,同时也产生了远远超出传统数据分析方法处理能力的海量基因表达数据。设计符合表达数据特性的高效数据分析方法已成为生物信息学研究的热点和重点。人类疾病通常与基因相关。诊断基因是指与某一特定疾病表型紧密相关的基因,具有很强的区分不同样本表型的能力。本文对基于微阵列数据的诊断基因模式发现技术进行了深入的研究。第一,提出了一种考虑离群点的无监督表型和诊断基因发现算法UPID。该算法采用启发式搜索方法,通过划分表型“块”以及衡量划分子矩阵内部的相似性与子矩阵之间的差异性,同时发现微阵列数据的样本表型划分和区分样本表型的诊断基因。LPID算法克服了基本启发式搜索算法的弱点。该算法充分考虑了微阵列数据中大量存在的噪声数据,通过在每个表型内样本比例的函数以及模式质量函数之间进行调和,从而降低离群点对表型划分的影响。同时,在启发式搜索的迭代过程中,采用增量迭代的策略,大大减少了每次迭代过程的计算量,增加了算法的运行效率。实验结果证实,本文提出UPID算法在运行效率和有效性方面与之比较的算法均有较大改善,而且发现的诊断基因具有很强的生物学意义。第二,提出了基于兴趣非冗余对比序列规则的诊断基因模式发现算法NRMINER。首先,该算法针对基于单个基因和基因组合区分样本表型的局限性,提出了等价维组序列集合模型,从序列的角度建模微阵列数据。该模型充分考虑真实世界中广泛存在的基因间相互关系,以及大量存在于真实数据集的“噪声”数据。然后,设计了一种新的非冗余对比序列规则,该规则能够捕捉到不同样本表型间的差异,用尽可能短的基因序列来提供尽可能高的诊断准确率。进一步,给出了NRMINER算法来发现这种规则。与传统的列枚举和行枚举方法不同,NRMINER算法利用微阵列数据的特点,采用全新的模板驱动枚举方法,大大降低了搜索空间。最后,大量的实验表明,本算法在运行效率上大大优于相比较的算法,而且使用更少的基因提供了更高的分类准确率。同时,该算法发现的诊断基因具有很强的生物学意义。
其他文献
表单作为Web中数据采集的工具,是电子化办公不可缺少的一部分。随着企业信息化的发展,对各种表单的需求日益增加。传统的Html表单,将数据、显示、逻辑捆绑在一起,开发周期长
基于质谱的非标记定量是定量蛋白质组学中一个较为重要的新课题,这项技术不使用同位素标记等化学手段,而是通过对原始质谱数据的分析和处理来进行蛋白质定量。QuantWiz是我们实
遥科学是人类与位于遥远距离的实验设备之间实现交互的一种模式,在一定程度上延伸了人类的感知能力与行为能力。遥科学以其安全性高、可靠性好和成本低的特点已被广泛应用于
随着计算机硬件的快速发展,体系结构变得越来越复杂。根据体系结构特点开发高性能数学库可以对应用开发人员屏蔽具体硬件细节。系统结构的多样性和更新速度无疑增加了数学库开
采用多核处理器架构技术现已成为提升处理器性能的主要手段,并逐步应用到实时系统设计中。多核实时调度算法的研究业已成为学术界和工业界的热点问题,并取得了丰硕的成果。全
无线音频传感器网络已成为计算机领域的前沿课题之一。无线音频传感器节点因受到体积、能耗、存储容量和通信能力等诸方面的限制,节点的设计需考虑诸多因素。本文通过分析无
人体日常生活运动分类在健康监护、日常生活锻炼等应用方面具有极其重要的意义,近年来得到了广泛的研究与应用。其中考虑到长时间监测佩戴的舒适性和可穿戴性,采用尽量少甚至单
门户可以将各种异构应用和数据资源集成到同一用户界面下,并根据用户或角色的不同,形成个性化访问页面。门户作为信息集成与发布的有效手段已经获得了广泛的认可。   门户
在传统的公钥密码学中,实体的身份和公钥通常是通过由证书权威颁发的公钥证书来绑定。然而,证书的存储和管理需要很高的计算和存储开销,大大加重了系统负担。为了简化公钥的管理
科研项目是指根据科技和经济社会发展需要,以科研发展资金支持或以科研政策调控、引导,由科研行政部门制订并组织实施的科学研究开发、科研产业化以及相关的科研活动。近年来,科