集成特征选择与基因调控网络构建研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:poloyzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息技术的快速发展,海量基因组数据的涌现进入后基因组时代,研究者不再局限于研究单个基因的功能,而是希望以系统的角度理解维持生物生命活动的复杂生命过程,在这种背景下,系统生物学得到了快速发展。在系统生物学领域,挑战之一就是基因调控网络的构建,基因调控网络以图形化的方式描述了基因之间的相互作用,通过逆向工程构建出基因调控网络可以帮助我们更好的理解当环境条件发生波动时生物体内仍能保持稳定的分子机制。随着DNA微阵列技术的发展,快速积累的基因表达数据,出现了大量的构建基因调控网络的方法。此外,基因序列数据和功能注释数据等也在不断涌现。不同类型数据往往提供了不同的信息,如何有效的利用多种数据源之间的互补性,对于准确构建基因调控网络至关重要。针对基于基因表达数据,利用特征选择方法进行基因调控网络构建的不足,即往往仅给出网络中每条潜在边的重要性评分,而没有确定一个合适的阈值将排序结果转化为网络结构。本文提出了集成特征重要性遗传算法(Ensemble Feature Importance-Genetic Algorithm,EFI-GA),结合集成特征选择算法和遗传算法构建基因调控网络。首先利用集成特征选择方法为目标基因的每个潜在调控者计算一个重要性分值,该分值表示在该调控基因和目标基因间存在真实调控关系的可信度。然后利用遗传算法在具有较高可信度的调控者中筛选出最优的调控者子集。在逆向工程评估与方法对话(Dialogue for Reverse Engineering Assessments and Methods,DREAM)数据集上的实验结果表明了该方法的有效性。为了应对外部环境刺激或者完成某种生命过程,转录因子通过调控目标基因来执行相应的功能共同参与同一生命过程,因此两者之间往往具有相同或相近的功能,考虑转录因子和目标基因之间的功能相关性将有助于提高构建调控网络的准确性。本文提出了一种融合基因表达数据、基因序列数据以及基因本体(Gene Ontology,GO)数据构建基因调控网络的多特征融合方法,以有效运用不同数据源提供的相关特性提高基因调控网络构建的准确性。利用多种数据源构建特征向量,并使用支持向量机建立分类模型,预测转录因子和目标基因之间的调控关系。在拟南芥数据集和番茄数据集上的交叉验证结果表明本文方法具有更高的准确率。
其他文献
分类是机器学习的重要任务之一,传统的分类方法有一个默认的假设,就是数据集中各类别所包含的样本是均衡的,故传统的分类方法都是以提高数据集的总体准确率为目标的。但是在
随着城市化进程的加快,许多城市开始修建地铁。地铁中需要配置监控系统,用来监控地铁的运行环境。由于监控系统集成越来越多的子系统,其依赖的网络规模逐渐增大,网络管理也逐
在计算机领域中,软件的发展相对滞后于硬件的更新是一个长期存在的问题。而当人们迈入多处理器、多核心时代时,该问题变得更加严峻。特别是在多核的模拟器方面,虽然各大厂家
本研究课题来源于国家自然科学基金资助项目“典型事件过程建模的研究”。事件时序关系的研究目的是建立事件之间在时间上的先后顺序关系,事件时序关系的研究在文本分类、问
随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们在日常生活中所必
近年来网页恶意代码由于其隐蔽性和危害性,逐渐成为网络安全热点。传统的恶意代码检测技术主要有特征码检测法、启发式检测法等,这些技术对于检测已出现的病毒非常有效,但是
随着互联网技术的迅速发展,web信息爆炸性地增长,互联网已成为海量信息空间,搜索引擎解决了海量互联网资源的快速定位和检索问题,在网络时代发挥了巨大作用,成为人们在信息时代不
随着计算机技术和光电技术的发展,出现了一种新的检测技术--基于计算机视觉的测量技术,该技术是一种利用CCD摄像机作为图像传感器,综合运用图像处理技术进行非接触测量的方法,具
名词短语在句子中常常担任主语、宾语或定语等重要句法成分,其识别是自然语言处理领域的基础任务。汉语简单名词短语作为一种特殊类型的名词短语,兼具结构简单性和语义准确性
生物信息领域中,批量蛋白质同源性搜索和模体识别是当今的两个研究热点。本文针对批量蛋白质同源性搜索问题和模体识别问题,提出了基于聚类和压缩的批量蛋白质同源性搜索算法