基于多生物信息的蛋白质网络研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:du_one
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过整合多种类型的生物学信息,深入研究了动态蛋白质网络构建、关键蛋白质识别和蛋白质复合物预测等问题。细胞系统是高度动态的并能对环境刺激做出反应。细胞的功能及其对外界刺激的反应模式受生物网络调控。具有静态连接性的蛋白质-蛋白质相互作用网络是动态的,就这层意义而言,蛋白质实现所谓的随时间进化的功能活动性。从静态网络分析向动态转移对进一步理解分子系统是重要的。本文通过结合时间序列基因表达谱和蛋白质相互作用网络,构建了时间过程蛋白质相互作用网络(TC-PINs)。为了判断TC-PINs是否成功,如下验证步骤被采用:首先,一个聚类算法被分别用于从三种网络(时间过程蛋白质相互作用网络、静态蛋白质网络和伪随机网络)中识别功能模块。然后,对来自TC-PINs中的功能模块,重复的功能模块只保留一个,被大功能模块包含的小功能模块被删除。最后,匹配分析和GO富集分析被执行以比较来自不同网络的功能模块。比较分析显示,与静态蛋白质相互作用网络相比,来自TC-PINs的功能模块具有更显著的生物学意义。关键蛋白质对生物在各种条件下的生存至关重要。有许多实验和计算方法用于预测关键蛋白质。因为蛋白质相互作用数据存在缺陷,所以基于全局的蛋白质相互作用网络预测关键蛋白质的计算方法受到严格的限制。但是,基因表达谱有助于在一定程度上弥补这种不足。本文整合基因表达和蛋白质相互作用数据,提出了一种新的关键蛋白质识别方法WDC。皮尔逊相关系数(PCC, Pearson Correlation Coefficient)被用于结合蛋白质相互作用网络和基因表达谱。基于PCC和边聚类系数(ECC, Edge Clustering Coefficient),一种新的中心性测度即加权度中心性(WDC, Weighted Degree Centrality)被提出,以便获得可靠的关键蛋白质预测结果。为了评估WDC方法的性能,它被用于从酵母的蛋白质相互作用网络中预测关键蛋白质。作为比较,其他预测方法也被用于从酵母的网络中预测关键蛋白质。一些评价方法被用于分析各种预测方法产生的结果。本文显示了所有预测结果和比较分析情况。另外,WDC方法中的参数λ被详细分析,然后最佳的λ值被找到。基于λ的最佳值,WDC和另一种方法PeC的区别被讨论。这些分析结果表明WDC胜过当前的其他方法。同时,也意味着整合多源生物数据预测关键蛋白质是一种有效的方法。蛋白质复合物是许多生物过程得以实现的基础,它们执行大量的生物功能。不断增加的蛋白质相互作用数据使得通过计算方法预测蛋白质复合物成为可能。有许多算法在预测蛋白质复合物时,仅仅考虑了蛋白质相互作用数据,但是,来自高通量生物实验的蛋白质相互作用数据不仅具有高的假阳性率,而且还是不完整的。实际上蛋白质相互作用的这种不足大大降低了这些预测方法的精度。本文提出了一种新的蛋白质复合物预测方法(CMBI, Clustering based on Multiple Biological Information)。该方法整合基因表达谱、关键蛋白质信息和蛋白质相互作用网络三种生物数据进行蛋白质复合物的预测。首先,CMBI基于蛋白质相互作用网络的边聚类系数(ECC, Edge Clustering Coefficient)和基因表达谱的皮尔逊相关系数(PCC, Pearson Correlation Coefficient)重新定义了两个相互作用的蛋白质之间的功能相似性(FS,Functional Similarity)。然后,CMBI选择已知的关键蛋白质作为种子构建蛋白质复合物核。在种子扩展到核的过程中,种子的关键蛋白质邻居和功能相似性FS大于给定阈值T的邻居被添加到复合物核中。复合物核被构造以后,CMBI开始产生蛋白质复合物。复合物核的邻居被考查,如果邻居与复合物核中蛋白质的FS大于给定的阈值T,则该邻居被添加到复合物中,用同样的方法遍历复合物核的所有邻居,生成蛋白质复合物。由于一些种子有相似的邻接图,所以从这些邻接图中挖掘的复合物可能有重叠,从而导致较高的冗余。因而,CMBI算法也设计了冗余过滤子程序,以将这种冗余控制到合理的程度。另外,除关键蛋白质,CMBI也使用非关键蛋白质作为种子并将之扩展为蛋白质复合物。为了检测CMBI的性能,CMBI预测的复合物被用于和其他方法预测的复合物进行匹配分析和GO功能富集分析。最后CMBI用到的两个参数T和R被详细分析。匹配分析和GO分析的结果显示CMBI预测蛋白质复合物的能力明显超过了现存的蛋白质复合物挖掘方法。这意味着整合不同来源的生物学数据预测蛋白质复合物的研究是成功的。本文还提出了一种能用于高可信度加权蛋白质网络的通用复合物预测算法Cluster WD。
其他文献
运动员的运动能力不仅取决于科学的训练、优秀的身体素质和心理素质,而且取决于良好的健康状态和合理的营养.合理营养是科学训练的物质基础,有利于代谢过程的顺利进行和器官
主要围绕汽车轮胎花纹设计,分析了影响轮胎抓地力和滑水性的主要因素,提出了分析轮胎抓地力应重视轮胎与地面接触面积的因素,论证了改进轮胎滑水性的数学模型,可对轮胎花纹设
在日常进行煤矿生产时,正常安装煤矿机电设备,并且改进安装技术,既能够使煤矿的生产效率提高,又能够使煤矿安全事故的发生概率大大降低。针对煤矿机电设备安装,分析了其中的
以南京为例,研究了城市生活垃圾对堆放环境土壤中重金属元素含量(总含量、各形态含量)的影响及其量比关系.结果表明,重金属元素在土壤中的含量和形态分布特征受其从垃圾中释放
利用HPLC-ICP-MS方法分析辽宁省西部河水及其沿岸地下水中溴化物、溴酸盐的含量,调查了溴化物、溴酸盐的污染现状.结果表明,大凌河和小凌河河水中总溴浓度范围20.5—364μg.l
本文系统研究了环境条件变化对太湖沉积物磷释放的影响.结果表明:温度、pH、氧化还原条件对沉积物磷释放有很大影响,获得了在不同环境条件下磷释放的方程.结果还表明,厌氧条
利用协整检验和误差修正模型对温州市产业结构高级化及影响因素关系进行定量分析。实证结果表明,对外贸易和产业结构升级存在长期稳定、相互促进的发展关系,社会投资、外资规
我国作为一个发展中的大国城镇化建设相对落后,只有真正解决农村的问题才能真正改善民生,才能更好地支撑国家的经济建设。只有将城乡规划建设做好才能实现村庄与城市经济的对
采用化学交联法研究制备聚乙烯醇(PVA)固定化微生物凝胶用于污水处理,通过对固化剂种类、固化时间等制备工艺研究,获得了具有较高力学强度和通透性的PVA凝胶小球.对固化剂与P
介绍了煤矿带式输送机PLC控制系统功能,提出了PLC技术在煤矿带式输送机控制系统中应用的优势,例如体积小、可靠性高、速度快以及抗干扰能力强等,并将其与传统继电器做比较,阐