基于文本挖掘的蛋白质相互作用关系的提取方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：turandeji

【摘要】

：

伴随着基因组和蛋白质组研究日新月异的快速发展，相关信息出现了爆炸性增长，迫切需要对海量生物信息进行处理。其中，大量的生物学数据是以结构化的形式存在于数据库中的，例如基因

【作者】

：

王志浩

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2008年期

【关键词】

：

文本挖掘蛋白质相互作用提取方法生物医学

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着基因组和蛋白质组研究日新月异的快速发展，相关信息出现了爆炸性增长，迫切需要对海量生物信息进行处理。其中，大量的生物学数据是以结构化的形式存在于数据库中的，例如基因序列、基因微阵列实验数据和分子三维结构数据等，而更加大量的生物学知识则以非结构化的形式被记载在各种文献中。对于生物和医学研究人员来说，通过手工查找文献来获取相关领域的信息是很困难的，需要借助于文本挖掘的手段来完成。基于文本挖掘的蛋白质相互作用关系的提取方法研究是文本挖掘技术在生物医学领域的应用，本文的主要研究内容和贡献包括： (1)生物命名实体识别生物命名实体识别就是使用文本挖掘技术识别出生物文本中的命名实体，主要包括基因、蛋白质和药物的名字。在生物医学文献中，大量的生物命名实体以缩写词形式不断涌现，本文重点研究了生物缩写词及其定义识别算法。本文提出了一种缩写词及其定义识别算法借鉴了生物序列比对的算法思想，采用动态规划的方法建立递归公式，求解该递归公式最终回溯得到了最优的比对结果。该算法在公共数据集Medstract gold standard corpus上获得了83％的回收率以及91％的准确率，比已有算法略高。在此基础上，我们构建了一个生物缩写词及其定义识别系统MBA，在该系统中缩写词被分成了acronym-type和non-acronym-type两种类型，针对不同类型的缩写我们采用了不同的方法，MBA系统最终获得了88％的回收率以及91％的准确率，高于已有算法。 (2)蛋白质相互作用关系信息提取蛋白质相互作用关系信息提取主要涉及两类研究工作，一类是不确定关系的蛋白质相互作用信息提取，另一类是提取确定的蛋白质相互作用关系，本文重点研究第二类工作中的蛋白质磷酸化作用关系信息提取。已有的蛋白质磷酸化作用关系信息提取系统RLIMS-P使用一种基于规则的方法来识别蛋白质实体，识别的准确率和回收率较低，我们提出了一个磷酸化作用信息提取系统MinePhos，该系统采用了识别率很高的NLProt来识别蛋白质实体，另外，在该系统中还引入了已有的磷酸化数据库Phospho.ELM以及同义词知识库SFThesaurus，可以通过直接匹配直接找出已知的磷酸化信息，这样做的好处是可以提高系统的准确率和回收率。最后的实验结果表明MinePhos取得了77％的准确率以及77％的回收率，比RLIMS-P的性能要高。本文工作的特色和创新在于：①针对缩写词定义识别问题，提出了一种类似于生物序列比对的比对算法，该比对算法的亮点在于能够识别出一些稍不规则的acronym-type缩写及其定义；②建立了一个生物缩写词及其定义识别系统MBA，该系统采用一种打分机制，将得分比较高的划分为acronym-type缩写，得分较低的划分为non-acronym-type缩写，然后针对不同类型的缩写采用不同的方法；③建立了一个磷酸化作用关系信息提取系统MinePhos，该系统中引入了已有的磷酸化数据库Phospho．ELM，并使用了基于SVM的蛋白质实体识别方法。

其他文献

基于语义本体的工业机器人控制系统关键技术研究

随着神经网络、遗传算法、机器学习与推理等智能控制技术的不断发展，基于工业机器人控制算法的研究和发展已经日趋成熟。然而，各种控制参数、工件信息的多样化和复杂化的表示方

学位

语义本体工业机器人控制系统工业机器人控制算法语义Web服务思想

基于MPLS/DiffServ组播方案的研究

IP组播能够通过共享部分链路来提高网络带宽利用率,非常适合高带宽需求的多媒体数据传输。但是,传统IP组播建立在“尽力而为”(Best-Effort)的传输模式之上,对其所能够提供的

学位

IP组播多协议标记交换差分服务环形管理路径恢复

企业信息系统的协同管理

本文以协同理论为基础，综合应用比较管理学、协同管理理论、系统工程、企业信息资源管理、计算机科学技术和企业信息系统等理论、技术和方法，以企业信息系统为研究对象，针对企业

学位

企业信息系统协同管理理论计算机系统工程理论

基于JAVA卡的移动代理安全保护研究

近几年来,随着Internet的广泛应用和移动计算技术的出现,在学术界,工业界都掀起了研究移动代理的热潮。很多公司和高校研究机构都已推出自己的移动代理系统,但要把它们真正推

学位

移动代理安全机制Java卡

GPS车载卫星定位终端设计与研究

随着我国经济的快速发展，我国目前的道路设施发展水平已经不能满足社会经济的发展需要。为了解决这一难题，除了兴建更多的道路，增加运力以外，近年来，随着GPS卫星定位系统的发展，采

学位

全球定位系统车载卫星定位终端印刷电路板

基于身份的环签名和代理环签名研究

随着网络通信技术的高速发展，信息技术在现代商务政务中应用日益广泛，在社会信息化程度不断深化的今天，信息安全已成为国家安全的战略基石，信息安全技术的发展至关重要。数字签名

学位

信息安全数字签名环签名身份认证

湖北省科技信息资源优化配置与管理研究

科技信息资源是信息资源的重要组成部分，也是最活跃和附加值较高的部分。随着信息化浪潮在全世界的兴起，科技信息资源重要性也越来越明显，世界各国都把科技信息资源当成国家的宝

学位

科技信息资源信息资源配置本体资源表资源

基于价值链的电子商务信息流研究

步入21世纪，电子商务蓬勃发展，已成为现代商务的主要方式之一。微软董事长比尔·盖茨曾说过：“未来世界，没有电子商务，无商可言。”而在2007年2月的《环球企业家》中，又有“未来电

学位

电子商务信息流价值链

无线传感器网络中基于信号相关的目标计数

无线传感器网络在近几年受到了学术界和工业界的广泛关注。由于无线传感器网络能够嵌入物理环境，近距离地观察环境，并通过传感器节点间的数据融合获得关于所监视环境的各种有用

学位

无线传感器网络目标监视节点目标计数目标定位

设计模式在Web选众传媒系统中的应用研究

在软件开发过程中,面对不断变化的性能需求,软件系统往往过于僵硬和脆弱,不易复用,很难维护。软件业众多精英一直在不断总结实践经验,逐步形成了设计过程中的一种指导思想一

学位

设计模式UML建模选众传媒系统

基于文本挖掘的蛋白质相互作用关系的提取方法研究

其他学术论文