论文部分内容阅读
伴随着基因组和蛋白质组研究日新月异的快速发展,相关信息出现了爆炸性增长,迫切需要对海量生物信息进行处理。其中,大量的生物学数据是以结构化的形式存在于数据库中的,例如基因序列、基因微阵列实验数据和分子三维结构数据等,而更加大量的生物学知识则以非结构化的形式被记载在各种文献中。对于生物和医学研究人员来说,通过手工查找文献来获取相关领域的信息是很困难的,需要借助于文本挖掘的手段来完成。基于文本挖掘的蛋白质相互作用关系的提取方法研究是文本挖掘技术在生物医学领域的应用,本文的主要研究内容和贡献包括:
(1)生物命名实体识别生物命名实体识别就是使用文本挖掘技术识别出生物文本中的命名实体,主要包括基因、蛋白质和药物的名字。在生物医学文献中,大量的生物命名实体以缩写词形式不断涌现,本文重点研究了生物缩写词及其定义识别算法。本文提出了一种缩写词及其定义识别算法借鉴了生物序列比对的算法思想,采用动态规划的方法建立递归公式,求解该递归公式最终回溯得到了最优的比对结果。该算法在公共数据集Medstract gold standard corpus上获得了83%的回收率以及91%的准确率,比已有算法略高。在此基础上,我们构建了一个生物缩写词及其定义识别系统MBA,在该系统中缩写词被分成了acronym-type和non-acronym-type两种类型,针对不同类型的缩写我们采用了不同的方法,MBA系统最终获得了88%的回收率以及91%的准确率,高于已有算法。
(2)蛋白质相互作用关系信息提取蛋白质相互作用关系信息提取主要涉及两类研究工作,一类是不确定关系的蛋白质相互作用信息提取,另一类是提取确定的蛋白质相互作用关系,本文重点研究第二类工作中的蛋白质磷酸化作用关系信息提取。已有的蛋白质磷酸化作用关系信息提取系统RLIMS-P使用一种基于规则的方法来识别蛋白质实体,识别的准确率和回收率较低,我们提出了一个磷酸化作用信息提取系统MinePhos,该系统采用了识别率很高的NLProt来识别蛋白质实体,另外,在该系统中还引入了已有的磷酸化数据库Phospho.ELM以及同义词知识库SFThesaurus,可以通过直接匹配直接找出已知的磷酸化信息,这样做的好处是可以提高系统的准确率和回收率。最后的实验结果表明MinePhos取得了77%的准确率以及77%的回收率,比RLIMS-P的性能要高。本文工作的特色和创新在于:①针对缩写词定义识别问题,提出了一种类似于生物序列比对的比对算法,该比对算法的亮点在于能够识别出一些稍不规则的acronym-type缩写及其定义;②建立了一个生物缩写词及其定义识别系统MBA,该系统采用一种打分机制,将得分比较高的划分为acronym-type缩写,得分较低的划分为non-acronym-type缩写,然后针对不同类型的缩写采用不同的方法;③建立了一个磷酸化作用关系信息提取系统MinePhos,该系统中引入了已有的磷酸化数据库Phospho.ELM,并使用了基于SVM的蛋白质实体识别方法。