论文部分内容阅读
随着转录调控领域相关数据则增加,国际上已出现有关调控区,调控单元和转录因子和结合位点的数据库,比较著名的有Transfac,Trrd,Jaspar等。然而大量的有关于转录调控信息主要以文献形式存在于各文献大数据库中,比较大的生物文献数据库有PubMed,Medline等。如何从大量的生物文献中挖掘转录调控信息是一项巨大的挑战。目前,从生物文献中挖掘转录调控信息主要以人工阅读为主,人工阅读的方式准确率高,但是效率相对较低、需要耗费大量的人力。本文在数据挖掘、信息检索、自然语言处理技术等基础上提出两个主要算法,旨在能够利用计算机自动化地从生物文献中挖掘转录因子、转录因子结合位点信息,从而为生物领域的工作者提供一定的帮助。第一个算法用于挖掘生物文献中那些描述转录因子结合位点所在句子。该算法利用经过人工阅读标注的文本句子作为训练数据,将信息检索中的空间向量模型VSM进行扩展、构造一个“问题网”Qnet。该“问题网”Qnet用一个有向图来表示,每个节点代表句子中的具有特定词性POS的特征词、每条边则代表句子中的二元短语,经过训练的“问题网”Qnet可以大致地反映那些描述转录因子结合位点句子的描写特征。对于待挖掘的文本句子,只需将其要与“问题网”Qnet进行句子相似性打分,那些得分较高的句子则被认为是“问题网”Qnet的正确解答,即转录因子结合位点句子。第二个算法在“问题网”Qnet算法的基础上进行了改进。算法首先利用人工标注的文本句子构造转录调控信息上下文无关文法CFG,利用动态优化算法Earley剖析句子中的名词短语、动词短语、形容词短语、介词短语。根据转录因子、转录因子结合位点所在的名词短语分析连接它们的动词短语特征,这些动词短语特征将被作为描述转录调控动作的知识库模型VPK。对于待挖掘的文本句子,首先转化为扩展的特征向量EV,然后与训练好的“问题网”Qnet进行向量的余玄值计算,那些相似性较高的句子才进入句子剖析阶段,否则相似性低的句子将被忽略。利用Earley算法得到该句子的名词短语、动词短语等,那些出现在名词短语中的中心名词将作为转录因子、结合位点的候选,而连接名词短语的动词短语则需要与VPK比较,只有那些匹配成功的动词短语,我们再展开其所在句子的名词短语中的中心词作为相应的转录因子、转录因子结合位点。所有算法利用Java作为实现语言,并且开发成图形化工具。经过试验证明,本文提出的两个算法的查全率和查准率都可以控制在60%以上。这里,实验所采用的数据量相对较小,原因是文本句子训练数据和挖掘的结果评估都要大量的人工参与。如果能得到大规模的训练数据和测试数据,我们相信算法也可以挖掘出可控范围准确率的转录因子、转录因子结合位点信息供生物领域工作者参考。