转录调控信息文本挖掘算法及实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:wallen5202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着转录调控领域相关数据则增加,国际上已出现有关调控区,调控单元和转录因子和结合位点的数据库,比较著名的有Transfac,Trrd,Jaspar等。然而大量的有关于转录调控信息主要以文献形式存在于各文献大数据库中,比较大的生物文献数据库有PubMed,Medline等。如何从大量的生物文献中挖掘转录调控信息是一项巨大的挑战。目前,从生物文献中挖掘转录调控信息主要以人工阅读为主,人工阅读的方式准确率高,但是效率相对较低、需要耗费大量的人力。本文在数据挖掘、信息检索、自然语言处理技术等基础上提出两个主要算法,旨在能够利用计算机自动化地从生物文献中挖掘转录因子、转录因子结合位点信息,从而为生物领域的工作者提供一定的帮助。第一个算法用于挖掘生物文献中那些描述转录因子结合位点所在句子。该算法利用经过人工阅读标注的文本句子作为训练数据,将信息检索中的空间向量模型VSM进行扩展、构造一个“问题网”Qnet。该“问题网”Qnet用一个有向图来表示,每个节点代表句子中的具有特定词性POS的特征词、每条边则代表句子中的二元短语,经过训练的“问题网”Qnet可以大致地反映那些描述转录因子结合位点句子的描写特征。对于待挖掘的文本句子,只需将其要与“问题网”Qnet进行句子相似性打分,那些得分较高的句子则被认为是“问题网”Qnet的正确解答,即转录因子结合位点句子。第二个算法在“问题网”Qnet算法的基础上进行了改进。算法首先利用人工标注的文本句子构造转录调控信息上下文无关文法CFG,利用动态优化算法Earley剖析句子中的名词短语、动词短语、形容词短语、介词短语。根据转录因子、转录因子结合位点所在的名词短语分析连接它们的动词短语特征,这些动词短语特征将被作为描述转录调控动作的知识库模型VPK。对于待挖掘的文本句子,首先转化为扩展的特征向量EV,然后与训练好的“问题网”Qnet进行向量的余玄值计算,那些相似性较高的句子才进入句子剖析阶段,否则相似性低的句子将被忽略。利用Earley算法得到该句子的名词短语、动词短语等,那些出现在名词短语中的中心名词将作为转录因子、结合位点的候选,而连接名词短语的动词短语则需要与VPK比较,只有那些匹配成功的动词短语,我们再展开其所在句子的名词短语中的中心词作为相应的转录因子、转录因子结合位点。所有算法利用Java作为实现语言,并且开发成图形化工具。经过试验证明,本文提出的两个算法的查全率和查准率都可以控制在60%以上。这里,实验所采用的数据量相对较小,原因是文本句子训练数据和挖掘的结果评估都要大量的人工参与。如果能得到大规模的训练数据和测试数据,我们相信算法也可以挖掘出可控范围准确率的转录因子、转录因子结合位点信息供生物领域工作者参考。
其他文献
经过长期的信息化建设,使企业和组织内部产生了大量遗留系统,这些系统在实施过程中缺乏系统性、一致性考虑,因而产生了大量异构信息。这些信息无法进行有效的共享和交换,导致
随着计算机网络技术与数据库技术的发展,在线无纸化考试系统因其公正性、准确性、灵活性、及时性以及方便性等特点,已成为目前国际上普遍采用的一种考试和认证方式。本系统的
随着信息化时代的来临,大量数据的产生和收集导致信息大爆炸,数据挖掘技术已成为现在计算机科学的研究热点。聚类分析是数据挖掘中一种重要的挖掘任务和挖掘方法,使得聚类算
随着罐形容器的普遍使用,其安全性能和缺陷检测方法越来越受到社会各界的关注。研制开发一种高性能快速、可手持操作、便于进行数据处理和实时检测的罐形容器缺陷检测系统,具
视觉感知一直是科学研究中吸引人们已久的问题之一。如何设计、制造能够像人类视觉系统一样高速而又有效的方式处理视觉信号的系统,一直以来是人类追求的梦想。虽然随着科学
WindowsPE文件是Windows操作系统下可执行文件的主要文件格式,针对PE文件类型的病毒的隐蔽性强、破坏巨大、变种多的状况,本论文深入探讨了PE文件型病毒的防治技术。计算机病毒
书法与水墨画是中国最具代表性的传统文化,其特有的水墨表现方式和抽象写意性与西方的绘画有很大不同。随着近代计算机技术的不断发展,水墨艺术的数字实现是计算机科学与技术与
网络安全态势感知能够大幅提升大规模网络的整体安全性,是目前网络安全领域的研究热点。本文主要围绕网络安全态势感知中的数据融合技术进行研究,通过构建科学合理的网络安全
为了解决网络服务质量(Quality of Service,QoS)问题,本文深入的研究了区分服务网络的结构和特性,并将带宽代理引入区分服务网络(DiffServ),制定动态的资源管理方案,从而提高数据
分布式拒绝服务(DDoS,Distributed Denial of Service)攻击是当前互联网存在的重要安全威胁。随着Internet规模的不断扩大和网络带宽的不断提升,网络DDoS攻击的流量也随之增