基因组词语构成特性分析及应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Huigle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来生物信息学主要关注了DNA序列上的数据特点,利用DNA序列中的碱基信息去探索序列中的功能区,挖掘序列中可能含有功能信息的潜在位点,探索隐藏在碱基下的遗传信息。本文目的在于挖掘出DNA序列中的功能词语和功能信号,但由于现阶段对非编码区表达信息知道的很少,因此对于更加准确理解DNA序列有一定困难。在本文中主要提出了条件随机场模型作为序列切分的工具,与其他统计模型相比,它解决了标记偏置的问题,同时可以任意添加特征。首先是对英文序列进行分析,选取与语言无关的特征,最后发现改进的信息熵包含的信息量最多。然后对添加了特征和标记的英文的序列进行切分,发现准确率在90%以上,说明基于条件随机场的英文序列的切分是有效的,选取的特征有很好的切分效果。利用英文序列和DNA序列都是小字符集的特点,同时经过英文序列切分选取到好的与语言无关的特征。考虑迁移学习的思想,对英文序列和DNA序列的特征值进行拟合分析,发现两个样本空间的特征值可以通过转换函数连接起来,对英文序列的特征值经过转换函数处理后映射到DNA序列的样本空间;同时考虑不采用迁移学习,利用已有的位点信息来构造模型进行序列的切分,对两者的序列切分的结果进行比较,迁移学习的召回率在80%左右,而只基于已有位点的切分召回率只有40%左右,这说明迁移学习对DNA序列切分的准确性要比采用已有的位点信息进行切分准确的多。最后研究DNA序列的词序列应用。通过采用向量空间模型和改进的序列比对方法去计算人和黑猩猩序列的物种相似度,发现改进的序列比对的方法要比向量空间模型计算得到的相似度更接近现实值。然后选择人类,黑猩猩和拟南芥,还有白菜做相似度计算,判断其在真实进化树中的位置是否正确,发现人类和黑猩猩相似度相近同时在进化树中也处于同一分支,人类和拟南芥之间差别较大,在进化树中也相距很远。这说明以单词为粒度进行序列切分更容易解决一些生物信息学的问题。
其他文献
随着信息化的进程,计算机系统越来越深入地融入了国民经济的各个领域,人们对计算机系统的依赖程度与日俱增。尤其是军事、金融、电信、航空航天等国民经济关键领域,不仅需要计算
有序抖动半调图像已被广泛应用于连续色调图像的打印、印刷和显示中。因此研究针对其的高效压缩方法对这类图像的存储、记录和传输有着非常重要的应用价值和现实意义。本文介
目前,随着半导体工艺不断发展,电子系统也具有更高的集成度,而处理器的性能也有了较大的提高。高性能处理器低功耗、高性能的特点给处理器的可靠性带来了负面效应,带来了频发的硬
如今互联网庞大的规模、复杂异质的管理体系使得诸如IPv6、安全路由、PIM-SM等技术难以大规模部署和应用,从而导致互联网在技术创新上面临僵化境地。T. Anderson等人提出的网
随着Internet的快速发展,互联网上的信息越来越丰富,面对爆炸性增长的信息,我们需要采取新的技术手段来管理和挖掘互联网信息。一个好的系统平台是提供优良的信息挖掘服务的基础
心脏电生理建模和仿真有助于人类掌握心脏组织中电传导规律和心脏疾病的发病机制及预防方法,已被成功应用到科学研究、疾病诊断和预防、药物研发等领域。随着心脏几何数据的
随着互联网技术的不断发展,出现了各式各样具有很多丰富功能的网站,人们对网络的需求也不只满足与以往的看新闻,查资料,越来越多的人喜欢在网络中记录自己日常的生活,用简短的状态
空间数据查询问题在地理信息系统、基于位置的服务等相关领域都有着广泛的应用价值。最近邻查询是其中的一种基本问题,通过计算数据点到给定查询点的距离,返回使该距离达到最
无线传感器网络中的许多应用都需要实时通信,但是由于无线传感器网络的动态性和不可靠性,导致端到端之间的延迟是不确定的,这给实时路由的设计提出了严峻的挑战。特别是在周围环
数字半调技术广泛应用于二值设备的图像输出,当需要存储和传输大量半调图像时会占用相当大的存储空间和带宽资源,因此有必要研究半调图像的压缩算法。目前半调图像压缩算法大多