论文部分内容阅读
近几年来生物信息学主要关注了DNA序列上的数据特点,利用DNA序列中的碱基信息去探索序列中的功能区,挖掘序列中可能含有功能信息的潜在位点,探索隐藏在碱基下的遗传信息。本文目的在于挖掘出DNA序列中的功能词语和功能信号,但由于现阶段对非编码区表达信息知道的很少,因此对于更加准确理解DNA序列有一定困难。在本文中主要提出了条件随机场模型作为序列切分的工具,与其他统计模型相比,它解决了标记偏置的问题,同时可以任意添加特征。首先是对英文序列进行分析,选取与语言无关的特征,最后发现改进的信息熵包含的信息量最多。然后对添加了特征和标记的英文的序列进行切分,发现准确率在90%以上,说明基于条件随机场的英文序列的切分是有效的,选取的特征有很好的切分效果。利用英文序列和DNA序列都是小字符集的特点,同时经过英文序列切分选取到好的与语言无关的特征。考虑迁移学习的思想,对英文序列和DNA序列的特征值进行拟合分析,发现两个样本空间的特征值可以通过转换函数连接起来,对英文序列的特征值经过转换函数处理后映射到DNA序列的样本空间;同时考虑不采用迁移学习,利用已有的位点信息来构造模型进行序列的切分,对两者的序列切分的结果进行比较,迁移学习的召回率在80%左右,而只基于已有位点的切分召回率只有40%左右,这说明迁移学习对DNA序列切分的准确性要比采用已有的位点信息进行切分准确的多。最后研究DNA序列的词序列应用。通过采用向量空间模型和改进的序列比对方法去计算人和黑猩猩序列的物种相似度,发现改进的序列比对的方法要比向量空间模型计算得到的相似度更接近现实值。然后选择人类,黑猩猩和拟南芥,还有白菜做相似度计算,判断其在真实进化树中的位置是否正确,发现人类和黑猩猩相似度相近同时在进化树中也处于同一分支,人类和拟南芥之间差别较大,在进化树中也相距很远。这说明以单词为粒度进行序列切分更容易解决一些生物信息学的问题。