论文部分内容阅读
快速、可靠而准确地预测真核生物DNA序列中的外显子位置,是生物信息学领域的一个重要问题。其中,准确预测短长度外显子的位置是准确预测外显子位置和数目的难点之一。在外显子预测中,有效地抑制由内含子区所产生的背景噪声对提高短长度外显子的预测准确度具有重要的作用。在真核生物的基因中,少量负责编码蛋白质的外显子被非编码的内含子间隔成许多不连续的片断,而且较大比例的外显子长度都很小。准确地预测短长度外显子受制于其所缺乏的明显特征,这使得预测工作十分困难。而且一些短长度外显子所包含的编码信息在肿瘤侵袭和转移等各个环节发挥重要作用。论文提出了两种外显子预测方法,从捕捉短长度外显子的特征和抑制内含子区背景噪声这两方面对短长度外显子的预测准确度进行了提升。目前针对外显子的预测方法,根据原理和特点的不同,主要可以归纳为基于数字信号处理和基于数据库的两大类外显子预测方法。论文利用小波变换模极大值的奇异点检测算法和经验模态分解,发展了两种外显子预测方法。论文整体工作概述如下:(1)基于小波变换模极大值奇异点检测算法的外显子预测方法。该方法首先构造了核苷酸分布序列,通过跟踪核苷酸分布序列的小波变换模极大值点沿尺度的传播特性,对外显子信号与内含子所产生的噪声进行有效地分离,并对短长度外显子所产生的信号突变点保持较高的重构精度,进而实现了对短长度外显子的准确探测。数据集HMR195和BG570是两个用于评估外显子预测方法性能优劣的通用数据集,论文利用这两个数据集对奇异点检测方法在预测短长度外显子中的性能以及整体预测性能进行评估。与现有主要的预测方法相比,奇异点检测方法对数据集HMR195和BG570中外显子预测所得到的预测结果主要体现在如下三个方面:1)在对长度小于等于50碱基对以及长度小于等于200碱基对的短长度外显子预测中,该方法对短长度外显子所得到的探测率分别至少有12%和8%的提高;2)在对整体外显子的预测中,该方法对外显子预测的所得到的准确率至少有6.8%的提高;3)在抑制内含子区背景噪声方面,该方法所得到的信噪比至少有74.5%的提高。(2)为扩大奇异点检测方法的应用范围,论文从数据库NCBI GenBank中随机选取了200组测试数据,其中每组测试数据包含一个短长度内含子以及被这个短长度内含子所分隔的两个相邻短长度外显子。在对这200组测试数据中外显子的预测中,与现有主要的预测方法相比,奇异点检测方法所得到的预测准确率至少有20.7%的提高。(3)基于经验模态分解和修改Gabor小波变换的外显子预测方法。该方法采用了基于DNA抗弯刚度的数值映射机制,利用经验模态分解将DNA数值序列分解为若干本征模态函数。然后,通过修改Gabor小波变换计算第一个本征模态分量的局部功率谱。鉴于经验模态分解是一种自适应的非平稳信号处理工具,因此该方法可以对传统方法无法观察到的短长度外显子特征进行探测。此外,由于只计算了第一个本征模态分量的局部功率谱,因此该方法在噪声抑制方面具有一定的优势。与现有主要的预测方法相比,该方法在对数据集HMR195中外显子的预测中,其预测结果主要体现在如下两个方面:1)该方法对外显子预测所得到的信噪比至少有20.8%的提高;2)在对长度小于等于50碱基对的短长度外显子预测中,该方法所得到的探测率至少有5.3%的提高。图60幅,表14个,参考文献120篇。