论文部分内容阅读
近年来,昆虫系统发育研究越来越多地用到分子生物学数据,形成了分子系统学研究的崭新领域。而多序列比对是分子系统学的基础,分子序列通过插入空位进行比对。为了获得有意义的比对结果,人们广泛采用仿射空位罚分策略来限制插入的空位的数目。在这个策略中罚分是任意指定的。以前的研究表明不同的空位罚分可能导致不同的比对结果。本文给出统计学的证据证明空位的确对多序列比对有显著性影响,并且描述了空位的其他一些特征。我们从GenBank上下载了38个数据矩阵,并将其分为rDNA、外显子DNA、外显子氨基酸和ITS四种矩阵类型。使用ClustalX进行序列比对,每一次比对都调整罚分参数。对比对结果的统计分析表明,起始空位罚分和延伸空位罚分都显著地影响空位的百分含量。多重比较显示,起始空位罚分(q)为4、延伸空位罚分(r)为1可以代表插入较多空位的比对情况,而q=15、r=8可以代表插入空位较少的比对情况。此外,不同数据矩阵类型插入的空位的百分含量也显著不同。空位百分含量对罚分参数的曲线可大体分为波浪形曲线、水平直线和递降曲线。不同的矩阵类型趋向于不同的曲线类型。同时证明,外显子氨基酸矩阵比其相应的DNA矩阵更加保守。 虽然空位罚分显著地影响多序列比对,但是并不清楚当空位以不同的方法编码和使用不同的重建算法时系统发育分析结果是否存在差异。我们选择q=4、r=1和q=15、r=8的比对结果进行系统发育重建。树搜索的方法包括最大简约法和贝叶斯法。在最大简约法中,空位分别被编码为丢失的数据、第五性状和简单插入缺失编码。结果表明,使用最大简约算法,改变空位罚分时,树长的变化与信息位点数目的变化规律并不完全一致。空位数目的减少导致系统发育树拓扑结构对数据集适合度降低和非同源因素的比例增加。所以使用一个较小的罚分以插入更多的空位有时是必须的。空位罚分最终对Bootstrap支持率影响不大,但是在大多数情况下却改变了严格合意树的拓扑结构和分辨率。将空位编码成第五性状与编码成丢失的数据相比,尽管显著增加了信息位点数目和树长,但最大简约树的数目并未明显减少。两种编码方式并没有显著地改变一致性指数、保留指数、校正一致性指数和Bootstrap支持率,但是却严重地影响严格合意树的拓扑结构和分辨率。不同矩阵类型间一致性指数、保留指数和校正一致性指数存在显著性差异。简单插入缺失编码的确比将空位编码成丟失的数据更有效。与将空位编码成第五性状相比,除拓扑结构、分辨率和Bootstrap支持率外,简单插入缺失编码对其它评价参数没有太大的影响。空位含量不同,简单插入缺失编码对系统发育分析结果的影响力也不同。Bayesian分析表明,由q=4、r=1和q=15、r=8得到的50%合意树的平均Bayesian后验概率并无显著性差异,但是拓扑结构和分辨率只有少数完全相同。综上,我们认为仅仅由有限的分子序列数据获得的系统发育关系是不可靠的。上述拓扑结构和分辨率的不同很可能在比对阶段就已经产生了,因此掌握更多的生物学信息以获得一个好的比对结果比单纯地依赖系统发育重建算法可能对于得到正确的系统发育关系更为重要。