基于k-mer短序列的DNA数据压缩算法研究

被引量 : 0次 | 上传用户:wkylyf001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA序列数据量巨大,其相关压缩技术是生物信息学中必不可少的关键技术,是DNA序列数据有效存储、读取和传输的基础,是进行DNA测序拼接、序列比对、基因预测等的前提,因此,对DNA序列数据的压缩技术进行研究具有非常重要的理论意义与应用价值。近年来,随着信息处理技术的发展以及对DNA序列数据自身特点研究的深入,各种专门针对DNA序列数据的压缩算法大量涌现。本文从DNA序列数据具有高度重复性的特点出发,对序列中长度很小的k-mer子序列片段重复性进行了统计分析,并归纳和总结了DNA序列数据碱基及k-mer短序列分布的重复性规律。针对DNA序列中,不同片段区域k-mer分布具有很大差异性的特点,提出了基于分段编码的DNA数据压缩算法。在预处理阶段,将DNA序列分割成64个碱基一组的短序列片段,对每一个片段分别进行独立考虑。统计片段中重复率最高的3-mer子序列,利用其在片段中出现的次数和位置等信息进行替代编码,从而对DNA序列进行压缩。分段编码压缩算法简单,对常用基准测试序列都能具有比较好的压缩性能。针对DNA序列中,k-mer长度很小时,部分k-mer具有很高重复性的特点,提出了基于GA-PSO混合优化的DNA数据压缩算法,将DNA序列中等长k-mer的不同组合抽象成不同的寻优粒子,用GA-PSO混合优化算法搜索序列中重复性高,能达到最大压缩率的最优k-mer组合,对序列中出现的最优k-mer进行编码,从而对序列进行压缩。GA-PSO混合优化算法中,每一轮迭代寻优前,先用支持向量机模型将DNA碱基粒子群分成两组,然后分别采用GA算法和PSO算法优化。实验结果表明,本算法能获得比较高的压缩率,而且相比于传统算法,具有更好的鲁棒性。
其他文献
新课程背景下的物理教学不是传授给学生机械的知识,而是引导学生发现问题,在解决问题的过程中提高物理学习能力。问题教学法正是以问题为中心展开教学,将教学内容化为促进学
随着市场经济的不断发展和完善,尤其是经济环境、法律法规、信息技术的发展,经济内容不断丰富、经济现象复杂化、经济关系多样化,需要更加全面的会计工作提供更加全面的会计
近年,房地产开发企业的高盈利掩盖了诸多其内部企业发展问题。然而,社会经济的变化、消费需求的变化以及国家控制政策的变化实质上已经对房地产开发企业的转型提出呼声。企业的
随着船体曲面设计和性能计算的快速发展,在二者之间建立有效直接的联系显得愈来愈重要相比传统的反复循环高度交互的工作,一种直接和即时反馈的设计方法应运而生船体曲面参数化
三元乙丙橡胶(EPDM)有极好的耐热、耐老化、耐腐蚀性能和绝缘性能,广泛用于电线电缆,汽车,家电等领域,但三元乙丙橡胶极易燃烧,在一些应用领域都受到限制,为了提高三元乙丙橡胶的阻燃
监控量测作为隧道新奥法的三大要素之一,在隧道信息化施工和保证施工安全发挥着重要的作用,其主要内容有必测项目如拱顶沉降、周边收敛、地表下沉和选测项目。本文以广东罗阳高
针对特定对象的社会募捐是募集人以特定受益人的特定受助事由为号召,向不特定的社会公众公开募集款项和物资的行为。随着经济的发展,我国的社会保障制度虽有了较大的发展,但尚不
华南地区建筑的发展,因远离政治中心而又毗邻港澳的独特地理区位、以及对外交流频繁的历史和文化背景,既“得风气之先”,也“开风气之先”,形成独特的地域风格。华南地区建筑教育
根据我国《物权法》第23条的规定,动产的物权变动以交付为要件,且交付具有公示的效力。但是,一些特殊动产,比如船舶、航空器还有机动车,根据我国的《物权法》,它们的物权变动却采用
环氧固化物因其优异的耐热、力学、绝缘和耐化学腐蚀等性能而广泛应用于电子元器件的粘接、封装和印刷电路板的制造。然而,与大多数高分子材料一样,环氧固化物易燃的缺点限制了