基于ICBDS优化的无损无参考DNA数据压缩方法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:liuw_ei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA是一种存储生物的遗传信息的聚合物,对DNA进行研究已经成为时下的热点问题。随着高通量测序技术的不断发展,测序费用越来越低,测序周期也越来越短,由此而导致的DNA数据规模以指数级方式快速增长,在有限的资源内,用少量空间存储海量DNA数据资源,成为了生物学家以及计算机专家等人面临的一个新的挑战。近年来提出的DNA数据压缩方法,有的是提升了压缩率,有的则是减少了压缩时间。Nour和Amr提出的压缩方法,相对于过往的方法,在压缩时间方面有很大优势,但是只局限于细菌类DNA数据。本文对该方法进行改进,提出了RU(最近被使用)变换和MG(归并)变换,并给出了两种改进的分步压缩方法,每种方法均分为两次压缩。本文主要工作如下:(1)提出RU变换进行DNA数据压缩。第一次压缩时对DNA数据进行一系列操作,先把DNA数据转化成一个只包含0和1的二进制文件以及相邻字符都不相同的碱基序列文件,接下来把这个碱基序列文件通过RU变换转化成小整数序列文件,再用哈弗曼编码思想转化成二进制文件,最后再把所有的二进制文件转化成普通字符文件;第二次压缩时采用通用文本压缩算法LZ77算法对得到的所有普通字符文件统一压缩。(2)提出MG变换进行DNA数据压缩。第一次压缩时对DNA数据进行一系列操作,先把DNA数据转化成一个只包含0和1的二进制文件以及只剩三种字符的碱基序列文件,接下来把这个碱基序列文件通过MG变换转化成二进制文件和长度减半的碱基序列文件,再用哈弗曼编码思想把最终得到的碱基序列文件转化成二进制文件,最后再把所有的二进制文件转化成普通字符文件;第二次压缩时采用通用文本压缩算法LZ77算法对得到的所有普通字符文件统一压缩。针对本文的两个压缩方法,选取了来自于GenBank数据库常用的DNA数据压缩算法测试数据进行实验论证。实验结果表明,和Nour、Amr的方法相比:对于细菌类DNA数据,基于RU变换的DNA数据压缩方法,压缩时间和解压缩时间均节省了70%以上,代价是压缩率平均降低了1.5%,而基于MG变换的DNA数据压缩方法,压缩时间和解压缩时间均节省了50%以上,代价是压缩率平均降低了0.5%;对于非细菌类,两种方法在压缩率得到提升的同时,压缩时间和解压缩时间均节省了20%以上。
其他文献
针对CO2激光传输用空芯波导的特点,设计、制备了锥形空芯波导耦合器系统.对此耦合系统的传输性能测试表明,使用该锥形空芯波导耦合器能够显著提高空芯波导的激光传输性能.
一位教学论专家谈及自己的研究经历时说:虽然我对俄语一窍不通.但是我可以连听两节俄语课,虽然师生之间都是用俄语对话与交流,其中极少出现汉语.我也能在课后给教师指点迷津,点优勘
2010年,梅洪建说:“让我们一起在尖峰做点事情。”  在他的邀请下,我走进了尖峰论坛。从此,开始了一段神奇的旅程。  尖峰之上,志趣相投  “什么是班主任工作本位?”  “什么是班级发展的核心?”  “班级发展平台对于学生成长的意义?”  “新时期,我们班主任应该如何引领学生构建班级发展平台?”  初到尖峰,我曾被这些闻所未闻的问题搞得“丈二和尚摸不着头脑”,也曾因为自己跟不上群内的讨论节奏而沮
1993年关贸总协定(GATT)的乌拉圭回合谈判各成员国达成了无例外全面降低关税的协议.在GATT的基础上,世界贸易组织(WTO)于1994年4月15日成立,以便制定更公平、有效率、可执行
期刊
在学校,同事是我们无法回避的交际对象,无论谁都想拥有一个和谐自然的人际关系。但是,人际交往也是一门艺术,需要我们在现实生活中去感受体验,在实践中学习和经营。说到这里,自己当
如果在一年前或是更早的时候,我肯定对静静的课堂持反对意见。那个时候,我更喜欢充满激情和活力的课堂。也许是随着年龄的增长,又或是自己心境渐淡的原因,我现在更钟爱安静的思考
本文基于对中国古书画装裱丝绸织物纹样的研究,遴选出三部装裱丝绸纹样类型较为丰富的中国古书画作品,分别对其装裱丝绸纹样类型、风格特征及装裱丝绸织物上的印章年代进行了