论文部分内容阅读
随着数字化社会的不断发展,日益增长的海量数据在推动文明进步、方便人们生活的同时也带来了巨大的存储负担。在过去的二十年中,世界各地的科学家致力于寻找具有更高存储密度、更长存储期限的数据存储解决方案。作为生物遗传信息的优良载体,脱氧核糖核酸(Deoxyribonucleic acid,DNA)在信息存储方面具备种种远超磁盘存储的优异性能。因此研究者们对利用DNA作为信息存储介质实现高密度、低功耗、长期稳定的数字信息存储有着浓厚兴趣,DNA信息存储技术前景广阔。DNA用作数字信息存储,就是要建立存储内容与DNA分子碱基序列的映射关系,合成相应的DNA分子,从而完成存储内容的写入。DNA测序技术可以通过读取DNA分子的碱基序列进行存储内容的恢复。目前DNA信息存储技术的信息存储密度与DNA分子本身的信息存储潜力尚有差距,研究如何提高DNA信息存储密度对于降低成本、提升效能具有重要意义。同时,设计相应的纠错算法以减少在DNA序列的合成、复制、测序过程中引入的错误,也是重要的研究方向。针对信息存储密度的提升,本文主要工作如下:1)提出了一种引入熵编码的DNA信息存储编码方案,该方案通过四进制哈夫曼DNA编码建立存储内容与DNA碱基序列的映照关系。该模型有着高于当下国内外方案的存储密度,适用于图片、音频、文本等格式的文件。2)在方案中引入汉明纠错码完成纠错检错功能,并结合DNA信息存储的实际特点对汉明码进行了四进制改进。通过在碱基序列中插入相应的纠错位,纠正存储与读取过程中发生的序列错误,该方案可以在尽可能引入较低冗余的前提下实现纠错,降低信息存储的错误率。3)设计了可视化界面,实现存储内容到数据流,数据流到碱基序列的相互转换,以分别实现存储内容的存储写入与读取恢复。4)进行了本文所提出DNA信息存储方案包括生物实验在内的全流程实现,将两份文本文档和一张图片存储到了生物合成的DNA分子中,存储文件大小为5.2KB,合成短链DNA共8条,共计3614位碱基。通过DNA测序技术读取了一份备份的碱基序列,进而成功解码恢复了存储内容。