论文部分内容阅读
随着计算机网络的不断发展,互联网上文本、图像和音视频数据有了快速地增长。数字水印是一种为这些数据提供隐蔽通信、版权保护、载体认证等服务的技术,近年来成为信息隐藏领域兴起的一个研究热点。目前,国内外学者对数字水印的研究主要集中在图像、音频和视频等领域,对文本的研究相对较少。文本数据作为互联网上使用最多和最广的一种信息载体,相较于图像、音频和视频等载体,由于文本载体的冗余空间小,造成水印嵌入比较困难,因此,对文本数字水印技术进行研究具有极大的挑战性。 本文主要以中文文本为研究对象,利用自然语言处理中的同义词替换技术和通信理论中的编码技术,对可逆中文文本水印算法进行了深入研究,探讨了编码与同义词替换相结合的的可逆文本水印算法。论文主要研究工作与创新点如下: 1.介绍了数字水印的概念、特点,并对其各类水印算法进行了详细论述,总结了数字水印系统的一般嵌入和提取模型,重点概括了现今已有的针对文本的几类数字水印算法,并对这些算法的优缺点进行了分析。 2.深入分析基于汉字特征的文本水印算法,利用后鼻音汉字的特征,提出了基于后鼻音汉字的文本水印篡改检测算法。结合零水印思想,从汉字发音的角度,以后鼻音汉字为标志对文本进行划分实现文本的分组,通过提取这些分组文本的特征来构造零水印,探讨一种基于后鼻音汉字的零水印算法。通过实验对算法进行仿真测试,分析了算法的不可见性、水印容量、鲁棒性以及文本内容篡改的定位检测,验证了算法的有效性。 3.为了克服自然语言的文本水印算法中因同义词替换不具有可逆性造成的语义的偏离问题,以及现有可逆文本水印算法无法判断和定位出可替换同义词以外区域文本的篡改情况,从通信编码的角度,探讨一种编码与同义词替换相结合的可逆文本水印算法。以可替换同义词为标志对文本进行分组,提取分组文本特征生成水印;利用纠错编码和霍夫曼编码,对同义词库中同义词的位置进行编码,结合同义词替换技术完成水印的嵌入;在提取水印时,利用分组文本特征和纠错码的检测纠错功能,实现水印文本的篡改定位以及可替换同义词的还原。仿真实验表明,算法嵌入的水印具有良好的不可见性和较强的鲁棒性,在实现对文本篡改定位的同时,实现了可替换同义词无损还原。