论文部分内容阅读
随着互联网的飞速发展,多媒体数字文本在传播过程中导致的版权纠纷正日益成为一个亟待解决的难题,为了能够有效地保护作者版权,文本数字水印技术应运而生。传统的文本数字水印大多基于格式上的修改,使得文本修改前后的变化无法被人们轻易察觉,以达到嵌入水印的目的。例如,通过改变文本字间距、行间距、空格符、字符颜色、字符尺寸等嵌入水印信息。这类方法虽然取得了一些效果,但其最大的缺点是水印鲁棒性很差,攻击者可以通过“copy to notepad”的方法轻易去除这些水印。为了弥补这类鲁棒性缺陷,学术界提出了通过同义词替换并使用英文单词的ASCⅡ码来嵌入水印的方式,典型代表是Equmark系统。这类方法虽然使得水印更为隐蔽,但无法阻止攻击者通过随机替换来破坏原有的水印信息。接着,研究者们开始着手在更高级别的语法要素上开展数字水印研究工作,典型代表就是Atallah等人于2000年提出的基于语法结构转换的水印嵌入方案,该方案通过转换句子的语法树,使得水印承载句的某几位正好匹配待嵌入的水印信息,以达到嵌入水印的目的。语法水印技术大大拓展了水印容量空间,便于实现,相继出现了若干个演示系统,如Enigmark等。近些年,自然语言水印技术的前沿热点逐渐转向了语义水印领域。语义水印通过引入本体语义TMR树来表示句子的语义结构,使得转换后的TMR树二进制串的某些位正好匹配待嵌入的水印。相比语法水印,语义水印转换形式多样,具有更好的灵活性,同时也具备更好的水印容量空间。基于上述背景,本文围绕这个主题开展的工作如下:重点围绕目前的语义水印技术在某些方面的不足提出了3个创新点。一、提出了L语义水印方案。该方案主要针对Atallah语义水印在遭受语序调整攻击时,无法取得令人满意的效果,提出了一个改进方法。本文引入TMR串重排序预处理机制进行优化,使得改进后的方案可以在一定程度上抵抗语序调整攻击。二、提出了L语义水印阈值概念,在这个阈值下进行的L语义水印实验可以获得最高的水印检测率。三、提出基于L语义水印阈值的水印修补策略。水印在遭到轻微破坏的情况下并非完全失效,本文提出了一种水印修补方案,利用最长公共序列的思想,提供了在水印遭到破坏时的一种检测策略。最后,实现了一个原型系统。该原型使用MIKROKOSMOS项目提供的9个TMR样本测试L语义水印方案的有效性,同时通过在三个不同水印阈值设定下的重复比对试验,验证L语义水印算法的最佳阈值。实验表明,L语义水印方案在阈值设定为20bit时具有最好的抗语序调整攻击特性,本文提出的L语义水印方案具备较好的鲁棒性和可靠性。