论文部分内容阅读
数字水印技术作为信息隐藏的一个重要分支,在数字多媒体产品的版权保护、完整性验证、来源追踪等信息安全领域有着极其重要的作用。文本作为互联网上使用最为频繁的信息载体,由于其复制拷贝十分简单,从而引发了一系列的信息安全问题。传统的文本数字水印方法主要是通过改变文本的格式信息或者是将文本内容进行等价替换来实现水印信息的嵌入,但这样势必会对文本内容有所修改。所以研究不修改文本内容的水印方法是非常有必要的。本文主要对中文文本水印技术进行相关研究。针对该领域存在的一些问题,本文提出了基于编码映射的中文文本水印方法和基于句子多特征融合的中文文本零水印方法。前一种方法主要是采用映射的方法将水印信息嵌入文本内容中,首先将文本进行分词得到各个词汇,然后将所得的词汇用同义词词林分类得到语义集合,最后采用huffman编码将水印信息映射到高频的语义集合。在进行编码的时候,不是采用频数作为权重,而是采用高频集合的行信息作为权重,这样提高了算法的鲁棒性。第二种方法是从另一个角度出发,通过提取文本的重要信息作为水印信息将其注册到可信任的第三方以实现版权认证。其主要思想是首先将文本进行分句,然后对句子进行语义标记,通过标记的结果计算所有词语的语义编码的概率获取句子的信息熵特征,同时通过同义词词林计算词语的相关度获得句子的相关度特征,并采用句子中含有有用词的个数作为句子长度特征,然后运用线性权重公式计算所有句子的权重,将高权重的句子中的名词和动词提取出来作为水印信息。最后通过计算文本间水印信息的相似度进行版权认证。本文利用现有的自然语言处理技术,对中文文本水印方法进行研究。实验结果验证了本文所提算法的有效性。