论文部分内容阅读
汉字字形计算是基于汉字的表示方式和结构的计算,经过三十多年的汉字信息处理技术的研究和发展,汉字信息技术的研究已经从最初的汉字基本编辑、编码技术(包括输入和输出技术)的研究逐渐向包括字形结构、个性化和语义等深度计算领域发展。特别是随着分布计算、移动计算和云计算等技术在文字信息处理领域的应用,汉字信息处理技术进入了一个崭新的研究和发展阶段,传统的以固定字库文件为主要服务方式、以有限量字形(“黑、宋、楷、仿”等)为服务内容的编码汉字系统越来越不能更好地适应当前多元化、个性化和结构化的汉字表示和存储技术发展的需要。 本论文将在现有的编码汉字系统基础上,深入研究和汉字字形相适应的描述机制和生成技术,探讨互联网环境下汉字信息处理过程中的个性特征、生成技术。主要研究工作如下: (1)论文以个性化汉字的表示方法和汉字字形的生成方法为主要的研究对象,从信息表示的源头出发,通过分析汉字字形的结构首先定义了汉字笔元的概念,然后结合汉字的结构特征和书写规范构建了组成汉字的五种基本笔画框架;并基于这一框架,设计了人机交互的汉字字形描述算法,建立了和汉字字形特征相适应的多层次汉字字形描述库;并研究了基于笔元汉字的输入、输出和存储机制,构建了基于认知的汉字信息表示、转换和存储模型。 (2)论文在汉字字形描述库的基础上,定义了汉字字形服务的概念,创建了笔画汉字系统;并结合云端数据存储特征,研究了汉字字形的分布式存储方法,设计了汉字字形存储和传输的通道传输方法;并根据不同类型的数据通道定义了不同的数据类型,根据这些数据的特征将这些数据分为基本模态数据和扩展模态数据,提出了多模态数据融合的个性化汉字字形生成方法。 (3)论文在完成不同模态下的汉字生成方法的研究之后,提出了利用图论对汉字进行语义描述和处理的模型,建立了汉字图形网络;结合图形理论,首先研究了汉字图形的抽象方法,设计了汉字图形的抽象算法,建立了汉字字形的邻接矩阵;并通过汉字图形网络,来研究汉字认知网络,研究了汉字认知网络中知识的获取方法和不间断的学习方法。 (4)作为汉字动态描述机制的一个重要应用,论文基于汉字字形描述库,设计了一种特殊汉字生成模型;通过定义隐藏笔元的方法,实现了汉字信息的结构隐藏;通过笔画的生成控制,实现了汉字信息的风格隐藏;通过结构的生成控制,实现了错字字形的输入和输出;通过汉字的自动销毁输出,实现了汉字文档和信息的安全存储、输入和输出;为汉字字形的版权保护、汉字信息文档的安全保护提供了一种有效的策略。 论文的研究成果在于从汉字的表示角度,探究了个性化汉字的表示、存储和生成机制,建立了一种面向互联网的汉字描述体系,将目前的中文信息表示的编码汉字系统扩展到了信息表示的笔画汉字系统;为自然语言处理领域全面深入地研究汉字的语义计算奠定了坚实的基础。 最后,论文研究的结论认为:在信息技术飞速发展的时代,单一的汉字编码机制和汉字字库文件服务方式已经不能适应互联网环境下的个性化汉字服务技术的发展,智能化的汉字系统将是未来汉字信息发展的必然趋势。