论文部分内容阅读
语言是信息的载体,具有信息属性。随着社会信息化程度的不断提高,运用信息理论和方法研究语言的熵成为语言信息研究的重要任务。目前关于汉语信息熵的研究主要集中在汉语的信息化,却极少发现有人运用信息理论来研究语言本体。本文从语言的信息属性出发,系统梳理了信息学、语言学、数学、教育学、计算机科学等专业领域内关于汉语汉字信息熵研究的理论、观点和方法,结合语料库语言学阐述了书面汉语的“字熵”、“词熵”等概念和计算方法。运用书面汉语“字熵”“词熵”的原理和算法,在经过分词标注词性等“熟语料库”支持下,分别对介词的语法化、文本风格比较、红楼梦作者考证等问题进行了“典型案例分析”,为汉语本体和应用研究提供了“信息熵”视角的研究范式。并从信息视角,验证了齐普夫分布的普遍性,对于缩略、简称以及词汇双音化等语言演化规律都将具有令人信服的解释力。全文共分为五章:第一章导言;第二章汉字的熵及其在汉语本体研究中的应用;第三章汉语的词熵及其在汉语本体研究中的应用;第四章汉语的熵和齐普夫定律;第五章结论。
第一章从语言的信息属性入手,对利用熵理论来研究语言本体的可行性、研究的意义、历史、现状和存在的问题做了综述;介绍了本研究的指导理论及研究方法,并对研究过程中的一些问题做了必要的说明。
第二章首先总结了前人关于汉字熵研究的成果和结论,论述了汉字平均熵的测定方法和历史,对字频和熵两种方法做了比较,结合不同类型的汉语抽样语料进行汉字熵的定量分析,得出了语料的平均字熵,并结合古龙、金庸的武侠作品风格的分析,提出了汉字熵在语言本体研究中的应用方法。
第三章是本研究的重点和中心。词是语言中最小的可以自由运用的单位。由于书面汉语以汉字为书写单位,因此,以往都以汉字熵的研究结论代替了汉语的信息熵。本章首先区分了汉字熵与汉语熵的不同,给出了词熵的测定数值,并在此基础上,讨论了汉语的冗余度,对词熵在汉语本体研究中的应用进行了重点阐述,对词熵在语法化研究、不同语体之间的比较、文本历时比较、计算风格学等领域中的应用,结合大量的语料库给出了实证。
第四章介绍了语言中一个重要的统计分布规律——齐普夫定律。运用齐普夫定律分析汉字熵和汉语熵的关系,结合多个汉语语料库文本熵的统计结果,论证了汉语字词熵的分布符合齐普夫定律。同时,发现不同文体的样本的熵分布具有很高的一致性,进一步提高了本研究的学术价值。
余论部分对本论文进行了总结和概括,并指出研究中存在的不足,同时对进一步的研究提出了设想。