汉语的熵及其在语言本体研究中的应用

来源 :山东大学 | 被引量 : 0次 | 上传用户：beyondryo

【摘要】

：

语言是信息的载体，具有信息属性。随着社会信息化程度的不断提高，运用信息理论和方法研究语言的熵成为语言信息研究的重要任务。目前关于汉语信息熵的研究主要集中在汉语的信息

【作者】

：

徐先蓬

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2013年期

【关键词】

：

书面汉语信息熵齐普夫分布语言本体测定数值

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语言是信息的载体，具有信息属性。随着社会信息化程度的不断提高，运用信息理论和方法研究语言的熵成为语言信息研究的重要任务。目前关于汉语信息熵的研究主要集中在汉语的信息化，却极少发现有人运用信息理论来研究语言本体。本文从语言的信息属性出发，系统梳理了信息学、语言学、数学、教育学、计算机科学等专业领域内关于汉语汉字信息熵研究的理论、观点和方法，结合语料库语言学阐述了书面汉语的“字熵”、“词熵”等概念和计算方法。运用书面汉语“字熵”“词熵”的原理和算法，在经过分词标注词性等“熟语料库”支持下，分别对介词的语法化、文本风格比较、红楼梦作者考证等问题进行了“典型案例分析”，为汉语本体和应用研究提供了“信息熵”视角的研究范式。并从信息视角，验证了齐普夫分布的普遍性，对于缩略、简称以及词汇双音化等语言演化规律都将具有令人信服的解释力。全文共分为五章:第一章导言;第二章汉字的熵及其在汉语本体研究中的应用;第三章汉语的词熵及其在汉语本体研究中的应用;第四章汉语的熵和齐普夫定律;第五章结论。　　第一章从语言的信息属性入手，对利用熵理论来研究语言本体的可行性、研究的意义、历史、现状和存在的问题做了综述;介绍了本研究的指导理论及研究方法，并对研究过程中的一些问题做了必要的说明。　　第二章首先总结了前人关于汉字熵研究的成果和结论，论述了汉字平均熵的测定方法和历史，对字频和熵两种方法做了比较，结合不同类型的汉语抽样语料进行汉字熵的定量分析，得出了语料的平均字熵，并结合古龙、金庸的武侠作品风格的分析，提出了汉字熵在语言本体研究中的应用方法。　　第三章是本研究的重点和中心。词是语言中最小的可以自由运用的单位。由于书面汉语以汉字为书写单位，因此，以往都以汉字熵的研究结论代替了汉语的信息熵。本章首先区分了汉字熵与汉语熵的不同，给出了词熵的测定数值，并在此基础上，讨论了汉语的冗余度，对词熵在汉语本体研究中的应用进行了重点阐述，对词熵在语法化研究、不同语体之间的比较、文本历时比较、计算风格学等领域中的应用，结合大量的语料库给出了实证。　　第四章介绍了语言中一个重要的统计分布规律——齐普夫定律。运用齐普夫定律分析汉字熵和汉语熵的关系，结合多个汉语语料库文本熵的统计结果，论证了汉语字词熵的分布符合齐普夫定律。同时，发现不同文体的样本的熵分布具有很高的一致性，进一步提高了本研究的学术价值。　　余论部分对本论文进行了总结和概括，并指出研究中存在的不足，同时对进一步的研究提出了设想。

其他文献

供暖系统研究

供暖系统每小时失水率一般不超过其循环水量的1-2%，据统计目前有些供暖系统的实际失水率却远超过这个数值，个别供暖系统的实际失水率甚至达到4%以上。在水、电、煤等能源价格不断上涨的情况下，供暖系统失水率的增多使许多供热企业不堪重负。因此在国家侣导节能减排，建设节约型社会背景下，讨论供暖系统失水原因及防治措施意义重大。　　1 供暖系统概述　　供暖系统由热源、热媒输送管道和散热设备组成。热源是制取具有压

期刊

自我保护:靠智也靠勇

拴在门边的大狼犬被放开了,呲着牙,目露凶光向我们扑来;同时,几个伙计神色不善地将我们围住……情况万分危机,不得已我只好打电话向当地警方求助,才免了一场灭顶之灾.

期刊

危机门边伙计电话

芙蓉塘外墨云湿——周思聪绘画及市场

如单让广大收藏家列举出建国以来最优秀的女性艺术家名单,相信很多人首先想到的名字会是周思聪。周思聪在不同时期以其风格反差巨大的艺术创作打动了无数观者的心灵。作为20

期刊

周思聪女性艺术家艺术创作艺术视角中央美术学院中国画艺术叶浅予创作思维蒋兆和吉林省博物馆

信息技术与小学数学课程的整合探究

随着时代的进步和科技的发展,课堂教学也渐渐摆脱了以往单调的教学模式,走向了信息技术、网络技术、多媒体应用与课堂教学相结合的道路。重点探究在新形势下信息技术与小学数

期刊

信息技术小学数学结合

对高层建筑给排水施工建议

近年来，随着改革开放的深入，我国城市建设进入了高速发展时期，兴建了众多的高层建筑。由于在工程施工中土建与给排水专业缺乏必要的配合，设计上不够完善、大量预留预埋洞口不准确等原因，容易造成打凿洞口等一些质量缺欠，这样既影响给排水工程施工质量和使用功能，又降低了建筑结构的承载力。给排水是建筑工程施工中不可缺少的组成部分，给排水工程施工的质量直接影响建筑物的使用。通过长期实践摸索，研究总结出一套行之有效的

期刊

彭少云作品

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

区域预约转诊平台的设计与实现

摘要：近年来，随着医改的深入发展，我国医疗卫生事业取得了长足进步，各级卫生机构都建立了专用的医院信息系统，提升了工作效率。但是，限于管理原因和系统设计等原因，医院之间尚无法进行有效的信息共享，病人从社区医院转诊到上级医院时，其在社区医院的诊断和保健信息无法实现同步转移，有必要建设一套基于区域共享的预约转诊平台，使病人得到有效分流，以达到分级诊疗的目的。　　关键词：区域预约转诊平台；设计与实现　　1

期刊

区域预约转诊平台设计与实现

李克文一行赴新沂考察

2015年9月4日,国家风景园林学会盆景赏石分会常务副理事长李克文、副理事长兼秘书长陈秋幽及中国盆景艺术大师赵庆泉、王恒亮等人赴新沂考察,受到了新沂市副市长田志耕和原市

期刊

风景园林学李克副主任赵庆张新协会名誉会长田志桩材新诉园主

禁忌·欲望·悲剧——《榆树下的欲望》与《伏羲伏羲》的比较研究

本文对《榆树下的欲望》与《伏羲伏羲》进行了比较研究。从远古神话肇始，乱伦以其独特的艺术魅力长期存在于文学作品之中。由于创作者通过深刻刻画乱伦这一重要叙事母题来表达

学位

小说创作乱伦主题叙事模式比较文学

发电厂散装机开关的改进

散装机自80年代随火力发电厂主机锅炉一同引进,至今已有20多年了,基本没有改进过.由于散装机工作环境恶劣,有粉尘、静电、噪声等干扰,使原有控制系统经常失灵、频繁维修.其主

期刊

散装机粉煤灰压力开关到位开关可靠性

汉语的熵及其在语言本体研究中的应用

其他学术论文