面向对外汉语教材编著工具的词频和初级基本句型统计模块构建

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:juntao2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对外汉语教材在对外汉语语言教学中的地位很重要,编写一套优秀教材的工作量非常大。如果在教材编写过程中,能有相应的辅助工具帮助编者实时的检查教材中的语言项目,如词汇、语法的使用和分布情况,将会大大提高编者的工作效率,使编者可以集中精力去做更具创造性的工作。本文旨在探索计算机技术在对外汉语教材编写过程中的应用,开发面向对外汉语教材编著工具的词频统计和初级基本句型统计模块,为教材的词汇定量分析和初级句型使用情况分析提供支持,从而提高对外汉语教材编写的效率。   本文在第一章首先调查了对外汉语教材的现状,指出了本文的研究背景和意义,然后对现有的4款对外汉语教材编写工具在功能上做了调研,分析了它们的各自优势与核心功能;随后,简单介绍了本实验室计划开发的对外汉语教材编著工具的总体框架,指出其核心模块--辅助编著模块的重要性,并在此基础上提出了词汇和初级基本句型统计子模块的研究方案。   第二章简单介绍了本文所用到的中文信息处理算法及相关技术。   第三章、第四章分别介绍了词汇难度统计和初级基本句型统计模块的详细设计方案。首先,对模块设计中的语言项目资源--难度等级词汇和对外汉语初级基本句型来源选取问题,从理论和实际使用做了讨论;其次,根据具体的词汇和句型属性,分别设计词频统计数据结构和初级基本句型库表;再次,综合使用了自然语言处理开源工具Maxent来协助进行句法浅层分析,利用Java语言实现模块编码,完成对汉语教材语料在词汇和初级基本句型的统计分析工作。   由于模块的设计对选取的词汇表和初级基本句型库依赖较强,我们在实现时重点参照了以下原则:1.实用性,选取初级基本句型,考虑了句型的语义、语用功能;2.稳定、高效,词汇统计模块根据常用词汇的内部规律设计,选用了哈希表-键树结构,运行稳定、响应速度快;3.易于实现,将初级基本句型库关键词在数据库中单独作为字段存放,在句型识别中,直接搜索所有可能的初级基本句型关键词,然后再做匹配分析;在实现上,使用Java语言开发,Access数据库存储中间数据,操作易于实现。
其他文献
煤炭是我国的基础能源,是关系国家经济命脉的重要基础产业,同时我国煤矿地质条件复杂,是世界上灾害严重、事故多发的国家。现在大多数煤矿都安装了瓦斯监控系统,积累了大量的
韶山8型电力机车是用于我国电气化铁路干线的一种快速客运机车,在中国铁路历次大提速中发挥了重要作用。电气线路是电力机车最重要的组成部分,也是机车中最复杂、最难学习掌握
语言是人类积累知识和交流思想的重要工具,因此让机器理解自然语言是通往通用人工智能的必经之路。从海量的自然语言文本中快速并准确定位有效的信息,需要将用户的需求与大量的
数据挖掘是一个比较广泛的概念,它包括各种从大量的数据中发现模式的方法。它所包括模式主要有关联规则、分类、聚类、序列模式等等。关联规则的挖掘是数据挖掘中的一项重要和
随着集成电路设计和工艺技术的发展,可编程片上系统(SoPC)已经在工业控制、消费类电子等嵌入式中得到了广泛的应用。它不仅减小了电路尺寸,而且具有成本低廉,可靠性高,功耗低等优点
应用题是的重要内容,但在长期的教学实践中,应用题教学却始终是数学教学中的难点和薄弱环节。机器智能化与自动解题是计算机应用研究的一个重要领域,尤其自动解题在数学方面应用
随着中国经济的快速发展,汽车作为主要的交通工具已经走进千家万户,与此同时,城市交通堵塞和汽车失盗情况频繁出现。鉴于目前我国现状,本论文对通用汽车导航定位系统进行了研
IP组播提供了一种发送方同时发送信息到多个接收方的高效通信机制,具有广阔的应用前景。但是目前的组播协议缺乏满足组播应用安全性要求的安全机制,每一台主机都可以通过发送IG
随着我国经济的飞速发展和现代社会城市化速度越来越快,存在巨大的交通出行需求,人们对城市交通信息的需求越来越高,同时对交通运输在质量、时间和安全方面提出了更高的要求。然
规则引擎是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义编写业务决策。接收数据输入,解释业务规则,并根据规则做出业务决策。但是