论文部分内容阅读
对外汉语教材在对外汉语语言教学中的地位很重要,编写一套优秀教材的工作量非常大。如果在教材编写过程中,能有相应的辅助工具帮助编者实时的检查教材中的语言项目,如词汇、语法的使用和分布情况,将会大大提高编者的工作效率,使编者可以集中精力去做更具创造性的工作。本文旨在探索计算机技术在对外汉语教材编写过程中的应用,开发面向对外汉语教材编著工具的词频统计和初级基本句型统计模块,为教材的词汇定量分析和初级句型使用情况分析提供支持,从而提高对外汉语教材编写的效率。
本文在第一章首先调查了对外汉语教材的现状,指出了本文的研究背景和意义,然后对现有的4款对外汉语教材编写工具在功能上做了调研,分析了它们的各自优势与核心功能;随后,简单介绍了本实验室计划开发的对外汉语教材编著工具的总体框架,指出其核心模块--辅助编著模块的重要性,并在此基础上提出了词汇和初级基本句型统计子模块的研究方案。
第二章简单介绍了本文所用到的中文信息处理算法及相关技术。
第三章、第四章分别介绍了词汇难度统计和初级基本句型统计模块的详细设计方案。首先,对模块设计中的语言项目资源--难度等级词汇和对外汉语初级基本句型来源选取问题,从理论和实际使用做了讨论;其次,根据具体的词汇和句型属性,分别设计词频统计数据结构和初级基本句型库表;再次,综合使用了自然语言处理开源工具Maxent来协助进行句法浅层分析,利用Java语言实现模块编码,完成对汉语教材语料在词汇和初级基本句型的统计分析工作。
由于模块的设计对选取的词汇表和初级基本句型库依赖较强,我们在实现时重点参照了以下原则:1.实用性,选取初级基本句型,考虑了句型的语义、语用功能;2.稳定、高效,词汇统计模块根据常用词汇的内部规律设计,选用了哈希表-键树结构,运行稳定、响应速度快;3.易于实现,将初级基本句型库关键词在数据库中单独作为字段存放,在句型识别中,直接搜索所有可能的初级基本句型关键词,然后再做匹配分析;在实现上,使用Java语言开发,Access数据库存储中间数据,操作易于实现。