论文部分内容阅读
从20世纪90年代开始,人们开始逐渐意识到民族语言文化的价值,尤其是民族语料资源。在此背景下,各学术机构纷纷提出建立多种类型语料库,深入挖掘和维护民族语料的价值和使用规范。语料库是大数据时代背景下语言学研究的重要工具。对外汉语界已经建立了一些中介语语料库和HSK动态作文语料库,在对外汉语教学实践和汉语本体研究中发挥了巨大的作用。于是笔者开始思考在语料库的建设方面为汉语研究者提供更多的便利,着手建立一个汉语儿童读物的语料库。经过精心的设计和编纂,我们初步拟建立一个规模为700万字的汉语儿童读物语料库,整个开发过程包括语料库的初步设计、语料的采集、数据库编程、语料录入、后期整改等方面。语料库设计的基本出发点是:使该语料库为研究者提供的语言调查是合理而且可靠的。语料库语言学是根据从语料库中的文本统计得到相关频率信息,利用统计学原理来测量纷繁复杂的语言现象在实际语言使用中的具体情况。因为语料库的统计数据全部来自真实语言,而且基于语料库的数据可以在很大程度上避免偶然性,所得结论更具备说服力。汉语儿童读物的编写研究不仅可以深化对儿童汉语习得的认识,并且对汉语二语教学有极大的借鉴参考意义,母语习得和二语教学有着密不可分的联系,儿童读物可以真实反映出汉语习得的一些规律,这些规律既可以用来指导国内语文教学,又可以为对外汉语教学和汉语教材编写,尤其是对外汉语读物的开发提供宝贵素材。语料库作为大数据时代语言学研究的有力工具可以为这些研究提供强大的技术支撑。因此,我们设计一款针对汉语儿童读物的语料库,儿童读物主要来自国内畅销读物和翻译引进的外国优秀读物,适读年龄从1岁到12岁,其中又分为三个不同的年龄段。我们建立该语料库的目的是用来调查和分析儿童读物的语言特点和编写用字,基于自建的汉语儿童读物语料库,采集不同年龄段、不同题材的儿童读物文本,利用语料库中的分词程序进行词切分,最后完成不同年龄段、不同类型文本的字频和字段的统计,对儿童读物中汉字、词汇和句子的实际使用情况进行全面地调查了解,统计和分析儿童读物中的汉字、词语的出现频率和句子长度的使用情况进行综合分析。