论文部分内容阅读
语言习得的计算模型研究基于计算技术的语言知识获取,是高质量自然语言处理应用中不可或缺的部分。儿童时期是语言知识习得的关键期,人类在儿童时期就习得了基本的语言知识,因此发展儿童语言习得的计算模型,对于语言知识习得计算模型的研究具有重要的价值。同时,发展儿童语言习得计算模型,尤其是发展能有效引入各种认知过程的计算模型是研究和评估儿童语言习得过程中各种认知假设的一个非常有效的途径,对于揭示儿童语言发展的机理具有重要价值。为此,人们从计算语言学、认知心理学、发展语言学等不同领域出发开展了丰富的儿童语言习得计算模型的研究。然而,现有的儿童语言习得计算模型还存在一些缺陷。例如:词汇范畴习得模型没有统一的评测方法,并需要预设范畴数目;句法习得模型对长距相依现象的描述能力弱;在模型中引入儿童语言习得的认知研究成果还不够。本文针对语言习得计算模型存在的上述不足之处,在儿童语料库建设、儿童词汇范畴习得和句法习得的计算模型等几个方面开展了多项研究工作,论文的主要工作和研究成果有:(1)建立了一个儿童以及儿向口语汉字语料库,并在字、词以及句子三个层面上,对儿童语言、儿向语言(成人向儿童说的语言CDS:Children Directed Language)以及成人语言进行了统计、对比和分析。儿童的语言能力体现在儿童产生的儿童语言以及对儿向语言的理解能力之上,儿童语言和儿向语言与成人语言具有较大的差异,因此,构建儿童和儿向语料库是研究儿童语言习得的基础。儿童语言习得的计算模型需要基于儿童和儿向语料库而建立,在训练或者评测时,也应基于儿童和儿向语料库。为此,作为开展儿童语言习得计算模型研究的第一步,本文首先基于目前世界上最大的儿童口语语料库CHILDES中的中文语料,通过转写、标注和校正,建立了一个儿童及儿向口语语料库。(2)对于儿童词汇范畴习得计算模型,本文从评测方法和计算模型两个方面开展了研究。提出了一种称为一致度(Cohesivity)的新度量来评测词汇范畴习得的性能,该度量能综合考虑信息性、多样性和精确性三个评测准则,实验表明了其可行性和有效性。提出了采用狄利克雷过程混合模型(Dirichlet Process Mixture Models, DPMMs)和近邻传播算法(Affinity Propagation, AP)进行词汇范畴习得,避免了以往研究中需要预定义范畴数量的问题。进而,基于其它认知通道可以为语言习得提供先验信息这一认知过程,采用人工标注的种子词模拟来自其他通道的先验信息构建了一种半监督AP算法,实验结果表明了这种先验信息的有效性。(3)本文提出了一种阶段式的句法习得模型,建模儿童句法习得从简单到复杂、从具体到抽象的认知过程,实验结果表明了模型的有效性。该模型的句法习得分为三个阶段,第一阶段,习得连续的具体结构。在这一阶段,只考虑连续的终结符组成的句法结构;第二阶段,习得长距离依存结构。在这一阶段,仍然只考虑终结符,但是可以习得非连续的结构;第三阶段,习得层次结构。这一阶段,习得终结符和非终结符混合的层次句法结构,最终完成句法结构的习得。(4)本文建模了儿童语言中词汇范畴和句法结构分阶段增量式增长这一认知过程,将所提出的词汇范畴习得模型分阶段训练并结合到上述阶段式句法习得模型中,提出了一个基于词汇范畴的句法习得模型框架。并将模型应用于语言生成中,将生成的语言与儿童语言、儿向语言进行了对比,人工评测了模型所生成的语言。实验表明结合词汇范畴信息能有效提高句法习得的性能,生成的语言具有较好的流畅性和可理解性。