儿童语言习得的计算模型研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:cqxiaoguai1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言习得的计算模型研究基于计算技术的语言知识获取,是高质量自然语言处理应用中不可或缺的部分。儿童时期是语言知识习得的关键期,人类在儿童时期就习得了基本的语言知识,因此发展儿童语言习得的计算模型,对于语言知识习得计算模型的研究具有重要的价值。同时,发展儿童语言习得计算模型,尤其是发展能有效引入各种认知过程的计算模型是研究和评估儿童语言习得过程中各种认知假设的一个非常有效的途径,对于揭示儿童语言发展的机理具有重要价值。为此,人们从计算语言学、认知心理学、发展语言学等不同领域出发开展了丰富的儿童语言习得计算模型的研究。然而,现有的儿童语言习得计算模型还存在一些缺陷。例如:词汇范畴习得模型没有统一的评测方法,并需要预设范畴数目;句法习得模型对长距相依现象的描述能力弱;在模型中引入儿童语言习得的认知研究成果还不够。本文针对语言习得计算模型存在的上述不足之处,在儿童语料库建设、儿童词汇范畴习得和句法习得的计算模型等几个方面开展了多项研究工作,论文的主要工作和研究成果有:(1)建立了一个儿童以及儿向口语汉字语料库,并在字、词以及句子三个层面上,对儿童语言、儿向语言(成人向儿童说的语言CDS:Children Directed Language)以及成人语言进行了统计、对比和分析。儿童的语言能力体现在儿童产生的儿童语言以及对儿向语言的理解能力之上,儿童语言和儿向语言与成人语言具有较大的差异,因此,构建儿童和儿向语料库是研究儿童语言习得的基础。儿童语言习得的计算模型需要基于儿童和儿向语料库而建立,在训练或者评测时,也应基于儿童和儿向语料库。为此,作为开展儿童语言习得计算模型研究的第一步,本文首先基于目前世界上最大的儿童口语语料库CHILDES中的中文语料,通过转写、标注和校正,建立了一个儿童及儿向口语语料库。(2)对于儿童词汇范畴习得计算模型,本文从评测方法和计算模型两个方面开展了研究。提出了一种称为一致度(Cohesivity)的新度量来评测词汇范畴习得的性能,该度量能综合考虑信息性、多样性和精确性三个评测准则,实验表明了其可行性和有效性。提出了采用狄利克雷过程混合模型(Dirichlet Process Mixture Models, DPMMs)和近邻传播算法(Affinity Propagation, AP)进行词汇范畴习得,避免了以往研究中需要预定义范畴数量的问题。进而,基于其它认知通道可以为语言习得提供先验信息这一认知过程,采用人工标注的种子词模拟来自其他通道的先验信息构建了一种半监督AP算法,实验结果表明了这种先验信息的有效性。(3)本文提出了一种阶段式的句法习得模型,建模儿童句法习得从简单到复杂、从具体到抽象的认知过程,实验结果表明了模型的有效性。该模型的句法习得分为三个阶段,第一阶段,习得连续的具体结构。在这一阶段,只考虑连续的终结符组成的句法结构;第二阶段,习得长距离依存结构。在这一阶段,仍然只考虑终结符,但是可以习得非连续的结构;第三阶段,习得层次结构。这一阶段,习得终结符和非终结符混合的层次句法结构,最终完成句法结构的习得。(4)本文建模了儿童语言中词汇范畴和句法结构分阶段增量式增长这一认知过程,将所提出的词汇范畴习得模型分阶段训练并结合到上述阶段式句法习得模型中,提出了一个基于词汇范畴的句法习得模型框架。并将模型应用于语言生成中,将生成的语言与儿童语言、儿向语言进行了对比,人工评测了模型所生成的语言。实验表明结合词汇范畴信息能有效提高句法习得的性能,生成的语言具有较好的流畅性和可理解性。
其他文献
媒介作为一种信息传播与舆论监督手段,在鼓励与推动公共体育发展中发挥了重要作用,更好的保障了人民群众能够充分享受体育活动的权利,满足了大众的体育需求。
项目教学的主要目的是为了培养学生综合应用知识、独立分析和解决问题的能力,提高学生自主学习的能力,激发学生对该专业学习的浓厚兴趣。计算机专业学生必须具备很强的综合实
近年来,随着计算机网络技术和数字媒体处理技术的发展,数字化视频、图像、音频的数据量越来越庞大,其应用越来越普及。基于媒体信息语义内容的组织分类检索成为现在迫切需要解决
针对在物流布局配置过程中,为快速寻求到满足客户需求的最佳布局,提出了一种基于可拓聚类方法的整体布局配置设计方法。应用可拓聚类方法对经验布局知识库条件集进行有效聚类
PVC-U管(聚氯乙烯硬管)穿越楼板节点的渗漏现象很普遍,其主要原因是材料性能较差、施工人员责任心不强。针对这些原因,提出了材料、人员、施工、质量等,共9个方面的防渗漏措
自1998年住房分配货币化改革以来,中国的区域房价差异是扩大了还是缩小了?初始房价水平较低的城市,相对于初始房价水平较高的城市,是否会经历更高的房价增长率?区域房价整体
研究背景2型糖尿病是心血管疾病的一种众所周知的危险因素。胰岛素抵抗不仅在2型糖尿病的发病过程中起到了主要的作用,大量研究也已证实在非糖尿病患者中,较严重的胰岛素抵抗