【摘 要】
:
随着我国经济实力的快速提升以及中华文化的广泛传播,非汉语母语中文学习者日益增多,而汉语学习的困难主要体现在以下三个方面:1)声调掌握不准。学习者很难将声调和母语进行联系学习,并且在汉语语句交流中的声调和变调难以掌握;2)文字同音多形。汉语中存在大量同音字且结构错综复杂导致难以辨认;3)词汇丰富多样。中文词汇数目庞大用法灵活导致使用出现偏误。学习者在学习过程中必然会有在手机中输入中文的需求,中文输入
论文部分内容阅读
随着我国经济实力的快速提升以及中华文化的广泛传播,非汉语母语中文学习者日益增多,而汉语学习的困难主要体现在以下三个方面:1)声调掌握不准。学习者很难将声调和母语进行联系学习,并且在汉语语句交流中的声调和变调难以掌握;2)文字同音多形。汉语中存在大量同音字且结构错综复杂导致难以辨认;3)词汇丰富多样。中文词汇数目庞大用法灵活导致使用出现偏误。学习者在学习过程中必然会有在手机中输入中文的需求,中文输入法成为了不可或缺的输入工具。但是现有的拼音输入法都是针对母语为汉语的人进行设计的,并没有考虑学习者使用拼音输入法时对众多候选内容难以选择的困惑。本文在现有拼音输入法的基础上研究并实现了一个面向非汉语母语中文学习者的拼音输入法,我们称之为SeeIME输入法,其主要贡献如下:(1)针对学习者使用拼音输入法所遇到的困惑,我们重新设计了拼音输入法。首先提出在输入汉字拼音后仍可以输入汉字英文翻译的前两个字符,这种输入方式能够大幅度减少候选项数量同时提升输入法音字转换的表现,在测试集中最高准确率达到96.19%。接着提出三段式候选栏提升候选项的易辨性,在显示汉字之外同时显示对应携带声调的拼音和英文翻译。最后提出将输入法与词典结合,在输入法中便可以帮助用户增强对汉字的理解。(2)观察不同平滑算法下的n-gram语言模型对输入法音字转换的影响,提出一个新的平滑算法,通过将Kneser-Ney和Modified Kneser-Ney平滑算法相结合以提升在输入法中的综合表现。为了解决n-gram语言模型所遇到的长距离依赖问题,本文首次将GPT-2语言模型用于输入法中,利用GPT-2语言模型解决长距离依赖问题来进一步提升输入法音字转换的表现。在两个测试集下输入法音字转换的表现分别提升了 3个百分点和1个百分点。(3)在拥有高质量的音字转换表现之余,输入法还可以添加辅助功能来帮助用户输入。本文尝试将聊天机器与输入法结合,利用输入的拼音信息使得聊天机器生成符合用户要求的回复,我们称之为拼音聊天机器(PCM)。在拥有注意力机制的Seq2Seq模型基础上提出两种方案将拼音信息融入,分别是简单拼音融合和带有阅读门的拼音融合。通过实验分析,PCM对拼音具有很好的适应性以及根据拼音生成对应回复内容的可行性。
其他文献
随着互联网的快速发展,网络流量增长迅速,现有网络资源难以满足人们需求。而由于现有网络体系异常庞大、结构复杂,难以进行改造,网络僵化问题逐渐突出。网络虚拟化技术将物理资源抽象,无需改变当前网络结构,是应对网络僵化的有效手段。虚拟网络映射是网络虚拟化的研究热点,传统的虚拟网络映射算法以提高底层资源利用率等方面为主,对虚拟网络的可生存性研究较少。而由于设备老化,黑客技术提升等因素,底层网络的故障愈加频繁
原油作为工业的基础原材料,是经济发展的基础,其价格波动会对不同商品或服务的价格产生不同影响,且影响还会沿着商品之间的价格传导关系进行级联扩散。稳定物价是宏观经济政
近些年,国家不断推行教育信息化建设,在线学习平台迅猛发展,线上教学与线下教学相结合的混合式教学环境正在形成。本次课题的目标便是设计及实现一个能够较好地支持混合式教学环境的学习分析系统,帮助教师及时了解学生情况、发现学习指标间关系、研究教育理论,具有重要意义。主要研究内容如下:首先本文通过数据仓库理念,在一定程度上解决了混合式教学环境下多数据源混杂的问题,使得不同平台的多维数据可以有机融合、相互补充
物联网技术的应用已经延伸到我们日常的生产和生活,随着互联网技术的不断提高,物联网已经迎来了万物互联的时代。尽管物联网的应用领域不断扩大,但是在技术、管理以及成本等方面也面临着诸多难题。其中,无线传感器网络作为物联网中数据采集的一个重要技术,也是物联网技术研究的关键点,其通过在传感区域内部署大量的传感器设备来实时获取外部环境数据信息。在实际应用场景中,这些被随机部署在感知区域内的微型的传感器可以利用
宁夏宁东的煤炭资源丰富与陕西榆林、内蒙古鄂尔多斯共同构成我国的能源“金三角”。但在煤资源的利用和开采过程中常常伴有严重的污染问题。若要从根本上解决煤炭在利用过程中的诸多问题,就一定要从分子水平上对煤进行研究,提高煤的利用效率。有机溶剂的常温萃取作为一种破坏性低、操作便捷的方法,在探究煤结构领域表现出了其独到的优势。但传统的萃取过程主要是基于煤中的镜质组,对惰质组的萃取研究仍处于起步阶段。加之,溶剂
人工神经网络技术是人工智能领域一个重要的研究方向。随着人类对大脑认知的不断加深,人工神经网络需要在保证较高准确率的同时能更好地模拟生物大脑工作机制,而现有的两代人工神经网络无法同时满足这些特性,在此背景下提出一种新型的人工神经网络——脉冲卷积神经网络(SCNN)。脉冲卷积神经网络同时具有卷积神经网络的高准确率和脉冲神经网络的高能效性与高计算效率,由于同时具有两代人工神经网络的优点,脉冲卷积神经网络
如今,社会竞争日益激烈,员工面临的压力越来越大,组织中不乏个人利己思想,并由此衍生出的消极人际互动和行为方式逐渐呈现高发态势。其中,较为典型且普遍存在的社会阻抑因具有蓄意隐蔽性已然成为企业管理中的突出问题,不仅对员工的态度、健康和行为反应消极,甚至会对积极行为产生更强烈的影响。与此同时,“建言献策”是企业获取竞争力、保持持续健康发展不可或缺的积极行为,由此学者纷纷探讨积极人际互动对建言的促进作用,
微课的出现让传统教育方式发生了改变。微课课程时间短、形式灵活多样。这样的优势让学习者能够利用碎片化时间随时随地进行学习。这种方式十分符合现代人的学习价值观。微课是众多新兴学习和教学模式的重要组成部分。微课平台作为微课的载体,与微课的分享、交流与应用,有着密不可分的联系。论文以《ASP.NET动态网页设计》课程为例,以动机理论驱动的游戏化模型作为理论基础,从微课平台学习者需求、课程教学设计和微课平台
近些年来,多元化并购作为企业主要的外延扩张战略方式,在并购市场上所占比例越来越高,企业的决策和并购后的绩效水平会受到哪些因素的影响,一直备受学术界和实业界的关注。与此同时,在我国当前经济制度转型的过程中,经济和政治时刻处于紧密关联的状态,重点产业政策作为中央政府调控资源分配和引导产业发展方向的主要工具,对企业战略行为有着明显的影响和指导作用。多元化并购的主要目的是获取异质性资源,而重点产业政策具有
如今的信息社会正在从互联网时代迈向物联网时代,物联网技术将信息网络连接和服务的对象从人扩展到物,进而实现“万物互联”。在物联网环境下,相关的微型设备通常具有计算能力较弱、运行功耗较低的特点,从而无法应用传统的分组密码算法。为了保证物联网环境下的信息安全,密码学界提出了轻量级分组密码的概念,这种算法在分组密码的设计基础上做了简化,具有占用资源少、功耗低、效率高和易于实现等优势,可以适用于资源受限下的