基于条件随机场模型的半监督汉语韵律短语预测的研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:nescafe_k
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今社会的快速发展,语音合成技术已经渗透到了社会生活中的各个方面。为了使合成语音的自然度能够进一步提高,本文研究了在语音合成技术中占据重要地位的韵律结构预测问题。   在汉语韵律结构的研究中的一大难点是对汉语韵律短语的预测问题。本文在综合考察了目前应用在汉语韵律短语预测任务中的几种机器学习方法后,提出了一种基于条件随机场模型的汉语韵律短语边界预测方法;同时,为了减少标注训练语料库所需要的大量时间和人力,本文引入了一种应用于条件随机场模型的半监督学习方法,并实现了一个全自动的汉语韵律短语边界预测的原型系统。   当前,在汉语韵律短语边界的预测任务中,使用最广泛的是隐马尔科夫模型和最大熵马尔科夫模型。本文采用的条件随机场模型(Conditional RandomFields,CRFs)结合了隐马尔科夫模型和最大熵马尔科夫模型的优点,同时CRFs还可以克服隐马尔科夫模型中的严格独立假设以及最大熵马尔科夫模型中的标注偏置问题。目前,CRFs已被应用于一些自然语言处理任务中,如:词性标注、中文命名体识别等。本文对条件随机场模型和最大熵马尔科夫模型进行了实验比较,得出的结论是,在使用相同特征模板的情况下,条件随机场模型更适合于汉语韵律短语边界的预测。   传统的机器学习方法都是在大规模训练数据集的基础上进行训练的,而对训练集进行人工标注需要花费大量的时间以及人力,目前可直接使用于汉语语音合成中的资源又非常有限。因此,本文基于半监督学习的思想,引入了一种可以应用于条件随机场模型的半监督学习方法,将该方法应用于汉语韵律短语边界的预测任务中,并且最终实现了一个全自动的汉语韵律短语边界预测系统原型。本系统可使用少量的已标注数据和大量的未标注数据进行训练,首先对已标注数据进行训练,利用训练所得的模型对未标注数据进行预测,从预测结果中挑选出一部分有效数据加入训练集,然后进行下一轮训练,如此不断迭代下去,直到最终训练出用户满意的模型。多组实验表明应用该方法可以有效提高模型在同等规模训练集上训练得到的预测准确率,从而达到在大大降低人工工作量的基础上,利用少量已标注数据完成对汉语韵律短语边界的预测。
其他文献
相似搜索已经成为P2P网络研究中的热点问题。M-CAN通过锚点比对的方式将原始数据空间映射到低维向量空间,然后在低维向量空间上进行数据的发布和搜索。但是映射过程会造成信
学位
近年来随着互联网技术的发展,Web信息量飞速增长,如何从大量信息中迅速有效地检索出所需的信息成为了人们关注的问题,搜索引擎也因此走入了人们的生活。如今,搜索引擎的功能
随着Internet的快速发展,互联网已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。然而,在利用搜索引擎进行信息检索时,返回的搜索结果数目非常庞大
在数据仓库中,概念模型对系统的成功起着关键的作用,可在实践中,由于时间和成本的限制,人们却没有把它很充分的做好,这可能会导致系统在开发过程中出现一系列的问题。参考模
安全协议是网络安全的保障,网络中实体间通信的实现都是经过安全协议来协助完成的,然而由于网络处在复杂的环境之中以及安全协议本身所具有的缺陷,使得攻击者能够借助这些缺
随着地面自主机器人的发展,地面自主机器人的测试评估系统得到了愈来愈广泛的研究。测试评估系统研究如何通过定性和定量的方法对地面自主机器人进行客观准确的性能测试和科
随着传感器技术、计算机技术和信息技术的飞速发展,图像融合技术已经成为图像理解、计算机视觉等领域的一个研究热点,在军事、遥感、自动目标识别、计算机视觉和医学图像处理等领域取得了广泛的应用。本文以高分辨率全色图像(PAN)和低分辨率多光谱图像(MS)的融合为研究对象,并以小波变换、Contourlet变换和非下采样Contourlet变换(NSCT)等多分辨率分析理论为基础,围绕遥感图像融合中存在的突
随着城市建设的不断发展,城市道路状况作为城市文明和现代化程度的重要标志,受到越来越多的关注,道路状况的好坏关系到每一位市民出行的便利和交通的安全。因此,研发一套稳定
学位
随着互联网技术的不断发展和应用范围的不断扩大,信息安全越来越成为政府,企业和个人所关注的焦点。近年来,以病毒、蠕虫、木马、后门和rootkit等为主要形式的恶意程序正成为
本文针对传统的高校教务管理系统普遍存在柔性不足,无法及时应对需求变化和业务流程变更等问题,寻找对策与解决方案,主要研究内容如下:   ⑴针对当前高校教务管理业务涉及部门