基于网页语料构建面向语音识别的动态更新式语言模型

来源 :云南大学 | 被引量 : 0次 | 上传用户：tyybj2008

【摘要】

：

在语音识别系统中，语言模型是不可或缺的，以先验概率的形式发挥重要作用，在大词汇量非特定人的连续语音识别中，又以基于统计的语言模型应用最为广泛。N元文法语言模型作为统计语

【作者】

：

文茂平

【机构】

：

云南大学

【出处】

：

云南大学

【发表日期】

：

2006年期

【关键词】

：

语言模型语料库 Web网页语料信息熵语音识别系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在语音识别系统中，语言模型是不可或缺的，以先验概率的形式发挥重要作用，在大词汇量非特定人的连续语音识别中，又以基于统计的语言模型应用最为广泛。N元文法语言模型作为统计语言处理的主流技术已被广泛应用于语音识别中。传统的N元文法语言模型只对有限题材的训练语料做统计，对相应题材的应用领域来说，可以得到很好的效果，但是，对于其他题材的应用领域来说，模型的性能就会大幅下降；此外，传统的语言模型一旦训练好以后，就不再更改，但是实际语言现象却在不断的更新当中，语言模型并不能很好地模型化发展中的实际语言现象。随着Internet及其技术的迅速发展，Web已经成为当今最庞大的信息库，Web网页中包括了各种题材的信息，并且涵盖了各种最新的语言现象，为语料准备提供了最多样化的资源。为此，本文提出了一种从Web中提取语义完整中文信息的算法，该算法可以从HTML文档中提取语义完整的中文句子，以用作训练语言模型的训练语料；接着设计了一个针对中文句子的分词及字音转换系统，用于将以上训练语料分词并转换为汉语拼音语料；最后又设计了一个针对汉语拼音语料的词典生成系统，使用该系统可从拼音训练语料中获得语言模型的词典。实验结果表明，该系统可有效地收集Web网页中的中文语义完整句子，并对其进行处理，获得题材广泛的语言模型训练语料。随后，本文采用从Web网页上获得的训练语料，动态地更新基本语言模型，使语言模型可以与最新的语言现象保持同步。本文针对互联网上的新闻、科技、军事、体育、财经、小说等题材的语料使用HLM(HTK的语言模型工具)构建了五个面向语音识别的N-gram语言模型，然后使用HLM的测试工具测试语言模型的困惑度。实验结果表明，词语言模型与词类语言模型的联合测试结果的性能要高于二者单独测试的性能，而在原trigram语言模型基础上添加部分训练语料生成的动态更新式语言模型的性能也要高于原模型的性能。

其他文献

基于TD-SCDMA的数字集群通信系统直通和自组织协议研究

数字集群通信系统主要用来进行集团调度指挥通信，主要应用在专业移动通信领域比如公安部门、铁路部门、水利部门等，具有资源共享、费用分摊、共用设备等多种优点，是多用途、高效

学位

TD-SCDMATD-SCDMA数字集群通信数字集群通信直通直通自组织自组织OPNETOPNET

OFDM信道估计及自适应功率分配算法研究

正交频分复用(Orthogonal Frequency Division Multiplexing，OFDM)因其频谱利用率高和抗多径时延能力强的优点而适用于未来高速宽带无线通信的需要。但在高速移动环境中，无线信

学位

正交频分复用正交频分复用信道估计信道估计MIMO-OFDMMIMO-OFDM自适应功率分配自适应功率分配

VoIP系统中DSP的软件体系结构设计及回声消除器的设计与实现

在VoIP系统中语音处理子系统是一个很重要部分，该子系统具有语音压缩与编解码、DTMF(双音多频)处理、回声消除等功能。先进的数字信号处理器(DigitalSignalProcessor，DSP)执行

学位

VoIP系统语音处理子系统NLMS自适应滤波回声消除DSP数字信号处理

复杂背景下的前景分割研究及在智能监控中的应用

随着计算机处理能力的迅速提高，计算机视觉在各个邻域的应用也越来越广泛。复杂背景下的前景分割作为计算机视觉中的一个重要组成部分，也随之成为了研究人员的重要研究课题。而

学位

智能监控智能监控前景分割前景分割帧间差帧间差背景差背景差背景更新背景更新

两种侵染萝卜的双链RNA病毒研究

从杭州市郊采集若干株叶片有黄边的一品红萝卜植株,利用抽提dsRNA的方法从叶片中获得4条大小在1400-2000bp范围的dsRNA条带。从叶片中提取病毒粒子,在电镜下观察到一种直径在

学位

萝卜dsRNA病毒双分病毒科

吡格列酮对小鼠多巴胺能神经元MPTP损伤的保护作用

帕金森病是一种常见的神经退行性疾病,在老年人群中发病率极高,是影响老年人生活质量的第二大神经退行性疾病。其主要的病理特征是中脑黑质致密部多巴胺能神经元进行性死亡,

学位

帕金森病吡格列酮PGC-1aMPTPC57BL/6小鼠

基于TD-SCDMA数字集群系统的安全保密

本文所研究的基于TD-SCDMA的数字集群系统目前还处于研究和方案制订阶段中，是属于3G移动通信的专业数字集群系统。它结合蜂窝技术，通过对TD-SCDMA技术的优化与融合，提供专业用户

学位

集群系统集群系统鉴权认证鉴权认证保密性加密保密性加密完整性加密完整性加密端到端加密端到端加密

Ri质粒介导八角莲遗传转化及毛状根鬼臼毒素产生的初步研究

八角莲Dysosma versipellis(Hance)M.Cheng,隶属小檗科(Berberidaceae),药名鬼臼,为我国特有的濒危药用植物,其有效成分鬼臼毒素具有很强的抗肿瘤活性。而含鬼臼毒素的野生植

学位

发根农杆菌八角莲毛状根鬼臼毒素

基于图像结构相似度的视频编码方法研究

视频通信以其直观生动等特点在多媒体通信中占有非常重要的地位，而随着多媒体技术的发展，视频压缩编码技术日益成为计算机通信领域中倍受关注的问题。压缩效率是在码率、图像质

学位

结构相似度结构相似度H.264H.264率失真优化率失真优化帧内预测帧内预测帧间预测帧间预测

如何让小学生爱上文言文

本文通过对荣华二采区10

期刊

基于网页语料构建面向语音识别的动态更新式语言模型

其他学术论文