论文部分内容阅读
【摘 要】作为人机语音通信的关键技术,语音识别技术一直受到国内外各界的广泛关注,近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。大大节省了人力、时间,提高了工作效率。本文主要介绍了音频提取文字的重要性以及研究现状,当前语音识别技術在国际和国内的发展状况,着重介绍了从音频中提取文字的基本原理和实现过程。
【关键词】语音识别 音频文字自动提取
一、引言
由于计算机技术近年来发展非常迅速,使人们用语言与计算机进行通信与交流已成为可能,而起草文稿、撰写文章、准备教案、会议记录等都需要文字整理,对比传统的键盘和鼠标输入方式,语音识别技术在速度上要提高2~4倍。
从音频中自动提取文字是以语音识别系统为核心,对参考文本和对应语音进行强制对准的过程,其目的在于将音频信息转换为文本文字。作为语音识别领域中一种常见的预处理技术,音频文字自动提取广泛应用在政府机关、企事业单位的会议记录;网络文字直播;媒体采访速记;录像文字整理;广播电视媒体;录音文字整理;大量文字的录入排版、打印输出,计算机辅助语言教学等方面,此外,还可为现场直播的新闻、演讲、会议等生成字幕;为语言教学、游戏娱乐、电影制作等生成多媒体库;为歌曲制作同步的歌词显示等。
由此可见,音频中提取文字这项技术的用处很大,而目前能实现自动翻译的语音识别同生速记系统还正在研究之中。市场上要将录音转换成文字的方法就是找专业的速记公司,进行人工翻译,工作量大,效率慢,而且收费很高,一般每小时录音收费为200元左右。
二、背景及发展现状
语音识别技术的研究工作起始于20世纪50年代,贝尔实验室通过提取语音特征参数,第一个实现了可以识别10个英文数字的语音识别系统。20世纪80年代,人工神经网络技术引入语音识别,HMM模型和人工神经元网络ANN被成功应用,进入90年代后语音识别系统从实验室逐步走向实用。我国语音识别研究工作起步于20世纪80年代,从1987年开始执行国家863计划后,以清华大学电子工程系与中科院自动化研究所为代表的研究机构,得到了国家自然科学基金重大和重点项目等基金的支持,取得了丰硕的研究成果。目前市场上主要产品有北京阳宸电子技术公司的 VS-99 语音自动识别系统、科大讯飞的 InterVeri 系列等开发的语音自动识别系统等。
三、语音识别原理
自动语音识别技术(Auto Speech Recognize,简称ASR),在整个构建过程中包括两个阶段:训练阶段和识别阶段。在训练阶段,ASR系统进行语音收集,然后对收集的语音进行降噪处理,消除部分噪音和发音者的个性特点,为了使处理后的信号更清晰,可以将发音者语音中的词汇内容转换为数字格式,即计算机可读的输入,例如二进制编码,然后ASR系统将提取的每个语音单位的特征矢量进行一定的处理,然后存入到模板库中。
在模式匹配(即识别)过程中,ASR系统通过学习算法产生特征矢量,在识别时将输入语音的特征矢量与模板库中特征矢量相比较,找到最匹配的单词序列。目前最具有代表性的ASR技术有动态时间环绕技术、隐马尔科夫(markov)模型(HMM)和人工神经网(ANN)模型。其中基于HMM的技术最为流行且语音识别性能最好。
四、 音频文字自动提取的设计与实现
通常音频素材所占的容量都比较大,为了节省工作量,在使用素材之前,一般使用goldwave将音频素材分割成所需要的长度。再配合使用Windows 7系统中的语音识别功能,通过该功能,可以让我们彻底抛开鼠标和键盘,只用语音控制电脑,特别是配合word软件,还能实现文本的语音输入,识别的准确性也较高。为了使win7语音识别系统获得更清晰的语音素材,需要在播放音频素材的同时使用内录功能,文本软件会记录下提取到的音频文字内容,创建文本文档,也可在文档中进行修改或更正错误。
尽管win7系统可以实现音频文字的自动提取,由于环境噪声、使用者的语音差别等等因素,所以其最终识别率并不高。所以,我们还需要对win7语音识别系统进行模型训练。通过不断纠正其错误识别文字,在数据库中加入生僻名词,反复使用音频素材对模型进行训练,使语音识别系统最终能完全识别音频素材,以此来优化模型,提高语音系统的识别率。
五、总结和展望
如今计算机语音识别技术作为一股潜在的发展技术极大提高人们的现实生活需要,不仅转变了人们的生活方式,提高了工作效率,更加推动了社会的进步和文明的发展,所以从音频中自动提取文字具有广阔的应用前景,由于语音自动识别的局限性,使得这项技术任重而道远,。
在今后的科研中,音频中自动提取文字将被更加广泛的应用,各种具有音频自动提取文字的产品也将渐渐在市场上出现,随着计算机信息技术的不断发展创新,语音识别系统将会引领我们的信息技术革命到一个新的台阶。
作者简介:
石萍(1983-),女,硕士,讲师,烟台牟平区委党校,研究方向:计算机网络。
【关键词】语音识别 音频文字自动提取
一、引言
由于计算机技术近年来发展非常迅速,使人们用语言与计算机进行通信与交流已成为可能,而起草文稿、撰写文章、准备教案、会议记录等都需要文字整理,对比传统的键盘和鼠标输入方式,语音识别技术在速度上要提高2~4倍。
从音频中自动提取文字是以语音识别系统为核心,对参考文本和对应语音进行强制对准的过程,其目的在于将音频信息转换为文本文字。作为语音识别领域中一种常见的预处理技术,音频文字自动提取广泛应用在政府机关、企事业单位的会议记录;网络文字直播;媒体采访速记;录像文字整理;广播电视媒体;录音文字整理;大量文字的录入排版、打印输出,计算机辅助语言教学等方面,此外,还可为现场直播的新闻、演讲、会议等生成字幕;为语言教学、游戏娱乐、电影制作等生成多媒体库;为歌曲制作同步的歌词显示等。
由此可见,音频中提取文字这项技术的用处很大,而目前能实现自动翻译的语音识别同生速记系统还正在研究之中。市场上要将录音转换成文字的方法就是找专业的速记公司,进行人工翻译,工作量大,效率慢,而且收费很高,一般每小时录音收费为200元左右。
二、背景及发展现状
语音识别技术的研究工作起始于20世纪50年代,贝尔实验室通过提取语音特征参数,第一个实现了可以识别10个英文数字的语音识别系统。20世纪80年代,人工神经网络技术引入语音识别,HMM模型和人工神经元网络ANN被成功应用,进入90年代后语音识别系统从实验室逐步走向实用。我国语音识别研究工作起步于20世纪80年代,从1987年开始执行国家863计划后,以清华大学电子工程系与中科院自动化研究所为代表的研究机构,得到了国家自然科学基金重大和重点项目等基金的支持,取得了丰硕的研究成果。目前市场上主要产品有北京阳宸电子技术公司的 VS-99 语音自动识别系统、科大讯飞的 InterVeri 系列等开发的语音自动识别系统等。
三、语音识别原理
自动语音识别技术(Auto Speech Recognize,简称ASR),在整个构建过程中包括两个阶段:训练阶段和识别阶段。在训练阶段,ASR系统进行语音收集,然后对收集的语音进行降噪处理,消除部分噪音和发音者的个性特点,为了使处理后的信号更清晰,可以将发音者语音中的词汇内容转换为数字格式,即计算机可读的输入,例如二进制编码,然后ASR系统将提取的每个语音单位的特征矢量进行一定的处理,然后存入到模板库中。
在模式匹配(即识别)过程中,ASR系统通过学习算法产生特征矢量,在识别时将输入语音的特征矢量与模板库中特征矢量相比较,找到最匹配的单词序列。目前最具有代表性的ASR技术有动态时间环绕技术、隐马尔科夫(markov)模型(HMM)和人工神经网(ANN)模型。其中基于HMM的技术最为流行且语音识别性能最好。
四、 音频文字自动提取的设计与实现
通常音频素材所占的容量都比较大,为了节省工作量,在使用素材之前,一般使用goldwave将音频素材分割成所需要的长度。再配合使用Windows 7系统中的语音识别功能,通过该功能,可以让我们彻底抛开鼠标和键盘,只用语音控制电脑,特别是配合word软件,还能实现文本的语音输入,识别的准确性也较高。为了使win7语音识别系统获得更清晰的语音素材,需要在播放音频素材的同时使用内录功能,文本软件会记录下提取到的音频文字内容,创建文本文档,也可在文档中进行修改或更正错误。
尽管win7系统可以实现音频文字的自动提取,由于环境噪声、使用者的语音差别等等因素,所以其最终识别率并不高。所以,我们还需要对win7语音识别系统进行模型训练。通过不断纠正其错误识别文字,在数据库中加入生僻名词,反复使用音频素材对模型进行训练,使语音识别系统最终能完全识别音频素材,以此来优化模型,提高语音系统的识别率。
五、总结和展望
如今计算机语音识别技术作为一股潜在的发展技术极大提高人们的现实生活需要,不仅转变了人们的生活方式,提高了工作效率,更加推动了社会的进步和文明的发展,所以从音频中自动提取文字具有广阔的应用前景,由于语音自动识别的局限性,使得这项技术任重而道远,。
在今后的科研中,音频中自动提取文字将被更加广泛的应用,各种具有音频自动提取文字的产品也将渐渐在市场上出现,随着计算机信息技术的不断发展创新,语音识别系统将会引领我们的信息技术革命到一个新的台阶。
作者简介:
石萍(1983-),女,硕士,讲师,烟台牟平区委党校,研究方向:计算机网络。