从音频中提取文字技术的研究发展与实现

来源 :数字化用户 | 被引量 : 0次 | 上传用户：woshigezuiren

【摘要】

：

【作者】

：

石萍

【出处】

：

数字化用户

【发表日期】

：

2013年21期

【关键词】

：

语音识别音频文字自动提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　【摘要】作为人机语音通信的关键技术，语音识别技术一直受到国内外各界的广泛关注，近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。大大节省了人力、时间，提高了工作效率。本文主要介绍了音频提取文字的重要性以及研究现状，当前语音识别技術在国际和国内的发展状况，着重介绍了从音频中提取文字的基本原理和实现过程。
　　【关键词】语音识别音频文字自动提取
　　一、引言
　　由于计算机技术近年来发展非常迅速，使人们用语言与计算机进行通信与交流已成为可能，而起草文稿、撰写文章、准备教案、会议记录等都需要文字整理，对比传统的键盘和鼠标输入方式，语音识别技术在速度上要提高2～4倍。
　　从音频中自动提取文字是以语音识别系统为核心，对参考文本和对应语音进行强制对准的过程，其目的在于将音频信息转换为文本文字。作为语音识别领域中一种常见的预处理技术，音频文字自动提取广泛应用在政府机关、企事业单位的会议记录；网络文字直播；媒体采访速记；录像文字整理；广播电视媒体；录音文字整理；大量文字的录入排版、打印输出，计算机辅助语言教学等方面，此外，还可为现场直播的新闻、演讲、会议等生成字幕；为语言教学、游戏娱乐、电影制作等生成多媒体库；为歌曲制作同步的歌词显示等。
　　由此可见，音频中提取文字这项技术的用处很大，而目前能实现自动翻译的语音识别同生速记系统还正在研究之中。市场上要将录音转换成文字的方法就是找专业的速记公司，进行人工翻译，工作量大，效率慢，而且收费很高，一般每小时录音收费为200元左右。
　　二、背景及发展现状
　　语音识别技术的研究工作起始于20世纪50年代，贝尔实验室通过提取语音特征参数，第一个实现了可以识别10个英文数字的语音识别系统。20世纪80年代，人工神经网络技术引入语音识别，HMM模型和人工神经元网络ANN被成功应用，进入90年代后语音识别系统从实验室逐步走向实用。我国语音识别研究工作起步于20世纪80年代，从1987年开始执行国家863计划后，以清华大学电子工程系与中科院自动化研究所为代表的研究机构，得到了国家自然科学基金重大和重点项目等基金的支持，取得了丰硕的研究成果。目前市场上主要产品有北京阳宸电子技术公司的 VS-99 语音自动识别系统、科大讯飞的 InterVeri 系列等开发的语音自动识别系统等。
　　三、语音识别原理
　　自动语音识别技术（Auto Speech Recognize，简称ASR），在整个构建过程中包括两个阶段：训练阶段和识别阶段。在训练阶段，ASR系统进行语音收集，然后对收集的语音进行降噪处理，消除部分噪音和发音者的个性特点，为了使处理后的信号更清晰，可以将发音者语音中的词汇内容转换为数字格式，即计算机可读的输入，例如二进制编码，然后ASR系统将提取的每个语音单位的特征矢量进行一定的处理，然后存入到模板库中。
　　在模式匹配（即识别）过程中，ASR系统通过学习算法产生特征矢量，在识别时将输入语音的特征矢量与模板库中特征矢量相比较，找到最匹配的单词序列。目前最具有代表性的ASR技术有动态时间环绕技术、隐马尔科夫（markov）模型（HMM）和人工神经网（ANN）模型。其中基于HMM的技术最为流行且语音识别性能最好。
　　四、音频文字自动提取的设计与实现
　　通常音频素材所占的容量都比较大，为了节省工作量，在使用素材之前，一般使用goldwave将音频素材分割成所需要的长度。再配合使用Windows 7系统中的语音识别功能，通过该功能，可以让我们彻底抛开鼠标和键盘，只用语音控制电脑，特别是配合word软件，还能实现文本的语音输入，识别的准确性也较高。为了使win7语音识别系统获得更清晰的语音素材，需要在播放音频素材的同时使用内录功能，文本软件会记录下提取到的音频文字内容，创建文本文档，也可在文档中进行修改或更正错误。
　　尽管win7系统可以实现音频文字的自动提取，由于环境噪声、使用者的语音差别等等因素，所以其最终识别率并不高。所以，我们还需要对win7语音识别系统进行模型训练。通过不断纠正其错误识别文字，在数据库中加入生僻名词，反复使用音频素材对模型进行训练，使语音识别系统最终能完全识别音频素材，以此来优化模型，提高语音系统的识别率。
　　五、总结和展望
　　如今计算机语音识别技术作为一股潜在的发展技术极大提高人们的现实生活需要，不仅转变了人们的生活方式，提高了工作效率，更加推动了社会的进步和文明的发展，所以从音频中自动提取文字具有广阔的应用前景，由于语音自动识别的局限性，使得这项技术任重而道远，。
　　在今后的科研中，音频中自动提取文字将被更加广泛的应用，各种具有音频自动提取文字的产品也将渐渐在市场上出现，随着计算机信息技术的不断发展创新，语音识别系统将会引领我们的信息技术革命到一个新的台阶。
　　作者简介：
　　石萍（1983-），女，硕士，讲师，烟台牟平区委党校，研究方向：计算机网络。

其他文献

EDA技术在数字电子技术课程教学中的研究

【摘要】《数字电路》是高等院校电类专业的一门很重要的专业基础课，本文通过常用的EDA软件Quartus II结合例子，仿真分析得出EDA技术与数字电子技术相结合后，可以大幅度提高学生的动手能力，有利于学生对数字电路 EDA 整体技术的认识与掌握。　　【关键词】EDA Quartus II VHDL　　随着大规模和超大规模可编程逻辑器件CPLD/FPGA在EDA技术基础上的广泛应用，利用EDA技術

期刊

EDAQuartus IIVHDL

浅谈信息课教学

【摘要】信息课是一门新兴的学科，也是一门实践性极强的学科。为了培养出未来信息社会的尖端人才，我们有必要在学生身上提取“信息基因”，以便达到超前教育和素质教育的双重目的。　　【关键词】综合学科兴趣理论实践游戏　　信息课是一门新兴的学科，也是一门实践性极强的学科。为了培养出未来信息社会的尖端人才，我们有必要在学生身上提取“信息基因”，以便达到超前教育和素质教育的双重目的。在我国目前城市与农村素

期刊

综合学科兴趣理论实践游戏

初中数学反思教学模式的探讨

【摘要】反思是一种有思考的学习，是一种有理性的总结。作为一名教师，要成为学习型教师，使自己的课堂具有新鲜血液，不断提高课堂教学的有效性，就应养成反思总结的好习惯。本文主要探讨初中数学反思教学模式。　　【关键词】初中数学反思教学课堂　　新课程背景下，初中数学反思教学法是基于课堂教学前，课堂教学中及课堂教学后之间的关联性，通过课前的准备，课中的学习，进而课后进行反思，让学生所学到的知识能够融入到

期刊

初中数学反思教学课堂

对训考结合的思考

【摘要】本文从有训必有考的原则入手，具体分析演练考核中应坚持的主要原则，并对这种教训结合的演练效果效益进行了预判，为相关的训练工作提供理论参考。　　【关键词】训练考核结合　　演练是一项系统性的工程，涉及人力、物力、时间、空间等的综合，更在乎有限资源的高效优化利用，如何利用好这一重要的综合训练环节，发挥演练的综合性辐射效应，提高训练效果值得我们深入研究。　　一、坚持“有训必有考”的原则　　组织

期刊

训练考核结合

反向代理服务在图书馆电子资源利用中的应用

【摘要】针对目前本馆电子资源利用率不高的原因进行分析，讨论反向代理在提高电子资源利用率方面的可能性和实施。　　【关键词】电子资源利用率低的原因反向代理实施方案注意问题　　随着电子资源的发展以及人们的阅读习惯的改变，电子资源的利用越来越成为图书馆服务的核心业务之一。电子资源和纸质资源出现了并驾齐驱的形势，并且越来越占据一些馆购置资源经费的大部分比例。在图书馆业务发展过程中，图书馆非常重视电子

期刊

电子资源利用率低的原因反向代理实施方案注意问题

民办本科院校教学质量保障机制建设研究

【摘要】教学质量是民办本科院校生存和发展的生命线，而制定科学完善的质量保障机制又是提高教学质量的重要保证。目前，在大众化教育阶段，民办本科院校要确保教育质量的提高，走内涵式发展之路，就要做好提升教学质量的各项保障工作，制定完善的保障机制。本文从学校的办学定位、完善教学规章制度、建立学生对教学满意度的评价体系、建立教学质量的社会监控机制、强化学术环境建设、合理筹措并利用教学资金等方面来谈民办本科院

期刊

民办本科院校教学质量保障机制

基于LabVIEW的多功能函数信号发生器的设计

【摘要】用LabVIEW软件开发一款虚拟的函数信号发生器，该款软件区别于以前的简单的函数信号发生器，它不仅功能强大，操作性简单，而且界面简洁、美观。该信号发生器能产生正弦波，方波，三角波和锯齿波共四种波形，它的频率范围广且可自行调节所需的范围。　　【关键词】LabVIEW 多功能函数信号发生器　　一、引言　　LabVIEW是由美国的一家国家仪器公司研制开发的，是一款程序开发软件。它与计算机语言有

期刊

LabVIEW多功能函数信号发生器

高职物联网专业中信息类课程改革思考与实践

【摘要】在当前物联网技术大潮中，各高校纷纷开设了物联网相关专业，由于其专业知识的多学科、跨领域的性质，使得其对教学设计和课程设计提出了新的要求，本文针对高等职业教育中物联网专业的信息类课程的教与学的改革提出了一些意见，并结合自己的教学实践进行了更深入大的思考。　　【关键词】物联网高职教育　　随着温家宝总理在2009年提出“感知中国”，并在无锡设立物联网研究院，将物联网产业列为我国的五大新兴战略

期刊

物联网高职教育

图像分割算法改进

【摘要】图像分割方法的基本思想是通过训练多层感知机来得到线性决策函数，然后用决策函数对像素进行分类来达到分割的目的。这种方法需要大量的训练数据。神经网络存在巨量的连接，容易引入空间信息，能较好地解决图像中的噪声和不均匀问题。　　【关键词】图像分割像素权值　　Graph cuts是一种十分有用和流行的能量优化算法，在计算机视觉领域普遍应用于前背景分割（Image segmentation）、立

期刊

图像分割像素权值

探究新方法讲活思想品德课

【摘要】在有效教学实践不断深入、发展的背景下，作为一名思想品德教师，就如何提高自身素质，如何学习应用新思路新方法给学生讲解思想品德课，如何将思想品德课程联系生活实际的教学等方面进行探究。从小事做起，逐步提高自己的能力，实施有效课堂教学。　　【关键词】探究新方法思想品德教学　　一、前言　　自2008年以来，我国继续深化基础教育课程改革，扎实展开新课程有效教学实验研究。广大中小学教师，在科学发展

期刊

探究新方法思想品德教学

从音频中提取文字技术的研究发展与实现

其他学术论文