机器如何学会听懂人说话

来源 :海外星云 | 被引量 : 0次 | 上传用户：bbanb

【摘要】

：

【作者】

：

卡地亚·莫斯科维奇

【出处】

：

海外星云

【发表日期】

：

2017年5期

【关键词】

：

贝尔机器语音巴哈单词语音识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　一个刚学会走路的小孩摇摇晃晃穿过起居室，来到墙角的一个光滑的黑色圆柱体前停下来。他尖声说道：“Alexa，播放儿童音乐。”虽然发音含混不清，但是这个圆柱体明白了请求，房间里响起了音乐。
　　Alexa是亚马逊的云端语音识别软件，它是黑色圆柱体音箱Echo的大脑。Alexa的面世在全球造成了轰动，除了小孩以外，因为他们觉得这是理所当然的。小孩子会伴随着Alexa成长。在人工智能的支持下，Alexa学会了回答越来越多的问题，有朝一日可能会进化到能与人自由交谈的地步。
　　漫长的语音识别之路
　　但是，任何10岁以上的人都知道，从前不是这样的。语音识别软件发展到今天经历了漫长的道路。虽然Echo比啤酒杯更瘦，但是第一批语音识别机器——20世纪中叶开发的那些——几乎可以占满一整个房间。

　　Audrey并不是唯一。20世纪60年代，日本的几个团队也对语音识别进行研究，最著名的包括东京无线电研究实验室的元音识别器、京都大学的音素识别器和NEC实验室的数字语音识别器。
　　在1962年的世界博览会上，IBM展示了它的“鞋盒”机器，它能够理解16个口头表达的英语单词。美国、英国和苏联还有其他研究。苏联的研究人员发明了动态规整算法，并将其用来制造一个能够驾驭200个单词的识别器。但这些系统大都基于样本匹配，也就是把单词与存储在机器里的语音进行匹配。
　　手机语言识别进入生活
　　最大的一次飞跃发生在1971年，当时美国国防部的研究机构Darpa出资开展一个为期五年的语音理解研究项目，目标是达到1000个单词的词汇量。很多公司和学术机构参与了该项目，包括IBM、卡内基梅隆大学和斯坦福研究所。于是，Harpy在卡内基梅隆大学诞生。
　　和它的前辈不同，Harpy能够识别整句话。“我们不想查词典——所以我想要制造一个能够翻译话语的机器。这样，当你在讲一种语言时，它会把你说的话转换成文本，然后进行机器翻译，所有任务都一次完成，”卡内基梅隆大学曾经在Harpy项目和该大学的Hearsay-II项目工作的计算机科学教授亚历山大·韦贝尔说。
　　从单词转到词组并不容易。“句子里的单词会交汇起来，你会弄不清楚，不知道单词从哪里开始，到哪里结束。于是，你会得到‘euthanasia’这样的东西，而它可能是‘youth in Asia’。”韦贝尔说，“或者，当你说‘Give me a new display’时，它可能会被理解为’‘give me a nudist play’。” 　　Harpy一共能识别1011个单词，这大概是一个普通的三岁小孩的词汇量。它的准确率也相当不错，所以实现了Darpa最初的目标。“它成了现代语音识别系统真正的祖先，”卡内基梅隆大学语言技术所的所长杰米·卡博内尔说，“它是第一个成功利用语言模型判断哪些单词放在一起会产生意义的系统，因此它能够降低语音识别的错误。”
　　在之后的一些年里，語音识别系统进一步发展。在20世纪80年代，IBM制造了语音激活的打字机Tangora，它能够处理二万个单词的词汇量。IBM的方法是基于隐马尔可夫模型，把统计学纳入数字信号处理技术。这一方法让我们有可能预测哪些音素最有可能出现在某一给定音素的后面。
　　IBM的竞争对手Dragon Systems提出了自己的方法。此时，技术取得了长足的进步，语音识别终于能够应用到实际生活中——比如可以让儿童训练讲话的玩偶。虽然取得了很多成就，但是当时的所有程序都采用了不连续听写，这意味着用户必须在每个单词后停顿一下。1990年，Dragon Systems发布了第一款消费语音识别产品Dragon Dictate，9000美元的售价令人咂舌。然后，在1997年，Dragon NaturallySpeaking 问世——这是第一款连续语音识别产品。
　　“在那以前，语音识别产品局限在不连续的话语，这就意味着它们一次只能识别一个单词，” Nuance Communications公司高级副总裁、Dragon的总经理彼得·马奥尼说，“Dragon是连续语音识别的先锋，它首次实现了实用的语音识别，可用来创建文件。”Dragon NaturallySpeaking每分钟能够识别100个单词的话语——时至今日，它仍在使用。比如美国和英国的很多医生用它来归档医疗记录。

　　在过去的10年间，大致基于人脑工作模式的机器学习技术让计算机能够接受大量语音的训练，从而成功识别不同人的不同口音。
　　然而，直至谷歌发布了用于苹果手机的谷歌语音搜索应用“Google Voice Search”，技术才又继续向前发展。谷歌的方法是使用云计算处理应用收到的数据。突然间，大众可以获得的语音识别拥有了大规模计算的能力。谷歌能够运行大规模的数据分析，匹配用户的单词和数10亿个搜索词条中积累的大量人类语音的例子。2010年，谷歌为安卓手机的语音搜索添加了“个性化识别”。2011年中期，又把语音搜索加入Chrome浏览器。苹果也很快推出了它自己的版本，名为Siri，而微软的语音识别功能名为AI Cortana，名字来自流行的光环系列游戏中的一个人物。
　　自由交谈成为可能
　　所以，下一步会发生什么？“在语音处理领域，最成熟的技术就是语音合成，”奥戈尔曼说，“机器语音和人类语音现在已经基本上无法区分。但是在很多情况下，自动语音识别与人耳相比仍有较大差距。”虽然在一个几乎没有噪音的环境下，一个人只要讲话清晰就能被自动识别，但是当发生所谓的“鸡尾酒会效应”（人类能够在嘈杂的聚会中听到某一个人说的话）时，最新技术仍束手无策。就连Alexa也是这样，如果房间里很吵闹，你就必须靠近黑色圆柱体，清楚大声的对它讲话。
　　亚马逊在语音识别方面的尝试是受到了《星际迷航》中计算机的启发，凡德·穆勒恩说。亚马逊的目标是制造一个完全可由语音控制的云端计算机——这样你就可以自然的与它交谈。当然，好莱坞的魔法仍然领先于今日的科技。但是，凡德·穆勒恩说：“我们正处于机器学习和人工智能的黄金时代。让机器按照人类的方式做事仍然遥不可及，但是我们每天都在解决一些难以置信的复杂问题。”
　　（摘自英国广播公司新闻网）
　　（编辑/华生）

其他文献

想睡好？睡前30分钟不要看手机

科学家强烈建议在睡前30分钟内远离社交媒体　　今天，十几、二十几岁的年轻人每天把大把时间花在手机上。有调查表明，11-15岁的年轻人每天要花6～8小时玩手机，这还不包括在电脑前做家庭作业的时间。事实上，一项研究表明，英国成年人每天花在电脑上的时间已经超过其睡眠时间。　　发生的时间也越来越早。1/3的英国儿童在四岁前就开始接触平板电脑。　　毫无疑问，今天的儿童将暴露在已经得到广泛使用的社交媒体之下，

期刊

社交媒体睡眠时间这一马克

“脱欧”陷困局，英国面临艰难抉择

不满“软脱欧”方案，英国“脱欧”事务大臣戴维斯辞职　　距离2019年3月29日英国“脱欧”的大限越来越近了，但是“脱欧”协议始终未有太大的进展。随着英国多名高官纷纷辞职，英国“脱欧”陷入了持续困局。在英国政府发布了“脱欧白皮书”之后，英国民众又不买账。对于英国首相特雷莎-梅和她领导的政府来说，“脱欧”事务面临着艰难的抉择。“脱欧”抉择有分歧，英国高官纷纷辞职　　7月初，英国首相特雷莎·梅宣布，英国

期刊

英国欧盟协议方案白皮书大限

人造鸡肉你想吃吗

俗话说，民以食为天。在涉及如此重大的问题上，科学家们觉得难辞其职，正在想方设法，实现突破。　　到本世纪末，地球上的人口有可能达到110亿。要保证这么多人有足够的营养，农民面临压力，要尽可能利用农地生产种植，另一方面科学家也觉得该助一臂之力。　　　　未来的科幻食品有可能永远改变我们的饮食方式：人们的口味不仅靠日积月累而成，也靠食品设计师和市场营销员来决定。　　在美国加州的一个实验室，乔舒·特德里克和

期刊

食品未来食物肉类打印机有可能

他用14幅伪作骗了五个亿“疯狂天才”贝特莱奇

他公然宣稱：“我是世界上最好的艺术伪造者，许多伪造者无法复制每一个艺术家，但是我可以。沃尔夫冈·贝特莱奇　　我可以伪造任何人的作品。”　　沃尔夫冈·贝特莱奇，这位艺术界最神乎其技的伪画大师，曾经用伪造的著名绘画大师作品（包括毕加索、马克斯·恩斯特等）迷惑了苏富比、佳士得等拍卖行，骗倒了巴黎、伦敦、柏林和纽约的专家，甚至他的伪画被送进世界各地最有声望的画廊……让艺术圈富人们的损失高达三亿人民币。　　

期刊

伪作沃尔夫冈毕加索作品画家艺术家

地球生命的起源：早于大陆形成的南非山脉

保护地球最古老的历史　　　　25～40亿年前，即为人所知的太古宙时期，地球还是一个不断受到小行星撞击的海洋星球，大气层中充满了火山爆发产生的灰烬和碎片。朦胧的太阳悬挂在地平线之上，当时地球的自转速度比现在快，每一天的时间也更短。地球的第一批大陆板块就在此时形成，创造了有利光合作用的地表浅水环境。　　玛空瓦山脉现位于南非普马兰加省巴伯顿的后方，可追溯至35.7亿年前，是世界上最早露出海面的陆地之一。

期刊

伯顿黄金矿场山脉旅店法拉

守好九点睡觉这道防线

醒着是小恶魔，睡着是小天使。这就是很多宝爸宝妈们眼中的宝贝，真的每天都盼望着宝宝能早点入睡啊。　　家长白天累死累活要上班，晚上好不容易可以歇歇了，正想着过过二人世界，却不料被这些小东西半路截胡，内心真的是大写的崩溃……宝妈们经常反映，哄孩子睡觉绝对是最头疼的一件事，每天到了该睡觉的时间都不配合的宝宝还到处找理由，不是想玩玩具，就是要吃东西，看电视，一副精力充沛的夜猫子架势。　　按时睡觉这件事绝对是

期刊

宝宝生长激素孩子睡眠不好睡前

至死方休，美国老年人真实退休生活图鉴

“恐怕我到死的那一天才能停止工作。”　　74岁的理查德刚刚刷完度假营地的浴室，接着清空了20个垃圾箱，现在他正缓慢地爬上割草机，今天他还要再割几英亩草地，之后才能休息。　　理查德的老家位于美国中西部的印第安纳州，但是每到5月份，他都要开上1400英里，带着72岁的妻子珍妮来到东北部的缅因州，为的就是度假营地里这份每小时只能赚10美金的临时工作。直到10月份旅游旺季结束时，理查德会再次启程，奔赴下一

期刊

年金理查德退休金工作珍妮美国

匈牙利选举“刺痛”欧盟

匈牙利总理欧尔办班　　2003年4月16日，希腊首都雅典，欧盟与10个中东欧国家完成入盟谈判的候选国签署入盟协议，欧盟从15个成员国扩军到了25个。其时，欧盟风光无限，“大一统”的欧洲似乎展露曙光。然而，15年后，英国“脱欧”、西欧国家代表的“老欧洲”与中东欧国家代表的“新欧洲”龃龉不断，欧盟裂纹显现。随着匈牙利国会选举结果出炉，与西欧国家在很多问题上意见相左的匈牙利总理欧尔班所领导的政党获得胜利

期刊

匈牙利欧盟欧洲难民西欧国家

“后穆加贝时代”的津巴布韦选战

8月3日，津巴布韦大选结果正式公布，执政党（民盟）在此次选举中获得国民议会过半席位胜选，执政党候选人、现任总统姆南加古瓦胜选。执政党（民盟）主席姆南加古瓦赢得了近50.8%的选票，而与他最为接近的对手，民革运主席查米萨则是获得了44.3%的选票。这是津巴布韦在“后穆加贝时代”的首次大选，大选进程颇受国际社会关注。“后穆加贝时代”首次大选　　37年的穆加贝执政时代落幕后，津巴布韦迎来了首次大选。候选

期刊

津巴布韦民革执政党反对党选票总统

跟着综艺明星照吃甜点炸物还能瘦37公斤

很多人都笑称减肥瘦身是女生们一辈子的志愿，只要听到谁怎么瘦、哪种减肥法有用，马上比当学生考试时还认真笔记！但真的不能怪我们，现在好吃的食物太多了，一个没注意肥肉体重就不断往上冲，只能时不时就开启瘦身计划。　　而近来，广大的瘦身教民们又多了一位新“教主”：半年内瘦下37公斤的小祯（胡盈祯）！靠着运动健身和饮食控制，小祯健康瘦回刚出道时的模特体态，惊人的成效让众多网友“跪求”瘦身秘诀。小祯曾经吃减肥药

期刊

份量基础代谢率热量饮食就会瘦身

机器如何学会听懂人说话

其他学术论文