论文部分内容阅读
一个刚学会走路的小孩摇摇晃晃穿过起居室,来到墙角的一个光滑的黑色圆柱体前停下来。他尖声说道:“Alexa,播放儿童音乐。”虽然发音含混不清,但是这个圆柱体明白了请求,房间里响起了音乐。
Alexa是亚马逊的云端语音识别软件,它是黑色圆柱体音箱Echo的大脑。Alexa的面世在全球造成了轰动,除了小孩以外,因为他们觉得这是理所当然的。小孩子会伴随着Alexa成长。在人工智能的支持下,Alexa学会了回答越来越多的问题,有朝一日可能会进化到能与人自由交谈的地步。
漫长的语音识别之路
但是,任何10岁以上的人都知道,从前不是这样的。语音识别软件发展到今天经历了漫长的道路。虽然Echo比啤酒杯更瘦,但是第一批语音识别机器——20世纪中叶开发的那些——几乎可以占满一整个房间。
Audrey并不是唯一。20世纪60年代,日本的几个团队也对语音识别进行研究,最著名的包括东京无线电研究实验室的元音识别器、京都大学的音素识别器和NEC实验室的数字语音识别器。
在1962年的世界博览会上,IBM展示了它的“鞋盒”机器,它能够理解16个口头表达的英语单词。美国、英国和苏联还有其他研究。苏联的研究人员发明了动态规整算法,并将其用来制造一个能够驾驭200个单词的识别器。但这些系统大都基于样本匹配,也就是把单词与存储在机器里的语音进行匹配。
手机语言识别进入生活
最大的一次飞跃发生在1971年,当时美国国防部的研究机构Darpa出资开展一个为期五年的语音理解研究项目,目标是达到1000个单词的词汇量。很多公司和学术机构参与了该项目,包括IBM、卡内基梅隆大学和斯坦福研究所。于是,Harpy在卡内基梅隆大学诞生。
和它的前辈不同,Harpy能够识别整句话。“我们不想查词典——所以我想要制造一个能够翻译话语的机器。这样,当你在讲一种语言时,它会把你说的话转换成文本,然后进行机器翻译,所有任务都一次完成,”卡内基梅隆大学曾经在Harpy项目和该大学的Hearsay-II项目工作的计算机科学教授亚历山大·韦贝尔说。
从单词转到词组并不容易。“句子里的单词会交汇起来,你会弄不清楚,不知道单词从哪里开始,到哪里结束。于是,你会得到‘euthanasia’这样的东西,而它可能是‘youth in Asia’。”韦贝尔说,“或者,当你说‘Give me a new display’时,它可能会被理解为’‘give me a nudist play’。” Harpy一共能识别1011个单词,这大概是一个普通的三岁小孩的词汇量。它的准确率也相当不错,所以实现了Darpa最初的目标。“它成了现代语音识别系统真正的祖先,”卡内基梅隆大学语言技术所的所长杰米·卡博内尔说,“它是第一个成功利用语言模型判断哪些单词放在一起会产生意义的系统,因此它能够降低语音识别的错误。”
在之后的一些年里,語音识别系统进一步发展。在20世纪80年代,IBM制造了语音激活的打字机Tangora,它能够处理二万个单词的词汇量。IBM的方法是基于隐马尔可夫模型,把统计学纳入数字信号处理技术。这一方法让我们有可能预测哪些音素最有可能出现在某一给定音素的后面。
IBM的竞争对手Dragon Systems提出了自己的方法。此时,技术取得了长足的进步,语音识别终于能够应用到实际生活中——比如可以让儿童训练讲话的玩偶。虽然取得了很多成就,但是当时的所有程序都采用了不连续听写,这意味着用户必须在每个单词后停顿一下。1990年,Dragon Systems发布了第一款消费语音识别产品Dragon Dictate,9000美元的售价令人咂舌。然后,在1997年,Dragon NaturallySpeaking 问世——这是第一款连续语音识别产品。
“在那以前,语音识别产品局限在不连续的话语,这就意味着它们一次只能识别一个单词,” Nuance Communications公司高级副总裁、Dragon的总经理彼得·马奥尼说,“Dragon是连续语音识别的先锋,它首次实现了实用的语音识别,可用来创建文件。”Dragon NaturallySpeaking每分钟能够识别100个单词的话语——时至今日,它仍在使用。比如美国和英国的很多医生用它来归档医疗记录。
在过去的10年间,大致基于人脑工作模式的机器学习技术让计算机能够接受大量语音的训练,从而成功识别不同人的不同口音。
然而,直至谷歌发布了用于苹果手机的谷歌语音搜索应用“Google Voice Search”,技术才又继续向前发展。谷歌的方法是使用云计算处理应用收到的数据。突然间,大众可以获得的语音识别拥有了大规模计算的能力。谷歌能够运行大规模的数据分析,匹配用户的单词和数10亿个搜索词条中积累的大量人类语音的例子。2010年,谷歌为安卓手机的语音搜索添加了“个性化识别”。2011年中期,又把语音搜索加入Chrome浏览器。苹果也很快推出了它自己的版本,名为Siri,而微软的语音识别功能名为AI Cortana,名字来自流行的光环系列游戏中的一个人物。
自由交谈成为可能
所以,下一步会发生什么?“在语音处理领域,最成熟的技术就是语音合成,”奥戈尔曼说,“机器语音和人类语音现在已经基本上无法区分。但是在很多情况下,自动语音识别与人耳相比仍有较大差距。”虽然在一个几乎没有噪音的环境下,一个人只要讲话清晰就能被自动识别,但是当发生所谓的“鸡尾酒会效应”(人类能够在嘈杂的聚会中听到某一个人说的话)时,最新技术仍束手无策。就连Alexa也是这样,如果房间里很吵闹,你就必须靠近黑色圆柱体,清楚大声的对它讲话。
亚马逊在语音识别方面的尝试是受到了《星际迷航》中计算机的启发,凡德·穆勒恩说。亚马逊的目标是制造一个完全可由语音控制的云端计算机——这样你就可以自然的与它交谈。当然,好莱坞的魔法仍然领先于今日的科技。但是,凡德·穆勒恩说:“我们正处于机器学习和人工智能的黄金时代。让机器按照人类的方式做事仍然遥不可及,但是我们每天都在解决一些难以置信的复杂问题。”
(摘自英国广播公司新闻网)
(编辑/华生)
Alexa是亚马逊的云端语音识别软件,它是黑色圆柱体音箱Echo的大脑。Alexa的面世在全球造成了轰动,除了小孩以外,因为他们觉得这是理所当然的。小孩子会伴随着Alexa成长。在人工智能的支持下,Alexa学会了回答越来越多的问题,有朝一日可能会进化到能与人自由交谈的地步。
漫长的语音识别之路
但是,任何10岁以上的人都知道,从前不是这样的。语音识别软件发展到今天经历了漫长的道路。虽然Echo比啤酒杯更瘦,但是第一批语音识别机器——20世纪中叶开发的那些——几乎可以占满一整个房间。
Audrey并不是唯一。20世纪60年代,日本的几个团队也对语音识别进行研究,最著名的包括东京无线电研究实验室的元音识别器、京都大学的音素识别器和NEC实验室的数字语音识别器。
在1962年的世界博览会上,IBM展示了它的“鞋盒”机器,它能够理解16个口头表达的英语单词。美国、英国和苏联还有其他研究。苏联的研究人员发明了动态规整算法,并将其用来制造一个能够驾驭200个单词的识别器。但这些系统大都基于样本匹配,也就是把单词与存储在机器里的语音进行匹配。
手机语言识别进入生活
最大的一次飞跃发生在1971年,当时美国国防部的研究机构Darpa出资开展一个为期五年的语音理解研究项目,目标是达到1000个单词的词汇量。很多公司和学术机构参与了该项目,包括IBM、卡内基梅隆大学和斯坦福研究所。于是,Harpy在卡内基梅隆大学诞生。
和它的前辈不同,Harpy能够识别整句话。“我们不想查词典——所以我想要制造一个能够翻译话语的机器。这样,当你在讲一种语言时,它会把你说的话转换成文本,然后进行机器翻译,所有任务都一次完成,”卡内基梅隆大学曾经在Harpy项目和该大学的Hearsay-II项目工作的计算机科学教授亚历山大·韦贝尔说。
从单词转到词组并不容易。“句子里的单词会交汇起来,你会弄不清楚,不知道单词从哪里开始,到哪里结束。于是,你会得到‘euthanasia’这样的东西,而它可能是‘youth in Asia’。”韦贝尔说,“或者,当你说‘Give me a new display’时,它可能会被理解为’‘give me a nudist play’。” Harpy一共能识别1011个单词,这大概是一个普通的三岁小孩的词汇量。它的准确率也相当不错,所以实现了Darpa最初的目标。“它成了现代语音识别系统真正的祖先,”卡内基梅隆大学语言技术所的所长杰米·卡博内尔说,“它是第一个成功利用语言模型判断哪些单词放在一起会产生意义的系统,因此它能够降低语音识别的错误。”
在之后的一些年里,語音识别系统进一步发展。在20世纪80年代,IBM制造了语音激活的打字机Tangora,它能够处理二万个单词的词汇量。IBM的方法是基于隐马尔可夫模型,把统计学纳入数字信号处理技术。这一方法让我们有可能预测哪些音素最有可能出现在某一给定音素的后面。
IBM的竞争对手Dragon Systems提出了自己的方法。此时,技术取得了长足的进步,语音识别终于能够应用到实际生活中——比如可以让儿童训练讲话的玩偶。虽然取得了很多成就,但是当时的所有程序都采用了不连续听写,这意味着用户必须在每个单词后停顿一下。1990年,Dragon Systems发布了第一款消费语音识别产品Dragon Dictate,9000美元的售价令人咂舌。然后,在1997年,Dragon NaturallySpeaking 问世——这是第一款连续语音识别产品。
“在那以前,语音识别产品局限在不连续的话语,这就意味着它们一次只能识别一个单词,” Nuance Communications公司高级副总裁、Dragon的总经理彼得·马奥尼说,“Dragon是连续语音识别的先锋,它首次实现了实用的语音识别,可用来创建文件。”Dragon NaturallySpeaking每分钟能够识别100个单词的话语——时至今日,它仍在使用。比如美国和英国的很多医生用它来归档医疗记录。
在过去的10年间,大致基于人脑工作模式的机器学习技术让计算机能够接受大量语音的训练,从而成功识别不同人的不同口音。
然而,直至谷歌发布了用于苹果手机的谷歌语音搜索应用“Google Voice Search”,技术才又继续向前发展。谷歌的方法是使用云计算处理应用收到的数据。突然间,大众可以获得的语音识别拥有了大规模计算的能力。谷歌能够运行大规模的数据分析,匹配用户的单词和数10亿个搜索词条中积累的大量人类语音的例子。2010年,谷歌为安卓手机的语音搜索添加了“个性化识别”。2011年中期,又把语音搜索加入Chrome浏览器。苹果也很快推出了它自己的版本,名为Siri,而微软的语音识别功能名为AI Cortana,名字来自流行的光环系列游戏中的一个人物。
自由交谈成为可能
所以,下一步会发生什么?“在语音处理领域,最成熟的技术就是语音合成,”奥戈尔曼说,“机器语音和人类语音现在已经基本上无法区分。但是在很多情况下,自动语音识别与人耳相比仍有较大差距。”虽然在一个几乎没有噪音的环境下,一个人只要讲话清晰就能被自动识别,但是当发生所谓的“鸡尾酒会效应”(人类能够在嘈杂的聚会中听到某一个人说的话)时,最新技术仍束手无策。就连Alexa也是这样,如果房间里很吵闹,你就必须靠近黑色圆柱体,清楚大声的对它讲话。
亚马逊在语音识别方面的尝试是受到了《星际迷航》中计算机的启发,凡德·穆勒恩说。亚马逊的目标是制造一个完全可由语音控制的云端计算机——这样你就可以自然的与它交谈。当然,好莱坞的魔法仍然领先于今日的科技。但是,凡德·穆勒恩说:“我们正处于机器学习和人工智能的黄金时代。让机器按照人类的方式做事仍然遥不可及,但是我们每天都在解决一些难以置信的复杂问题。”
(摘自英国广播公司新闻网)
(编辑/华生)