聊聊语音识别的发展史

人类400年前就渴望和机器对话了

编者按：随着人工智能的迅速发展，智能语音识别能为了新的研究热点。智能音箱是语音识别最直接的衍生产品，各大科技巨头都在进军市场，国外有亚马逊、苹果、谷歌，国内有京东、阿里、小米。本文介绍了语音识别技术的发展史。

一个走路还不稳当的小男孩穿过客厅，径直走到角落后停下了脚步，那里摆放着一个外观黑亮、光滑的小巧圆柱状物体。“嗨，Alexa”，男孩儿对着它高声说道，“播放些儿童音乐吧”。尽管声音有些含糊不清，但Alexa似乎听懂了，于是演奏开始了。

Alexa是亚马逊旗下一款基于云的语音识别软件，同时也是那个圆柱形智能音箱Echo的大脑。它的出现让世界为之惊讶，当然不包括小孩子，因为他们认为这是理所当然的。Alexa会伴随孩子们长大，同时自身也会不断改善，在人工智能的帮助下可以回答越来越多的问题，甚至有一天可以和人类自由对话。

年龄大于10岁的人会知道语音识别软件并非与生俱来，而是经历了漫长的发展才有了今天的成果。智能音箱Echo尺寸比啤酒杯还要薄，但在20世纪中期，第一代语音识别设备，几乎要占据一件屋子。

亚马逊Echo把语音识别带进人们的生活（图片来源：Amazon）

人们一直有和机器交流的意愿——至少是让它们和自己说话。“声音——最自然的交互方式，使得人类和科技的互动如此简单，也是我们每天沟通的方式”。亚姆逊设备事业部和Alexa欧洲区副总裁乔里特·范德·莫伊伦（Jorrit Van der Meulen）说道，“语音代表未来”。

1773年，俄罗斯籍科学家、哥本哈根大学生物系教授克里斯蒂·克拉特兹斯坦（Christian Kratzenstein），也有着类似的想法。他将共振管和风琴管连接起来，制造出了一个可以发出类似于人类元音的神奇设备。就在10年后，维也纳的沃尔夫冈·冯·坎佩伦（Wolfgang von Kempelen）发明一了台类似的机器语音装置。在19世纪初期，英国发明家查尔斯·惠斯登（Charles Wheatstone）在坎佩伦的基础上进行了改进，使用了皮革制共振管，系统装置可以手动调节或控制来产生不同的语音。

1881年，亚历山大·格雷厄姆·贝尔（Alexander Graham Bell）和他的两个外甥，奇切斯特·贝尔（Chichester Bell）、查尔斯·萨姆纳·廷特（Charles Sumner Tainter）共同发明了一个带有蜡涂层的旋转圆柱，根据输入声音强度，唱针会在表面切割垂直凹糟。该装置为1907年第一台录音机“Dictaphone”打下了基础。录音机使得秘书工作者不再依赖速记员，可以用机器来记录发言，事后再录入。此项发明之后，全球越来越多的办公室里，秘书佩戴者沉重的耳机，收听录音并整理记录。

Audrey可以识别数字0~9的发音，且准确度高达90％以上

但以上这些雏形机器都是被动式，直到1952年自动数字识别机“Audrey”诞生。这个由贝尔实验室（Bell Labs）制造的巨型机器占据了一个6英尺高的继电器机架，耗电量巨大，连接着成群的电线。它可以识别语音中基本单位—音素。

当时，计算机系统十分昂贵，灵活性很差，内存和计算速度有限。尽管如此，开发商HK Davis初次推出Audrey时，它可以识别数字0~9的发音，且准确度高达90％以上。当面对指定的发言者时，准确率达到了70-80％，但对不熟悉的声音准确率很低。贝尔实验室信息分析部的查理·巴尔（Charlie Bahr）表示：“这是一个令人惊奇的成就，尽管系统庞大到需要占据整个房间，并需要专门的电路来识别每个数字。”

电话的发明者贝尔在语音识别方面也完成了重要的工作（图片来源：Science Photo Library）

因为Audrey只能识别指定发言者的声音，因此用途有限：例如拨号员可以通过它语音拨号，但实际上人工按钮拨号即便宜又快捷。因此Audrey更像是一只雏鸟——在通用计算机前诞生。虽然它没有投入到生产系统中，但“表明了语音识别的可行性，”巴尔说道。

但是还有其他目的。查理·巴尔的同事拉里·奥戈尔曼（ Larry O’Gorman）说道：“我相信研究Audrey的最初目的是减少带宽，使得电线传输数据量更小。”语音识别相比原始声波所使用的带宽会更小。随着二十世纪70和80年代电话交换机的数字化，使得电话线路分配更迅速、更便宜，但仍依赖于接线员理解拨号请求。因此在此时期，贝尔实验室在语音研究花费的巨大努力，就是希望做到以下简单几点：识别数字0~9，以及“是(yes)”和“不是(no)”。奥戈尔曼:”只要可以识别这12个单词，电话系统就可以完全过渡到机器电话转接了。"

除了Audrey，二十世纪六十年代，日本的几支研究团队也在从事语音识别工作，比较知名的包括东京无线电实验室的元音识别器，京都大学的音素识别器以及NEC实验室数字语音识别器。

我们不想再查字典了（指模板匹配），因此我想创造一个可以翻译的机器 ——亚历山大·韦贝尔

在1962年的世界博览会上，IBM展示了它的“鞋盒”（Shoebox）机器，可以识别16个口语化单词。此外美国、英国、前苏联都进行了相应研究，苏联发明了动态规划算法（DTW），使得它们的识别器可以认知200个单词。但这些系统大部分都是基于模板匹配，即将每个单词和已存储的语音模式进行匹配。

最大突破发生在1971年，这一年美国国防部研究所（Darpa）赞助了五年期限的语音理解研究项目，希望将识别的单词量提升到1000以上。参与该项目的公司和学术机构包括IBM、卡内基梅隆大学（CMU）、斯坦福研究院。就这样，Harpy在CMU诞生了。

不像之前的识别器，Harpy可以识别整句话。“我们不想再查字典了（指模板匹配），因此我想创造一个可以翻译的机器，这样当你说某种语言，它就会把它转换为文字，再对文字进行翻译并输出文本，一气呵成。”卡内基梅隆大学计算机科学教授亚历山大·韦贝尔（Alexander Waibel）说道，他同时参与了Harpy以及Harpy-II的工作。

电话的出现加快了语音识别技术的发展（图片来源：iStock）

从字到短语（翻译）并不容易。“对于句子来说，单词会互相干扰，你会感到困惑，难以确定句子的开头和结尾。例如，单词’euthanasia’，很可能识别为’youth in Asia’。或者你说了’Give me a new display ’，它可能被理解为’give me a nudist play’。”韦贝尔说道。

最终，Harpy可以识别1011个单词—接近三岁孩子的平均词汇量，并且准确率还不错，算是实现了Darpa定下的目标。“它成为了很多现代系统的鼻祖”，CMU语言技术研究所主任杰米·卡博奈尔（Jaime Carbonell）说道，“它是第一个成功利用语言模型判断哪些单词放在一起更加合理的系统，因此它能够降低语音识别的错误率。”

在后来的几年，语音识别系统又得到了发展。在八十年代中期，IBM创造了一个语音控制的打字机—Tangora，能够处理大约20000单词。IBM的研究是基于隐形马尔科夫链模型（hidden Markov model），在信号处理技术中加入统计信息。这种方法使得在给定音素情况下，很有可能预测下一个因素。

IBM的竞争对手美国声龙（Dragon Systems ）提出了自己的方法，技术的大踏步前进推动了第一个语音识别应用的诞生——例如可以让孩子训练说话的玩偶。尽管取得了成功，但是当时所有的程序都使用离散的听写，这意味着使用者必须每个单词发音后都要停顿。1990年，声龙发布了第一款消费级语音识别产品Dragon Dictate，价格高达9000美元。而后在1997年，Dragon NaturallySpeaking问世——第一个可识别连续语音的产品。

“在此之前，语音识别产品仅限于离散语音识别，这意味着每次只能识别一个单词，”Nuance Communications公司高级副总裁兼总经理彼得·马哈尼（Peter Mahoney）说道，“通过开创连续语音识别，声龙首次实现了通过语音识别来创建文档。”Dragon NaturallySpeaking每分钟可识别100个单词——至今仍然使用，例如，在美国和英国许多医生用它来录入病历。

微软的智能语音助手Cortana是数十年实验的成果（图片来源：iStock）

在过去的十余年里，基于人脑工作机制的机器学习技术使得计算机可以在大量语音数据上进行训练，从而使得对不同人的不同口音也具有了出色的识别能力。

谷歌巧妙地使用了云计算来处理app接收到的数据

这项技术的发展经历了一段时间的停滞，直到谷歌为iPhone发布了谷歌语音搜索（Google Voice Search）app。谷歌巧妙地使用了云计算来处理app接收到的数据。很快，面向大众的语音识别软件的计算能力大大增加。用户数十亿次的语音搜索使得谷歌收集了大量语音样本数据，谷歌有能力实现大规模数据分析工作——将用户语音和这些数据样本进行匹配。在2010年，谷歌在安卓手机的语音识别app中加入了“个性化识别”，并于2011年年中将语音识别加入了Chrome浏览器。随后，苹果迅速推出Siri加入战场；微软推出了AI Cortana，名字来源于一款科幻游戏系列《光晕》中的角色。

目前机器的声音和人声差别不大，但在很多情况下自动语音识别成功率远低于人耳——拉里·奥戈尔曼，诺基亚贝尔实验室

那下一步该如何呢？“在语音处理领域，最成熟的技术是语音合成，”奥格曼（O’Gorman）说道，“目前机器的声音和人声差别不大，但在很多情况下自动语音识别成功率远低于人耳。”虽然在较小噪音环境下，清楚的发音仍可以被自动识别，但所谓鸡尾酒会效应——人们在鸡尾酒会上嘈杂的环境下仍可以理解讲话者的发言，这是目前任何技术都达不到的。即使是Alexa，如果是在嘈杂的室内，你必须离它很近，并且保证发音清楚洪亮。

范德·莫伊伦（Van der Meulen）表示：“亚马逊语音识别的灵感来源于星际迷航（Star Trek）中的计算机，目的是在云上创建一个完全由语音控制的终端，以便用户可以和它自由交流。的确，目前的技术还不能达到好莱坞大片中的水准，但我们处于机器学习和人工智能的黄金期。尽管实现机器像人一样做事还有很长的路要走，但我们每天都在和这些复杂的问题做斗争。”

作者：Katia Moskvitch

原文链接：http://www.bbc.com/future/story/20170214-the-machines-that-learned-to-listen

编译：Timmy

最后编辑于：2017.12.11 05:38:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,108评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,699评论 1赞 296
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,812评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,236评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,583评论 3赞 288
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,739评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,957评论 2赞 315
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,704评论 0赞 204
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,447评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,643评论 2赞 249
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,133评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,486评论 3赞 256
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,151评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,108评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,889评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,782评论 2赞 277
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,681评论 2赞 272

聊聊语音识别的发展史

推荐阅读更多精彩内容