智能语音时代的基础理解

技术世界不会让人永远躺在功劳簿上。


智能语音时代.png

繁忙之余,感谢愉快的地铁阅读时光,读了一本科普书《智能语音时代》。可能由于译者不是专业人士的缘故,在翻译中有一些常识性错误,例如出现了“网景公司正在奋力开发IE浏览器”之类的,但是瑕不掩瑜,作者还是给出了很多有意思的事实和观点,例如:

最好的魔术就是——

  • 能从逝者那里拿回一些东西,

  • 能让某些东西无中生有,

  • 能让无生命的东西具有灵性。

“不动笔墨不读书”,读书后的随笔札记就是下面的这些文字。

语音是什么?

语音,是人类呱呱坠地后最早使用的沟通方式,也是现代人际交流最基本的方式,更是未来人机交互最重要的方式。语言把我们连接起来,人们知道如何说话,因为我们终其一生都在说话。

语音对我们有意义,是因为我们知道它所表示的对象及概念,我们有逻辑和常识,有知识本体这样一个组织体系,通过语言来传播思想。人们把听到的信息和头脑中已有的信息结合起来进行理解。

语音这一能力把我们和其他物种区分开来。语音调整着我们的关系,它能塑造思想、表达感受、沟通需求;能发起变革、挽救生命,激起爱恨情仇。

当语音遇到人工智能

手机把云计算带个了每一个人,只要随身带着麦克风,就在日常生活中真正掌握了人工智能这一工具。科学技术是赋能的核心要素,当语音和人工智能结合的时候——

语音正在变成影响现实的通用遥控器,成为几乎控制任何一种技术装置的手段。语音把对人工智能的控制权交给了用户,正在引领着“环境智能”的实现。在使用很多应用程序的时候,人们会抛弃键盘和触摸屏,而选择更自然、更让人自在的语音界面。语音技术创新了与客户交互的方式,还创新了收集数据并以此创造利润的方式。

智能语音改变了隐私、自主权和关系。人与人工智能之间的对话,可能是新文明到来的征兆。然而,效率的提高代价是独立性的减弱。智能语音模糊了人与机器的界限,模糊了隐私、自主权和亲密感的界限,还模糊了人际关系与数字关系、现实与虚拟、甚至可能是生与死的界限。

智能语音中的技术

涉及智能语音的技术包括:自动语音识别,自然语言理解,自然语言生成和语音合成。这些技术往往都把基于神经网络的深度学习作为一种重要的手段,多层结构、数字的精细输出和加权调整赋予了神经网络更多的功能。

把声波转换成文字:自动语音识别

语音识别系统很少能够处理非常确定的情况,一般在猜测人们最有可能说什么,通过声学模型(声波分析)和语言模型(相当于字典)配对来实现这一点。衡量语音识别系统准确度的经典方法是使用电话总机通话记录的数据集。

识别出这些文字表达什么:自然语言理解

计算机是用来处理数字而不是文字的,要处理语音就必须先用数字来表示语言。使用被称为向量的有序字符串来表示文字,这种方法称为词嵌入。神经网络可以学习区分单词的属性,并不需要171000维向量来表示一种语言,可以在不到1000个有意义的特征中完成这项工作。不仅单个单词能被嵌入,向量也可以粗略地表示短语、句子和整个文档。句子的意义是在词汇的动态流中被发现的,而这些词汇同时又在修饰着其他复杂的词汇。深度学习能够帮助计算机理解句子的意思。

形成一个合适的回复:自然语言生成

语言人工智能使用信息检索比任何其他技术都多。例如,LSTM能够准确定位邮件中那些最有助于预先构思回复的部分,而不会被那些不太重要的句子干扰。这或许就是做Google、百度等搜索公司的核心竞争力之一吧。

将回复变成语音答复:语音合成

变幻莫测的发音和韵律意味着一个单词可以以几乎无限多的方式发音,这使得语音合成变得棘手。基于单元拼接的语言合成集合了真实人类的语音片段,这种参数化合成的方法一直是语音行业的“天鹅绒奶酪”。2017年8月Siri推进了新的基于神经网络的语音合成方法——一个混合系统将合成的音频片段和人工生成的音频片段链接起来。

语音技术要适应人类对话的复杂性和多样性,面对一个核心挑战:变异性(下一步对话的走向)。社交对话中充满了事实、细节和俚语,包含无限多的变化,例如话题的突然转移、同语言一样重要的情感元素等。另外,交谈中会有停顿、矛盾、暗示和笑话。因此,社交对话是语音技术的终极挑战之一。

语音助手产品的人性化

互联网上应该有人们最好的朋友吗?

当听到有人说话时,我们会自动做出判断和假定,拥有讲话的能力实质上就具备了人的特质。而语音助手在个性上应该如何友善、如何有同情心、如何有智慧呢?需要设定它的年龄、性别、种族和社会背景吗?自我应该是真实生命专属的,真实的人并不完全由他们的职业来定义,可以为语音助手打造独特的身份。

语音助手必须能够表达自己的脆弱,对事情感到不确定或担心,才显得它更像一个人。

谷歌发现,拥有最高用户留存率的语音应用是那些拥有强烈角色性的应用程序。对话设计的着力点在科学和艺术的连接上。平易近人的个性会鼓励用户学习使用语音助手的技能集。因此,语音助手拥有能够鼓励人们愿意与之打交道的个性是很重要的。

当用户试图得到一个问题的答案或完成一项任务时,语音助手的回答必须是严谨客观的。人类不是纯粹寻求信息的生物,他们有情绪,会焦虑,都是需要应对的。关系是由感情来维系的,情商并不局限于感受到对方的情绪。情感计算技术——从面部表情、词汇选择和音调上进行情感分析——只能在有限的程度上提高互动的质量。微软小娜感觉就像融合了Google Now 的世俗气和Siri的迷人魅力。

个性化产品将推动用户的参与,但构建角色是通过使用基于规则的人工创作方法进行的。也就是说,赋予语音人工智能个性是有意义的,但选择恰当的个性是很棘手的事。一个普遍的事实是,各个厂家的语音助手一般都是女性化的,这不是约定俗成,而是有着深层次的含义。

智能语音的应用架构

不论是亚马逊、谷歌、微软,还是国内的百度、阿里和小米,面向语音助手的智能语音应用都采取了基于代理(关于代理,可以参考当你问代理机制的时候?指的是Agent,Proxy,Broker还是Delegate呢?)的架构,其巧妙之处在于它是模块化的、可扩展的,可以不断地把新的业务系统囊入其中。

例如,Microsoft Bot Framework,开发者可以为任何商家创建一个自然语言的界面。基于云端的人工智能服务能够对此提高支持,以解析语言、组织对话、甚至还能分析出隐藏在人们语言之后的感情。

开发自然语言的应用程序,即使是聚焦在非常具体的领域,可能也会非常困难。当要把很多信息呈现出来时(如很多天的天气预报或者可选航班),视觉呈现会比语音呈现更有效率。不仅着眼于已存在的智能手机应用程序,而是更多地聚焦于创造一些能让自然语言交流大显身手的场景。

对于数据的应用而言,结构化数据是指以标准化的、计算机可读的方式列出的信息数据库。知识图谱以类似生物学分类的方法来标柱各种关系。为了解决知识图谱的问题,转而运用了从非结构化数据中寻找答案的系统,包括网页、扫描文档和数字化图书。智能语音可以越来越多地充当回答问题的百科全书。微软的概念图谱在规模和覆盖范围上也一直在与谷歌的知识图谱进行竞争。如何将基于知识型的人工智能与机器学习型的人工智能两种技术结合起来,创造一个混合性系统呢?

智能语音应用中的问题

智能语音在实际的、以目标为导向的应用中已经做的十分出色了。Siri对话调用的早期6个应用领域是:短信、音频和视频通话、付款、拍照、锻炼、乘车预定。在从传统的搜索引擎到人工智能服务的转变中,亚马逊获利最多,微软赢得美名,谷歌损失最多,但仍令人敬畏。

智能语音正在被尝试广泛地应用,例如,认知系统会分析我们用语音和文字进行交流时候的表现,这些分析结果有助于发现精神性疾病各阶段的迹象。然而,语音助手会对他们掌握的知识负责么?某一功能在未来的某个时候可能意味着一种责任。

凡事都有两面性,智能语音应用可能会存在哪些负面影响呢?人们有权感知真实的世界。尽管老人和儿童都倾向于将语音助手拟人化,那么与拟人化产品互动会如何影响人们随后的社交欲望呢?用户提出要求并获得满足,且无须任何付出,这可能不利于道德和情感的发展,尤其是对儿童而言,实际上,关于孩子们如何看待当今的聊天机器人的研究还很少。

从商业上看,用户愿意为什么样的交谈付费呢?为成为被选中的语音搜索结果而付费,只是一个时间问题,这种广告可能更费钱。正如一场货架空间争夺战即将出现,从理论上讲,每个位置的价格都将更高,因为同样多的需求被挤压到了更小的空间里。当众多竞争者都在努力让客户听到自己的声音时,要占据市场的主导地位就变得更加困难。但目前的情况是,语音广告似乎不太可能产生与在线广告和移动广告相当的收入,因为适合播放语音广告的平台比较少。需要注意的是,一项市场研究预测,到2022年语音购物的规模将从目前的每年20亿美元增加到每年400亿美元,可惜书中并没有给出应用的出处,所以无从考证。

智能语音是一场为用户设计单一界面的竞赛。提供唯一权威答案的战略意味着我们生活在一个简单和绝对的世界里。对知识的控制是一种强大的力量,它正在被集中到少数精英团队的手中,控制权决定了语音流量的去向,这可能是潜在的另一个问题。

最后,你希望拥有自己记忆的语音助手吗?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容

  • 老金的故事(故事有点长但有深意) 老金:50多岁的上海男人,是个胖子,脑袋大脖子粗,说话声音大,连喘气声音也大,是...
    华芙饼阅读 896评论 0 1
  • 和宝宝来到杭州,下午本打算带宝宝走到断桥,但发现人太多了,只看的见人,看不见桥,所以,体验太差。吃个小麻糬都要10...
    奔跑的马齿苋阅读 153评论 0 0
  • 距离奶奶的80大寿还有一个月,今天家族群里,孙子辈的孙子孙媳们在商量给她老人家的生日惊喜,满满 的仪式感。 作为她...
    Anny陈老板阅读 379评论 3 1
  • 刚刚上大学的时候,我觉得自己终于自由了,有了相当大的‘财政大权’每月有一定的零用钱。也可以吃想自己吃的东西...
    Mingming0812阅读 152评论 0 1