面对智能化的未来,设计师你准备好了么(语音交互篇) [Nick荐]

[交互设计]

Nick推荐理由:只要是人一切能够感知到的事物都需要设计,把视觉传达、人体工程、声乐设计等众多领域的经验用于人机交互,而现在交互设计正在往一个更加自然、更加接近于人本能的方向发展。就像现在的VR、AR、MR技术,其实也是在模拟人与现实交互的一种过程。因为人机交互最终是和人的感官进行交互,而人的感官所适应的系统是几百万年来进化当中和自然交互的一个过程。所以人和自然之间的交互是最高效、最舒适的。

因为我们现在有大数据、云计算、深度学习、图形处理其等技术作为支撑,通过设计改变生活方式。从功能化的设计转向场景化的设计。比如说在你做饭的时候和开车的时候,这个场景下它的VUI的效率要高于GUI。从规则指令交互转到自然语言交互。自然语言交互不仅限于VUI,而GUI上也可以进行自然语言的交互。从单屏交互到无处不在的交互。我们未来的界面可以不再是大家认为的最传统的矩形,可以是任意的形状,像自然界当中的物体一样的形状。以后人工智能不在是能做什么、擅长什么,而是擅长的是否是你想要的,体现的性格是否是你最喜欢的。也许这就是感知设计随着科技的提升变化改变。而现在我们需要把这些停留在过去的电子产品设计得更加自然和接近于人的本能。我们不再仅仅是视觉设计师,我们是听觉设计师,我们是为所有感官而设计的设计师。

随着科技的发展,人机交互发生着巨大的变化,智能家居,智能车等智能硬件的普及,人们越来越需要一种不依赖于键盘鼠标显示器的交互方式。同时,语音输入技术上的重大进步也使得人们可以用更为自然直观的方式和设备进行“交流”。因此,设计师也需要具备一些语音交互的设计方法来设计出更为可用的语音交互方式。

语音识别技术简介

在做语音交互之前,我们需要知道语音识别技术的实现原理以便知道现有技术存在的几个重要限制。当我们在设计语音交互时,我们需要对语音输入及(系统的)语音反馈进行设计。这就好比在设计对话,作为设计师,我们必须确保“对话”的双方都能很好的理解对方。那么相应的,语音输入也存在两个技术关键点:语音识别和语义理解。早期的语音设备只是对语音进行听写,而对语义的理解远比识别语音要难。

在过去的20年中,对语音的识别、理解、自动回复方面有了重大的发展,在90年代,工程师和语言学家花费了大量时间来训练系统识别特殊词语。这些被称作“有限状态语法”(finite state grammars),既系统只能识别一系列有限的词和短语。现在很多自动语音应答系统还在使用,例如一些自动回复的电信业务(银行业务查询等)。

随着技术的进步,“统计语言模型”(statistical language models)被用在更多的产品上。系统不再限定在识别特定的词和短语,而是可以将声音对应到特定的字符串。换句话说,你不用直接教siri“纽约明天天气怎么样?”这个短语,siri可以通过将你的发音听写成单词然后将这些单词匹配出相应的意思。这一系列的识别,加上机器学习方面的进步,使得自然语言的交互成为可能。随着自然语言交互的发展,机器不止能识别我们说的话,还能够理解话的内容并做出正确的答复。这点虽然对人来说很简单,但对一台机器来说已经相当科幻。

语音交互(VUI)和图形交互(GUI):相同和不同

对语音交互设计师而言,以上的这些科技进步相当重要,因为它们可以让我们以一种20年前科幻小说中的方式来与机器“对话”。但我们还需要找到有效的设计方法来最大程度的利用这种科技进步。幸运的是,图形界面设计中的以用户为中心的设计理念很多可以复用到语音设计中,我们不需要完全从头开始,但也要知道有哪些新的模式需要注意。

交互设计(ux)中最重要的角色是用户,一切流程都是围绕用户为中心展开的,这点在语音设计中是相同的。Thomas Hebner作为一个从事了16年语音设计的设计师,他认为语音设计中最重大的错误往往发生在用户目标和业务目标不一致的情况下。

优秀的产品通常都是能快速解决真正的用户需求,同时很适合他们的使用场景。我们需要的是能感知上下文的设计,比如我在家说“温度升高点”,系统要知道我指的是暖气还是烤面包机。这种感知上下文的能力与语音识别技术无关,主要看设计师对系统对话的设计是否巧妙。

以上这些很重要,理解用户、使用中对上下文的感知、可用性与易用性这些通常用在评判GUI的设计标准同样适用于语音交互(VUI),所以传统的交互设计师可以很好的将自己在GUI方面的设计经验移植到VUI上。

但也有一些关于VUI的特殊设计要点需要特别注意。

会话能力

内容和调性对于每个设计都很重要,但在设计语音输出时尤为重要。好的语音设计可以让用户在使用时感觉像在进行正常的对话,但对于电脑而言,像人类一样会话相当困难。

Tony Sheeder一位从事超过14年语音设计的设计师解释道:

每段语音交互都好比一个简短的记叙文,有开头、过程和结尾。人类对这些会话规则了如指掌,所以当你参加一个聚会,你会很快发现哪些人比较容易交流。现在的大多数语音系统就好比那个在聚会上说什么都是错的,别人都不喜欢和他交流的“人”。

早期的语音设计师大多有语言学的背景,Tony Sheeder最初是为互动游戏编写对话的,这也帮助他能够很好的编写出自然顺畅的会话。但设计语音交流并不总是一帆风顺的,早期的语音交互会让用户感到不舒服,因为设计师认为用户需要系统给出明确的指示,系统一般会说“是否需要查询你的账户余额?请回答是或否”这违反了会话的基本原则。Sheeder认为互动式语音应答系统(IVR)希望自己像人类一样说话,但同时希望你像狗一样回答,这点是用户感到不舒服的主要原因。

设计更好的交流技巧

许多设计师强调文案在体验中的重要性,如果你希望在产品中加入语音功能,那么你需要学习以下一些重要的规则让你的语音交互体验更好。

保持简短,但不能太短

当系统太过于健谈时,体验会变得相当糟糕,尤其是在无输入系统中,语言要相当简明并使用户始终主导交互的节奏。简言之,在设计对话时要保证简洁但也不要过于简短。

书面语言完全不同于口语。当你开始写一段会话时,你会发现它读起来很生硬或者让机器读起来过于冗长。这其实很常见,你需要保持所有的会话比你想象的要短的多。如果不这样,用户很容易失去耐心听完从而可能错过重要信息。

另一方面,你同时需要注意不要省略重要的信息。sheeder谈到了早期的语音自动应答中心的设计,设计的核心目标是让所有东西尽量简短。“有一个理念是:若在一次通话中减少750毫秒就可以提高效率,但通过剔除连接词和过渡短语反而会增加用户的认知压力从而使效率降低。”当反馈太快时会对听者造成很大压力,他们会因为无法及时处理信息而变得挫败,最终使得自动应答中心的整体效率降低。

创造性格

人们会把能与他们交谈的东西当做人类对待,而每个“人类”都是具有性格的。在VUI中同样是这样,苹果的siri,微软的cortana和亚马逊的a'lexa都分别具有完全不同的性格。

成功的语音系统拥有性格不只是为了好玩,同时也是目标导向的,冷静正式的性格可以提高效率,而亲切的性格可以让用户更愿意交流。

拥有个性也可以帮助你设计会话。在某方面,个性就像是在GUI设计中的风格指南,可以帮助你确定应该用什么词汇和语气来组织会话。而决定运用什么性格是由你的产品目标和用户特征决定的。但无论如何要记住,你的语音系统可能会被用户长时间多次使用,所以你选取的性格不能是那种随着时间推移会让人厌烦的,比如过多的冷笑话或者喋喋不休的重复。

还有一个地方需要注意,当你将系统设计的带有性格时,系统会变得更加拟人化,而用户也会把系统当做一个“人”来对待。这时用户对系统的智能化要求也会相应提高,当发现系统并不是很智能时,反而会增大挫败感,这也是为什么用户会对siri要求的格外严格。

自我测试

为了确保会话的自然和高效(不是恼人的),你需要做很多测试。可用性测试是当然要做的,但在这之前,你可以通过以下方法开始提高自己的VUI交互能力。自己扮演你要设计的系统去和其他人对话,将对话录下来然后播放,看是否合适。再让机器读这段会话,以此来测试。

当然所有这些方法与界面设计中用的方法差不多,我们写界面上的文案也需要考虑文风和语气,同时也要保证高效简洁,当然也要进行可用性测试。然而,在以语音为主要交互方式的设计过程中,这些方法套路也需要做如下相应的调整:

可发现性和可预见性

可发现性和可预见性在以语音为主要输入方式的系统中相当重要,尤其是在使用自然语言系统时。在这点上图形用户界面和语音用户界面会有很大不同。

自然语言系统将大部分发起询问的负担都给了用户,相反的,图形界面可以给用户上下文线索,比如提示、询问,甚至是明确的选项。当你登录你的网上银行时,网站通常会给你几个选项,例如你是否想登录或者学习如何新开一个账户。

想象下如果银行像谷歌的语音系统一样。你进入网站然后系统提示你问一个问题。有时会很顺利,如果你恰好是要查询余额,对话就会变得很简单:“查询我的账户余额。”“好的,你的账户密码是多少?”

但如果你想开通一个新的业务帐号,并且与你的储蓄账户绑定,并且有许多选项需要选择,每个选项都有不同的收费方式。这个对话会很难开始,因为你不知道要从何说起,先问什么。甚至很多新功能你都不知道它是否存在,就更不用说去问了。

这类可发现性的问题在设计开放式语音系统时是一个很重要的问题。当Abi Jones第一次设计语音时,她把一个录音设备假设成一个什么都能听懂并回答的机器,“这让我第一次意识到想要说出自己想要什么是多么难的一件事,”她说。

即使在限制输入内容且功能完全外显的语音交互中(例如一些只能让用户说特定词的应答系统),设计师还是要处理一系列无法预测的用户应答。在可视化产品中,我们所做出的大部分选择被用户界面限制。有能点击的按钮,供选择的选项,可拖动的滑块。当然也会有开放式的文本输入框,但他的出现一定会有上下文提示它的作用。当你在谷歌搜索框中输入时,即使输入这个行为本身不可预知,但上下文的信息也能让用户按照设计者的意图进行操作。

与此相反的,siri需要根据你的输入来确定做出什么响应。是打开一个app?搜索网络?还是给某个联系人发短信?输入的不可预测性对设计师而言是个棘手的事情,如果我们想要限制用户输入或让用户知道他们能做什么,设计师就需要预测更多的使用情景来尽可能多的覆盖用户可能的应答。

设计更好的可发现性和可预见性

想要让你的语音系统的功能更为可见,首先你需要让系统积极主动,先发制人。与其让用户自己想起来他们要干什么,不如系统先发起对话,问问用户他们需要干啥。

Karen Kaushansky认为这方面cortana做的很好,如果你在开车并带着蓝牙耳机,此时你接到一条短信,cortana会知道你正在开车,它会询问是否需要帮你阅读短信内容,但如果蓝牙耳机关着他就不会这么做,因为外放音读短信可能牵扯隐私。以上可以看出,cortana已经可以联系上下文并且主动发起会话。通过触发基于上下文的提示,可以帮助用户发现隐藏功能,上面的例子中用户就知道了cortana可以读短信。

另一个选择是向用户解释他们应该说什么。许多使用自然语言的系统开始像早期应答系统一样给用户各种提示。例如,他们不会再问“你需要什么帮助?”,取而代之的是“你需要什么帮助么?你可以说:查询银行收支、申请支票、汇款等。”虽然对用户而言,即便科技已经很发达了,但提示用户“你可以尝试说。。。”仍是比较好的启发用户发问的方式。

隐私和易用性

一个在语音,尤其是纯语音的交互中很显然的问题是:一切都会被他人听到。当然,让系统播放歌曲这种命令没什么问题,但假如在一个开放的办公室里系统朗读了你的健康记录,事情就会比较糟糕。所以上下文仍然相当重要。

Rebecca Nowlin Green,一名在Nuance通信公司工作的商业总顾问,她解释道好的语音系统应该在敏感信息方面设置撤回输入的方式,包括使用其他方式展示。

易用性也是一个问题,虽然语音识别技术已经发展的很好了,但在非母语用户、嘈杂环境下或者网络不畅通的环境下识别精度仍会大大降低。所以使用环境会对系统的可用性和适用性产生很大影响。

为隐私和易用性而设计

好的隐私设计的关键是理解用户会在什么情况下需要信息以更加私人的方式呈现,且这些信息出现时的上下文是什么。没有人愿意在地铁上喊出自己的社保密码,但在某些情况下甚至连短信的发送人这种信息都会牵扯到隐私。

让设备能够轻松的切换到无声模式并且支持多种输入和输出方法对保证隐私至关重要。而一个反应灵敏的应答系统也会对隐私有所帮助。例如生活中,当你小声对一个人说话时,对方也会小声的回应。我们通过周围的人的反应及时调整自己,可是机器不会,它只会用同样的音量做出应答。所以在设计语音系统时将环境噪音、位置、接收到的音量考虑在内并做出处理可以大大改善隐私问题。

对上下文的理解可以改善易用性。例如一个叫做TRNQL的致力于开发便于语音输入输出SDK的初创项目。其中有一个设计是当系统检测到用户是坐着的时候,输入方式是键盘输入,而当感知到用户在走路时,默认输入会切换到语音。这样就会避免在行走中看手机而发生事故。

当我们的设备对我们越来越了解——我们住在哪,在哪工作,我们什么时间在听歌或看电影——系统可以更好的判断什么时候以何种方式与我们交互。但易用性和隐私之间需要有一个度,我们可能会希望我们的系统知道我们在走路但不希望它知道我们在哪走。这些问题在手机和私人设备的设计中需要着重考虑。

记住,隐私和易用性问题是严肃且不好解决的问题,了解用户介意哪些信息以及信息所处的上下文可以帮助你知道如何做能既保护了用户的隐私又能给用户提供便利。

纯语音系统和混合式操作系统

早期的语音设备常见于大公司针对个人用户开通的电话自动应答系统。现在的语音系统多用在智能家居、手机和可穿戴设备上。有趣的是,这些设备都具有多种输入输出方式,比如屏幕、灯光甚至物理键盘。这些混合式交互系统给了设计极大的可能性。

不幸的是,很多公司只是因为语音比较酷而将语音引入他们的设备。他们认为用户更喜欢直接发问而不是根据系统给出的结构进行会话,因此他们更喜欢引入自然语意系统。同时,为了减少干扰而去掉屏幕或物理按键。

但只有当某些特殊场景下需要引入语音才能解决某些需求时,语音的引入才有意义,否则随意的使用语音只会适得其反。

你需要考虑的是一个语音对话能够如何改善某个用例的体验。比如在输入中,有些信息很容易说出来,但很难手动输入;而有些则容易“写”出来,却不容易“说出口”,语音输出存在同样的问题。

例如这则对话:“siri,告诉我旧金山北部市场中提供午餐且还没关门的所有餐厅。”但你肯定不希望siri将全部760家符合条件的餐厅都念给你,所以这个场景适合语音输入,屏幕输出。

但如果在我们平时用百度地图导航时,我们更习惯于输入目的地进行路线查询,在确认好路线时用语音进行导航。所以这个场景适合屏幕输入,语音输出。

所以,作为设计师,如何决定何时何地使用什么输入输出方式需要我们根据设备、任务和上下文来做特殊处理,但也存在一些通用的原则可以参考。

一些适合使用语音的情景

智能家庭共享终端

语音经常被用在一些没有屏幕的设备上。智能家居设备,例如nest thermostat,只有一个小屏幕或者干脆没有屏幕,用户通过手机app进行控制。显然语音控制要比app更加合适。比如飞利浦的智能照明系统已经可以用Amazon Alexa控制了。

Abi Jones解释道“语音系统的操作门槛相对较低,且不会区分使用者身份(在隐私保护方面是劣势),这使得家庭中的各个年龄层成员都能很顺场的控制智能家居系统,而且语音的控制可以省去手持遥控器(可能是你的手机),更便于家庭轻松随意的使用场景。”

语音系统还可以让用户“隔空”控制设备,比如你可以在客厅中控制厨房中烤箱的温度,或躺在床上控制整个房间的灯,前提是接收器能听到你的声音。

一些很难输入的内容

比如数学公式、化学方程式和曲谱等都是容易念出来,但由于包含很多特殊符号使得输入十分困难。这时语音输入就会很有必要。

人们可以表达的复杂信息

实际上,当用户有复杂的命令需要说时,语音的优势就体现出来了。假设你今晚想要看一部电影,你可以在电影列表页翻页或依据应用给出的有限个分类进行筛选,或者,你可以选择说:“给我找一部没有黄晓明出演的电影,这个电影要四星以上且有免费资源。”

对于由多个关键词和过滤条件混合的复杂搜索请求,用户通常很容易用词语描述出来,谷歌在这方面做的很好,无论用户是用键盘还是语音输入的。试想如果将支持语音的搜索引擎植入到诸如电视机这种只有简单遥控器的设备上会带来多大的方便。

在需要释放双手或双眼的操作环境中确保安全

在车中语音交互已经被应用。不管用户是否喜欢,他们不得不在开车时需要与设备进行交互,比如导航、开车途中接电话或者需要回复短信的情况。这时候用户需要让他们的双手握在方向盘上而眼睛目视着道路。语音交互在这种情况下可以保证用户安全的操作,虽然不能避免分散用户注意,但至少用户不用低头看手机了。

不只是在车上,比方说在手术室,我们也不希望医生在需要查找某些信息时还需要用手打字。

因此,当我们需要快速获取信息或做出回复但我们的双手和双眼又无法使用时,语音输入和语音应答可以保证安全性和效率性。

不要使用语音交互的场景

任何需要谈判或拥有很多变量的情况

虽然语音技术不断的进步,但离我们能够和一个设备自然对话还差很远。最成功的语音系统只能支持识别一个(至多两个)句子的长度。Abi Jones 指出,亚马逊的Alexa可以支持简单的自然对话,但仍然有所局限,她说:如果你要求它打开一个不存在的电台,它会问你你是否想要创建一个。但如果你想要跳过一首歌并且增大音量,这是两个完全分开的动作,所以只能完全分开执行。

这就意味着包含有几个不同的请求或谈判的长对话并不适合语音输入。比如,当安排与一个人的会面可以用语音,但要安排一系列相互依赖的会议时,语音就不会那么有效了,反而是找出日历来一个个选择比较容易。

大量的输入和输出

在大量数据的输入和输出时,语音要比打字慢很多。比如搜索你想要去的餐馆,你可以比较容易的用语音描述出你的筛选条件,但将搜索的结果用语音读出来显然相当麻烦。因此,当你可以浏览列表并通过点击选择时,就没有必要通过语音来操作了。

当需要处理大量的输入和输出时,可视化界面要比语音界面高效很多。虽然有些人很擅长口述他们的想法,但要流利且准确的说出整个email的内容还是需要一定训练的。短句子和简短的邮件回复比较适合语音输入,不过打字还是更容易让大多数人接受。

很难形容的内容

在上一节中,我们看到了一些容易口述但比较难打的字、符号和行业术语。但同时也有一些很难大声说出来却很容易用屏幕显示出来的内容。

虽然在智能电视上语音交互已经被用来控制很多功能,但例如白平衡调节这种功能还是很难用语言形容。同样的,在控制智能汽车时,像调节后视镜角度这种操作用语音控制也比较麻烦。之所以这样是因为语音录入在一些有上下文语境的场景中较为有效,但不能适用于所有的场景。

比较复杂的事务列表

另一个语音系统不能很好兼容的是相对复杂的项目列表。想像基于传统网格系统设计的电脑或手机界面,现在需要将上面的内容用机器“读”出来,画面将会相当的“美丽”。

即使没有那么巨量的数据,语音界面仍然需要用户在同一时间记住几个不同的选项,尤其是在完全没有视觉的前提下,这是很难做到的。就像是超市在配备销售员的同时,仍会附上商品标签。有些信息很容易通过视觉获取就不需要被迫通过对话,尤其是跟不太智能的电脑。

成功的结合方式

Tony Sheeder主持了Dragon Mobile Assistant的第一个版本的设计。Dragon Mobile Assistant是一个 Nuance Communications公司推出的免提使用手机的app。它的语音识别技术很出色,可以用来安排约会,发送信息,分享内容到社交网站以及查询天气等。虽然它能够很好的理解用户的请求,但早期的版本却存在一个有趣的设计问题。

sheeder解释道,起初语音交互和图形界面是由两个不同的团队设计的,两个团队都觉得他们应该同时控制信息的输入和输出。“这就使得最终产生了许多冗余的信息,例如app会在屏幕上显示一些信息同时用语音将它读出来。”sheeder说。当两部分设计人员开始互相协作时,他们开始考虑哪些内容适合视觉呈现而哪些内容可以用语音来输出。因此,下一个版本的输入输出方式就明显自然多了。

为了能够成功的将多种交互方式进行结合,不仅需要了解什么时候需要或者不能用语音,而且需要知道怎样将语音与其他输入输出方式有效的结合。下图列出了几种不同的混合交互方式的例子:

毋庸置疑,在接下来的几年内肯定会有更多不同结合方式的产品出现,这意味着设计师需要花费更多的精力来确定哪种输入输出方式能带来最好的使用体验。而且可以预见的,每当你增加一种输入或输出方式,设计复杂度会指数级增加。

下面有一些有用的tips来告诉你哪种输入和输出的组合方式适合你的产品。

纯语音——有限状态

有限状态,纯语音的操作系统更像经典的IVR系统。那是一种当你拨通电话会听到诸如以下的系统提示音:“请问有什么可以帮忙,您可以尝试说查询账户、开通账户、申请清算或者人工服务。”在这个系统流程中的每个节点上,系统只能理解特定的命令。

虽然这个系统很傻,但它仍被那些需要降低客服中心运营费用的公司使用。因为该系统可以处理一系列常见的简单任务并在需要处理复杂任务时将电话进行转接。

什么时候会用到

在有限状态下,纯语音的系统在特定场景下还是很有用的。由于只能通过语音进行输入输出,所以适用于那些没有屏幕的设备,包括IVR电话系统,当然也包括一些没有屏幕的可穿戴设备。

通常,使用有限状态系统意味着你的产品足够简单以至于不必使用自然语言处理方法(NLP)。用户被训练着做少量的简单任务,例如一个只能定闹铃的闹钟不需要一整套自然语义系统来支持,它只需要理解几个用户能记住的简单命令,比如“设置闹钟”。

有限状态系统的一个最大的问题,也是一些人之所以很讨厌使用IVR的原因,系统通常需要用户回答一长串特定的选项才能最终得到用户想要的结果。如果系统包含更多内容,就会要求用户回答更多的筛选选项,这会很容易让用户切到人工服务或挂掉电话。

一些只包含几个特定任务且可以通过简短命令操作的系统比较适合纯语音的交互。例如汽车内的语音控制系统。用户一般只有特定的几个需求,如:播放音乐、打开空调一类的。用户每天都会重复这些交互,而且每次都会用到相同或相似的命令。每个命令都很简单并且相互不会产生影响,所以用户不会迷惑,系统也很好识别和纠错。

纯语音——基于自然语义识别

随着技术的进步,很多IVR系统升级成了NLP(自然语意识别)系统,这意味着当你向某公司打电话寻求帮助时系统会问你“请问你需要什么帮助”,接下来只要你能准确的描述出你的需求它就可以识别并执行。

如果说选择使用纯语音系统取决于你的产品是否具有屏幕,那么选择支持自然语意识别的纯语音系统的决定因素就不止这些了。

Rebecca Nowlin Green的主要工作是帮助公司选择适合他们的语音系统,她推荐将自然语义识别的IVR系统用在需要支持大量呼叫及流程复杂的系统。如果系统中有大量用户可能会需要的功能,设计一个可以跳过一些不必要层级直接让用户获得他们所要服务的流程可以避免用户的中途放弃以及其他错误。

当然,如果用户需要获得诸如医疗保险或银行相关的帮助时,他们通常不知道说什么能让系统给出他们想要的结果。他们很难向电脑询问“我想要知道你是不是能回复我关于我的医嘱的问题。”但是,如果你先给出一个明确的选项来帮助用户做一个选择,例如“开通一项医疗程序”,他们会意识到这就是他们想问的事。在这个例子中,你可能需要给用户一些有针对性的对话来提示他们向系统问什么。因为虽然你允许用户用自然语义来交谈,但不代表不需要给用户以提示。

语音输入/视觉输出

n近些年,市面上有许多产品合入了语音输入,其中有很多是有显示屏的产品。在这些产品上,我们允许用户语音输入,而用界面显示输出的信息。

用智能手表发短信就是这种组合的一个很好的例子。手表的界面很小使得其他形式的文字输入方式都很难使用,但这个尺寸的界面完全足够显示语音输入的单词,以便用户检查拼写和格式的错误。

智能电视也是一个很好的例子。它们没有能够支持复杂输入的硬件设备,而本身又有足够多的功能足以支撑自然语义查询。比如直接说“显示本周三生三世十里桃花播放的所有时间,”要比用遥控器上的十字箭头方便多了。

Thomas Hebner说他最喜欢的一款语音界面是一款订披萨的app,用户只用大声说出他们的要求,比如“两份小披萨,其中一个只放奶酪,另一个放香肠和蘑菇,”这些都不需要用户手动输入。app会将识别出的订单在屏幕上显示以便用户确认,这比用语音将识别结果读出来方便多了。

实际上,那些有复杂功能,需要复杂输入,而这些输入都可以用语音命令代替,同时返回的结果不适合机读出来的系统,都适合使用语音作为输入方式,而用视觉作为输出方式。

物理输入/语音输出

这种特别的组合咋看上去很罕见,但仔细想想传统的立体声音响就是这种交互方式。物理输入可以是点击屏幕,但也可以是按按钮或者手势识别。

另一个例子可能有一些不常见,比如在杂货商店使用的自助结账系统通常都有一个语音介绍对应屏幕上显示的内容。语音输出通常用在一些未经训练的用户经常使用的设备上。一个可靠的人声提示可以帮助这些用户顺利的进行一些特定的操作步骤,诸如银行取款等。

混合模式

许多设备都在朝着混合模式的方向发展,它们会将语音、物理输入和屏幕、语音输出结合。导航app就是一个将这些交互手段结合的典型例子。

用户能够触控拖动地图来查看,用物理按键或虚拟键盘输入。当驾车时,可以通过直接说目的地名称来开启导航。用这种方式用户可以不用将目光移向屏幕或用手来操作。语音输出可以输出导航的命令指示,而例如周围道路拥堵状况等较为难以描述的信息可以使用屏幕显示。

这是一种很好的输入输出结合方式,每种交互方式都将自己的优势发挥出来。整个导航系统会根据用户需求和信息的复杂程度来选择信息的呈现方式,一方面,用户在特定场景下可以不用手眼就能操作,而同时用户也能选择在另一些场景下使用屏幕。

但这种方式的设计还很少见,因为上述的方式是基于对用户的使用方式有深刻理解的基础上的。导航系统在汽车内使用语音还是一个比较明显的场景,但不是所有的产品都有一个明确的使用环境,所以判断什么情况下使用语音交互是比较困难的。

久才能达到星际迷航上的水平?

正如Abi Jones所说,你研究语音交互越久,越会发现和人类简单流畅的交流是一件多么不同凡响的事情。

可悲的是,要实现像星际迷航的电脑那种能力还是遥遥无期。

有一些关键因素制约着我们,其中一些是可以随着科技的进步逐步解决的,另一些只能等到人类适应了科技的变化才能得到改善。

一些我们面对的问题

“所有这些都不容易。还有很多很基础问题存在的挑战,比如对错的识别能力”Rebecca Nowlin Green说,不过一切都在不断改进。

1999年的产品的识别率大概在65%,而如今的识别率接近92%,但仍然意味着有8%的情况下系统不知道我们在说什么,这会让我们在完成任务的过程中受到挫败。毕竟,如果没能把这些问题解决,人们是不会使用这个技术的。

系统和人类都很难处理诸如“插嘴”这种情况,例如当系统在做简介时用户想要跳过简介而说话。人们很难打断别人说话,因为打断说话的人会觉得不自然。而设备却会遇上这个问题,他们可能并不能很好的理解前一段话的内容,所以会经常看到系统不断重复“对不起,我没听懂”来打断用户讲话。

随着语音交互的普及,我们会看到更多的冲突和混乱。以语音触发控制为例,我在家里说:“把室温升高到24度”时,我所指的是空调,而不是我的声控烤箱或是别的什么设备。所以,我们不能像现在这样,每个设备都有一个完全独立的交互系统。

智能手表和可穿戴设备也有同样问题。我说“OK,Google”时,我想让我的手表回答,而不是房间里的另外四个,这不是完全能通过技术手段解决的问题。未来当我们有更多出现在同一环境下的语音控制设备时,设计师就需要考虑指令冲突的问题了。

但我们面对的最大的问题还是人本身。所有的领域专家都认为人类是很反感语音交互的。Abi Jones说:

当人们彼此交谈时,由于我们通过对话创造了一个共同的价值观,所以我们愿意以更加宽容的方式进行彼此交流。当人与机器进行交流时,起初人们还是会以同样的宽容态度对待,但一旦发现系统缺乏“人性”时,人们就会转变成对待机器的态度。

语音的未来 

所以未来会是怎样的呢?其实有许多产品在不远的将来会发生巨大改变。

语音识别早已不是专属于某些特定的行业了,可以预见,未来随着智能手机和智能可穿戴设备的普及,越来越多的公司会加入其中。某天我用我的智能手表通过语音在亚马逊下单,这必要么?不必要,但这会是未来趋势么,当然。这会让我失业么?有可能哦~

大数据和语音识别技术的进步可能很快就能让我们和电脑进行真正意义上的对话。但真正有价值的是,让人们与那些屏幕、键盘效果不佳的设备进行自然的交流。

Tony Sheeder认为语音交互将被更多的用在虚拟现实和增强现实方面:

人们沉浸在游戏环境中时就不应该只能靠点击按钮来进行交互。语音可以为你的产品提供更为细腻和多样的操作可能性。

Rebecca Nowlin Green预测会有更多的虚拟助手、一对一的交互硬件作为各种公司的代表出现。

大数据会追踪用户的行为信息并利用这些数据影响体验,你最喜欢的咖啡馆可能会通过虚拟咖啡助理来叫你起床。

Abi Jones认为未来界面会变得无处不在,当你需要他们时他们就在那,她还认为接入语音会让体验变得完全不同。

但就像任何新科技在开始使用时,公司和设计师在尝试何时使用语音以及怎样使用语音时会做出很多错误的尝试,就像Marco Iacono指出的:

就像苹果的智能手表刚推出时,开发者很快就将他们原有的业务移植到了这个新产品上,其中很多都是原有手机应用的缩小版或删减版。不过不久他们就发现自己的核心功能是否真的适合这个在手腕上又小交互流程又短的设备了。

在本篇文章中采访的这些VUI设计师一般都在这个领域工作了15~20年,所以说他们仍处于起步中显然有点搞笑,但有一点是清楚的,在这个技术成为主流之前,我们仍处于早期状态。

就像As Thomas Hebner说的,“现在是语音设计的好时代,虽然当前语音设计师大多从事设计IVR系统,但随着各种API接口的开放和更多消费类电子产品的使用,我们即将迎来爆发式增长。世界还没有意识到他们需要语音设计。正如许多IVR APP在早期设计的并不好,但他们随后都变得很成熟。现在我们正处于自然语音的开始阶段,再过些年,人们一定会更加关注语音设计的。

推荐阅读更多精彩内容