[自译]结合图形和语音，打造更好的体验

非常不错的一篇文章，作者思考下一代的人机互动方式，提出了multi-modal interfaces（多模式界面）的概念，机器将适应人类的感受方式，通过场景下最合适的媒介传达信息与用户交流。作者引入了很多有现实意义的案例，chatbot，无人车，Echo，还有厨房里的用户也是很经典的一个预设对象。作者提到了，Echo上视觉和语音操作转换的细节，也是一个不错的创新点。通过连续的多模式互动，完成一条最佳的体验路径。作者结合自己的经验，也给出了一些实践建议，MIT Media Lab 1979年的那一个视频，嗯，人类走的比想象中还快。

原文链接：Combining Graphical And Voice Interfaces For A Better User Experience

原文作者：David Pasztor

随着语音界面，AI和chatbots的出现，GUIs的未来是什么？别担心，尽管会有一些悲观的预测，但是GUIs在未来的许多年里仍会保留。我来分享我个人的见解，介绍多模式界面，作为人与机器之间更友好的交流方式。

我们主要的感受方式是什么？

“一图胜千言”这句古语说的很正确，我们的大脑是一个不可思议的图像处理及其。当我们处理复杂信息的时候，视觉化的内容会理解的更快。根据研究，当我们与其他人交流的时候，三分之二是通过非语言沟通。另一项研究表明，我们从视觉接受大部分信息（83%视觉，11%听觉，3%嗅觉，2%触觉，1%味觉）。简而言之，视觉是我们主要的感受方式。我们的耳朵是第二重要的感受器，在某些场景下，语音对话是非常有效的方式。想象一下，拿起电话订购披萨会比app浏览所有不同的服务更加方便。但是场景复杂之后，仅仅依靠口头交流是不够的。举个例子，你不会都没看一眼就买一双鞋子吧？

甚至传统基于文本的短信平台也引入可视化元素。在Facebook创建chabot平台的时候，视觉部分是优先考虑的事情，这并不意外。有些信息看见后更容易理解。

在某些用例中，纯文本和语音界面可以做得很好，但是在今天，它们并不是所有事情的最佳选择。只要视觉图像仍是人们的主要信息

源，我们能够以可视化的方式处理复杂的信息，GUI就会保持下去。另一方面，传统的GUI也不能适应当下的发展。因此我有了这样一个想法：用户界面会更适应我们的感受方式。

自适应多模式界面

人类有不同的输入和输出设备，就像计算机一样。我们的眼睛和耳朵是主要的输入传感器。我们非常擅长图像识别和处理。这意味着我们可以更快地处理复杂信息。另一方面，我们对声音的反应更快，所以声音可以很好地作为提示预警的方式。

我们也有输出设备：我们可以对话，作出手势，我们的嘴巴是最有效的输出设备，大多数人的说话速度都比他们打字，写字，作出手势更快。

因此人们会通过不同的组合方式表达自身，我预测机器也会伴随发展，以多模式的界面来适应人类的能力。这些界面将使用不同的输入和输出通道，和不同的信息传递介质。

界面会通过场景，通过最方便的传递媒介和信息类型来适应类人。让我们来看一些例子，包括我们在UX Studio中探索的内容，和一些成熟的商业产品。

Chatbots更加视觉化

Nuru是一款概念chatbot，解决非洲人民的日常工作。最初设计为纯粹的聊天应用，但很快就发现了纯文本界面的局限性。

对于基本的通信，聊天比用户界面更加有效。在非洲，聊天可以促进当地的商业。买家和卖家可以找到彼此，去协商。这种一对一的情况下，聊天时理想的方式。但涉及到复杂的交互时，比如许多不同的工作职位，我们需要一个更高级的界面。于是我们向聊天页面加入了卡片，用户可以通过它来浏览。

一些其它的公司，例如腾讯，让开发者在微信中构建小程序。这带来了启发，每个独立的聊天界面都可以是一个应用，你可以和你的聊天伙伴一起玩小游戏，就像15年前我们在MSN Messenger上做的那样。在简单的界面上作出更丰富的功能。

无人驾驶汽车和混合界面

一年前，我们的团队奖自动驾驶汽车的界面，想象成一个纯运动的多模式设计，我们设想了整个过程，尝试优化每一步的交互。

要命令一辆汽车，你可以在手机上去点击一个按钮。这是最简单的互动，它足以发出命令。只需要按一下，你不需要去给汽车打一个电话。

然后你进入了车内，你会花费一些时间让自己坐得舒适，放好东西，系好安全带。在这之后，对话沟通会更加方便，汽车会问你去哪，将地名说出来，会比在屏幕上输入后显示更快。为了能够正常工作，汽车必须理解你给出的模棱两可的命令。

信任是无人驾驶汽车的一个重要问题。当我们在路上的时候，我们想要看看我们是否朝着正确的方向前进。我们的无人驾驶汽车是否注意到前面的自行车。如果每次都去检查汽车不太现实，特别是你和朋友一起旅行的时候。一个类似tablet的界面，对所有人可见，可以解决这个问题。它将始终现实汽车和周围检测到的东西，以及在地图中所处的位置，这可以让信任持续。在地图上显示信息比任何对话信息都要方便。

在这个例子中，你可以使用触控屏来给汽车发出指令，给出语音命令，接收听觉反馈，检查屏幕上的状态。汽车总是以最方便的方式互动。

家庭娱乐和智能助手

带有Kinect的Xbox是混合界面的另一个例子。你可以通过语音和手势来控制它的GUI。在下面的视频中你可以看到手势识别技术还不完善，但将来会改进。语音识别有点笨拙，因为每次命令前你都需要说出Xbox这个词。

Xbox游戏视频

尽管技术上存在缺陷，但这是一个很好的例子，说明机器如何给声音和手势提供持续的反馈。当你使用手作为控制时，你可以看到屏幕上一个小指针作为游标，当你移动到不同的模块时，它总会高亮游标下的内容，显示你将要激活哪一个。当你说出“Xbox”这个词来发出命令的时候，控制台会在每一个tile上给出绿色的命令词，这样你就知道该说什么来选择一个项目了。

当然，这里的目标时帮助你通过语音控制界面。它最初是为了声音而设计的。在未来，更准确的语言识别和语言处理，会让人们能够用自己的语言发出命令。这也是让混合界面走向更加主流的重要一步。

Amazon Echo Show review

毫无疑问，Amazon是语音界面的先驱之一。及时如此，它也在新一代的Echo设备上添加了一个屏幕，此前有人认为它会将GUI作为应用推送到用户的手机上。

一个语音UI给你带来的自由度真的很吸引人，尤其是你第一次尝试的时候。站在厨房里说“play Red Hot Chili Peppers”会比用脏手在Spotify上滚动容易得多。

但在一段时间之后，当你想要通过它来完成更高级的任务时，它就不起作用了，在一次视频评论中，一位用户指出当你设定一个厨房定时器的时候，没有屏幕的话你将频繁地询问设备状态。现在通过Echo Show，你可以在dashboard上看到多个计时器。

The Amazon Echo Show – Pretty Dang Good (the MOST in-depth review on YT)

对Amazon来说，有什么比购物更重要呢？有了Echo后，你可以在购物车中添加物品，但你必须先打开应用来实际购买东西。听到Alexa从商店里读出冗长的名称和描述真是太可怕了。现在你可以更容易处理这些任务，因为它可以显示你的产品，你可以选择你喜欢的。

与Kinect不同，Echo Show是一个声控设备，它的主屏幕上没有应用图标。但单一发出一个初始语音指令，屏幕上就会显示所有相关信息。当你需要了解更多的时候，你只需要去看屏幕就知道了。这一点和人在厨房工作是一个方式：我们可以保持基本的谈话，我们专注于做饭，但是当一个重要的事情出现的时候，我们会停下来去查看是怎么一回事。这也是为什么Echo Show作为多模态界面更加自然。

这里有一个设计细节，在主屏幕上，Echo会显示一个新闻标题，并凸显其中一个单词，粗体显现，让它成为你想要听完整故事的命令词。通过这种方式，产品的功能是清晰的，你也可以很容易知道如何去使用它。Echo有效地设置了期望，并通过它的可视化界面表达出来。

Echo的主要竞争对手Google Home的主要优势之一，是你可以询问后续问题。问完“多少人住在Budapest?”之后，你还可以问“那儿的天气怎么样？”Google Home知道你询问的是同一个地点，语境的理解，是很好的优势，这也是在未来产品中必备的。

当我们设计一个界面的时候，我们知道语境，我们可以消除摩擦。但用户手上正忙时，产品可以在厨房中使用吗？使用语音控制；它比触控屏更容易。用户可以在拥挤的火车上使用它吗？触控屏会比语音助手更加容易。用户需要一个简单的答案吗？通过对话来告诉ta。用户需要图像理解复杂的数据吗？通过屏幕来展示。为了提高易用性，我们可以提出问题，然后挑选出合适的方法。

Google Home review

Google Home缺少的是对多用户支持。这样的设备会被许多不同的人使用。会让我们回到早期PC时代，共享计算机那样。无缝切换用户将会是一个艰巨的挑战，安全性和UX很难平衡。想象一下，你正在与你的智能助手交流，你可以访问所有的数据和内容，一秒钟后其他人进入房间，也可以做同样的事情。

Amazon Echo和Google Home在听到你的声音寻找答案时，都给了很好的视觉反馈。他们使用LED动画。对于多模态界面，保持声音和视觉输出同步是必要的。否则，人们很容易感到困惑。例如，当我们和某人说话时，我们可以很容易看到他们的脸，来确认他们是否获得了信息，在与产品对话时，我们希望这一点同样做到。

健康产品

PD Measure是一款用于测量佩戴眼镜的人瞳孔距离的应用，它可以结合视觉和语音，是一个很好的例子。

在网上购买眼镜之前，用户都需要去了解他们瞳孔的距离，如果不知道，他们就得去实体店了。在家中完成测量的工具打开了一个市场。

有了PD Measure，用户站在镜子前，照一张自己的照片，把手机放在特定的位置，按指令进行。通过内部的算法完成瞳孔距离的计算。它的精度可以让网上购买眼镜成为可能。

PD Measure的UI是屏幕上插画动画的组合，它告诉你如何手持手机，发出语音指令，告诉你该怎么做。用户必须将他移动到正确的位置，应用通过传感器及时给予反馈。当选择正确之后，它会为用户提供听觉反馈（铃声）。用户习惯了语音确认后，就可以连续的进行之后的测量。在原型开发阶段，我们进行了大量的用户测试，结果人们更喜欢语音指令而不是视觉。

出版业的案例

2013年，一家名为Volio的公司尝试了混合界面。主打产品是叫做《Esquire》的杂志，它创造了一个互动体验，人们可以和Esquire的专栏作家交谈。正如你在下面这个视频中看到的，这是一系列视频，你可以根据你在本期视频中给出的答案选择下一个视频。你可以从一些预设的答案中选择，但是交互仍感觉像是实时对话。它很好的结合了媒介：声音作为命令输入，屏幕作为内容显示。

Volio's Talk to Esquire App

许多人认为今天这么多平屏幕的世界，内容的输入通道是单一的。混合界面不止于此。人们可以同时在不同的设备上使用你的应用（例如Alexa语音输入，你也可以在pad上查看数据）。

结合语音和GUI也不是必要的。我们在设计一款赛事直播的应用时，足球比赛进行评论，与其它球迷交谈，这两个屏幕可以同时出现。

这样的高级界面提供了许多不同设备和媒介的功能。有时候是多余的。但也有优势，它给用户提供了备选项，还可以帮助那些不可以使用语音和GUI的残障人士。

如何选择主模式

在讨论了一些趋势和时下产品之后，让我们对使用语音和图形构建界面做一些总结。

视觉界面效果更好的场景：

-需要列出许多的条目（朗读会花费很多时间）；

-复杂的信息（图表和大量属性的数据）；

-你需要比较或必须作出选择的东西；

-购买前你需要看一遍的产品；

-你想要不时的查看状态信息（时间、计数器、速度、地图等等）；

语音界面效果更好的场景：

命令（跳过导航，直接发送的命令）；

用户说明，人们更倾向于倾听语音说明而不是文字说明；

-对成功和错误状况的声音反馈；

-警告和通知（反应更快）；

-简单问题的简单答案。

接下来是什么

当我询问其它设计师朋友知不知道混合界面是什么，他们中有人提到了1979年MIT Media Lab的一段视频，撇开怀旧不谈，38年前，这项技术的雏形已经发展得让人震惊了。我们以为自己发展的很快，只是一种错觉吗？

Put That There (Original)

语音识别今天仍然有一些挑战，只有少数的玩家可以基于语音识别为产品提供服务，包括微信和Amazon这样。

一个不错的开端，是通过小程序和bot将这些功能集成。以下是我们在实践中对多模态界面的经验建议：

-速度和准确性是杀手锏。

-同步声音和视觉界面，总是对正在发生的事情有视觉反馈。

-当设备在听和思考的时候，给出视觉提示。

-在图形界面中突出语音指令字符。

-设置正确的用户期望，了解界面的功能，确保产品能够清楚地说明它是如何工作的。

-产品应该意识到设备和对话所处的物理和社会环境，并作出相应的反应。

-考虑用户的语境，并确定哪些媒介可以减少摩擦，并让任务更轻松地完成。

-让用户可以选择接入的媒介方式。这可以让产品适用的人群更广。

-不要忽视安全和用户的隐私。允许用户关闭权限，并通过透明来构建信任。不要太过于强势（语音提示垃圾邮件会让人反感）。

-避免冗长的独白。如果不能简要地概括，就让它在屏幕上显示。

-花点时间了解每个平台的具体状况，选择合适的平台。

与其它设计相比，多模态界面仍然是一个尚未开发的领域。

受限，我们并没有通过通用语言和框架来描述混合界面。这样一个连贯的语言可以在库中定义语音和GUI元素，使开发和设计更容易。它还支持多种输出和输入选项，使我们能够设计多通道，多设备，多屏幕的体验。

其次，设计师必须设计出新的设计模式，来支持多模态界面的特殊需求。

虽然未来让人兴奋，而且很快就会发生，但我们仍需要到达语音识别和语言处理的临界点：语音媒介可以达到较高的水平，让它成为一系列媒介中最好的选择。我们也需要更好的工具来设计和编写多模式界面。

一旦我们实现了这些目标，那么它就会走向主流。

最后编辑于：2017.12.11 05:31:32

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,026评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,655评论 1赞 296
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,726评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,204评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,558评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,731评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,944评论 2赞 314
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,698评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,438评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,633评论 2赞 247
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,125评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,444评论 3赞 255
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,137评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,103评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,888评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,772评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,669评论 2赞 271

[自译]结合图形和语音，打造更好的体验

推荐阅读更多精彩内容