[自译]结合图形和语音,打造更好的体验

非常不错的一篇文章,作者思考下一代的人机互动方式,提出了multi-modal​ ​interfaces​(多模式界面)的概念,机器将适应人类的感受方式,通过场景下最合适的媒介传达信息与用户交流。作者引入了很多有现实意义的案例,chatbot,无人车,Echo,还有厨房里的用户也是很经典的一个预设对象。作者提到了,Echo上视觉和语音操作转换的细节,也是一个不错的创新点。通过连续的多模式互动,完成一条最佳的体验路径。作者结合自己的经验,也给出了一些实践建议,MIT Media Lab 1979年的那一个视频,嗯,人类走的比想象中还快。

原文链接:Combining Graphical And Voice Interfaces For A Better User Experience

原文作者:David Pasztor

随着语音界面,AI和chatbots的出现,GUIs的未来是什么?别担心,尽管会有一些悲观的预测,但是GUIs在未来的许多年里仍会保留。我来分享我个人的见解,介绍多模式界面,作为人与机器之间更友好的交流方式。

我们主要的感受方式是什么?

“一图胜千言”这句古语说的很正确,我们的大脑是一个不可思议的图像处理及其。当我们处理复杂信息的时候,视觉化的内容会理解的更快。根据研究,当我们与其他人交流的时候,三分之二是通过非语言沟通另一项研究表明,我们从视觉接受大部分信息(83%视觉,11%听觉,3%嗅觉,2%触觉,1%味觉)。简而言之,视觉是我们主要的感受方式。我们的耳朵是第二重要的感受器,在某些场景下,语音对话是非常有效的方式。想象一下,拿起电话订购披萨会比app浏览所有不同的服务更加方便。但是场景复杂之后,仅仅依靠口头交流是不够的。举个例子,你不会都没看一眼就买一双鞋子吧?

甚至传统基于文本的短信平台也引入可视化元素。在Facebook创建chabot平台的时候,视觉部分是优先考虑的事情,这并不意外。有些信息看见后更容易理解。

在某些用例中,纯文本和语音界面可以做得很好,但是在今天,它们并不是所有事情的最佳选择。只要视觉图像仍是人们的主要信息

源,我们能够以可视化的方式处理复杂的信息,GUI就会保持下去。另一方面,传统的GUI也不能适应当下的发展。因此我有了这样一个想法:用户界面会更适应我们的感受方式。

自适应多模式界面

人类有不同的输入和输出设备,就像计算机一样。我们的眼睛和耳朵是主要的输入传感器。我们非常擅长图像识别和处理。这意味着我们可以更快地处理复杂信息。另一方面,我们对声音的反应更快,所以声音可以很好地作为提示预警的方式。

我们也有输出设备:我们可以对话,作出手势,我们的嘴巴是最有效的输出设备,大多数人的说话速度都比他们打字,写字,作出手势更快。

因此人们会通过不同的组合方式表达自身,我预测机器也会伴随发展,以多模式的界面来适应人类的能力。这些界面将使用不同的输入和输出通道,和不同的信息传递介质。

界面会通过场景,通过最方便的传递媒介和信息类型来适应类人。让我们来看一些例子,包括我们在UX Studio中探索的内容,和一些成熟的商业产品。

Chatbots更加视觉化

Nuru是一款概念chatbot,解决非洲人民的日常工作。最初设计为纯粹的聊天应用,但很快就发现了纯文本界面的局限性。

对于基本的通信,聊天比用户界面更加有效。在非洲,聊天可以促进当地的商业。买家和卖家可以找到彼此,去协商。这种一对一的情况下,聊天时理想的方式。但涉及到复杂的交互时,比如许多不同的工作职位,我们需要一个更高级的界面。于是我们向聊天页面加入了卡片,用户可以通过它来浏览。

一些其它的公司,例如腾讯,让开发者在微信中构建小程序。这带来了启发,每个独立的聊天界面都可以是一个应用,你可以和你的聊天伙伴一起玩小游戏,就像15年前我们在MSN Messenger上做的那样。在简单的界面上作出更丰富的功能。

无人驾驶汽车和混合界面

一年前,我们的团队奖自动驾驶汽车的界面,想象成一个纯运动的多模式设计,我们设想了整个过程,尝试优化每一步的交互。

要命令一辆汽车,你可以在手机上去点击一个按钮。这是最简单的互动,它足以发出命令。只需要按一下,你不需要去给汽车打一个电话。

然后你进入了车内,你会花费一些时间让自己坐得舒适,放好东西,系好安全带。在这之后,对话沟通会更加方便,汽车会问你去哪,将地名说出来,会比在屏幕上输入后显示更快。为了能够正常工作,汽车必须理解你给出的模棱两可的命令。

信任是无人驾驶汽车的一个重要问题。当我们在路上的时候,我们想要看看我们是否朝着正确的方向前进。我们的无人驾驶汽车是否注意到前面的自行车。如果每次都去检查汽车不太现实,特别是你和朋友一起旅行的时候。一个类似tablet的界面,对所有人可见,可以解决这个问题。它将始终现实汽车和周围检测到的东西,以及在地图中所处的位置,这可以让信任持续。在地图上显示信息比任何对话信息都要方便。

在这个例子中,你可以使用触控屏来给汽车发出指令,给出语音命令,接收听觉反馈,检查屏幕上的状态。汽车总是以最方便的方式互动。

家庭娱乐和智能助手

带有Kinect的Xbox是混合界面的另一个例子。你可以通过语音和手势来控制它的GUI。在下面的视频中你可以看到手势识别技术还不完善,但将来会改进。语音识别有点笨拙,因为每次命令前你都需要说出Xbox这个词。

Xbox游戏视频

尽管技术上存在缺陷,但这是一个很好的例子,说明机器如何给声音和手势提供持续的反馈。当你使用手作为控制时,你可以看到屏幕上一个小指针作为游标,当你移动到不同的模块时,它总会高亮游标下的内容,显示你将要激活哪一个。当你说出“Xbox”这个词来发出命令的时候,控制台会在每一个tile上给出绿色的命令词,这样你就知道该说什么来选择一个项目了。

当然,这里的目标时帮助你通过语音控制界面。它最初是为了声音而设计的。在未来,更准确的语言识别和语言处理,会让人们能够用自己的语言发出命令。这也是让混合界面走向更加主流的重要一步。

Amazon Echo Show review

毫无疑问,Amazon是语音界面的先驱之一。及时如此,它也在新一代的Echo设备上添加了一个屏幕,此前有人认为它会将GUI作为应用推送到用户的手机上。

一个语音UI给你带来的自由度真的很吸引人,尤其是你第一次尝试的时候。站在厨房里说“play ​Red​ ​Hot​ ​Chili​ ​Peppers”会比用脏手在Spotify上滚动容易得多。

但在一段时间之后,当你想要通过它来完成更高级的任务时,它就不起作用了,在一次视频评论中,一位用户指出当你设定一个厨房定时器的时候,没有屏幕的话你将频繁地询问设备状态。现在通过Echo Show,你可以在dashboard上看到多个计时器。

The Amazon Echo Show – Pretty Dang Good (the MOST in-depth review on YT)

对Amazon来说,有什么比购物更重要呢?有了Echo后,你可以在购物车中添加物品,但你必须先打开应用来实际购买东西。听到Alexa从商店里读出冗长的名称和描述真是太可怕了。现在你可以更容易处理这些任务,因为它可以显示你的产品,你可以选择你喜欢的。

与Kinect不同,Echo Show是一个声控设备,它的主屏幕上没有应用图标。但单一发出一个初始语音指令,屏幕上就会显示所有相关信息。当你需要了解更多的时候,你只需要去看屏幕就知道了。这一点和人在厨房工作是一个方式:我们可以保持基本的谈话,我们专注于做饭,但是当一个重要的事情出现的时候,我们会停下来去查看是怎么一回事。这也是为什么Echo Show作为多模态界面更加自然。

这里有一个设计细节,在主屏幕上,Echo会显示一个新闻标题,并凸显其中一个单词,粗体显现,让它成为你想要听完整故事的命令词。通过这种方式,产品的功能是清晰的,你也可以很容易知道如何去使用它。Echo有效地设置了期望,并通过它的可视化界面表达出来。

Echo的主要竞争对手Google Home的主要优势之一,是你可以询问后续问题。问完“多少人住在Budapest?”之后,你还可以问“那儿的天气怎么样?”Google Home知道你询问的是同一个地点,语境的理解,是很好的优势,这也是在未来产品中必备的。

当我们设计一个界面的时候,我们知道语境,我们可以消除摩擦。但用户手上正忙时,产品可以在厨房中使用吗?使用语音控制;它比触控屏更容易。用户可以在拥挤的火车上使用它吗?触控屏会比语音助手更加容易。用户需要一个简单的答案吗?通过对话来告诉ta。用户需要图像理解复杂的数据吗?通过屏幕来展示。为了提高易用性,我们可以提出问题,然后挑选出合适的方法。

Google Home review

Google Home缺少的是对多用户支持。这样的设备会被许多不同的人使用。会让我们回到早期PC时代,共享计算机那样。无缝切换用户将会是一个艰巨的挑战,安全性和UX很难平衡。想象一下,你正在与你的智能助手交流,你可以访问所有的数据和内容,一秒钟后其他人进入房间,也可以做同样的事情。

Amazon Echo和Google Home在听到你的声音寻找答案时,都给了很好的视觉反馈。他们使用LED动画。对于多模态界面,保持声音和视觉输出同步是必要的。否则,人们很容易感到困惑。例如,当我们和某人说话时,我们可以很容易看到他们的脸,来确认他们是否获得了信息,在与产品对话时,我们希望这一点同样做到。

健康产品

PD Measure是一款用于测量佩戴眼镜的人瞳孔距离的应用,它可以结合视觉和语音,是一个很好的例子。

在网上购买眼镜之前,用户都需要去了解他们瞳孔的距离,如果不知道,他们就得去实体店了。在家中完成测量的工具打开了一个市场。

有了PD Measure,用户站在镜子前,照一张自己的照片,把手机放在特定的位置,按指令进行。通过内部的算法完成瞳孔距离的计算。它的精度可以让网上购买眼镜成为可能。

PD Measure的UI是屏幕上插画动画的组合,它告诉你如何手持手机,发出语音指令,告诉你该怎么做。用户必须将他移动到正确的位置,应用通过传感器及时给予反馈。当选择正确之后,它会为用户提供听觉反馈(铃声)。用户习惯了语音确认后,就可以连续的进行之后的测量。在原型开发阶段,我们进行了大量的用户测试,结果人们更喜欢语音指令而不是视觉。

出版业的案例

2013年,一家名为Volio的公司尝试了混合界面。主打产品是叫做《Esquire》的杂志,它创造了一个互动体验,人们可以和Esquire的专栏作家交谈。正如你在下面这个视频中看到的,这是一系列视频,你可以根据你在本期视频中给出的答案选择下一个视频。你可以从一些预设的答案中选择,但是交互仍感觉像是实时对话。它很好的结合了媒介:声音作为命令输入,屏幕作为内容显示。

Volio's Talk to Esquire App

许多人认为今天这么多平屏幕的世界,内容的输入通道是单一的。混合界面不止于此。人们可以同时在不同的设备上使用你的应用(例如Alexa语音输入,你也可以在pad上查看数据)。

结合语音和GUI也不是必要的。我们在设计一款赛事直播的应用时,足球比赛进行评论,与其它球迷交谈,这两个屏幕可以同时出现。

这样的高级界面提供了许多不同设备和媒介的功能。有时候是多余的。但也有优势,它给用户提供了备选项,还可以帮助那些不可以使用语音和GUI的残障人士。

如何选择主模式

在讨论了一些趋势和时下产品之后,让我们对使用语音和图形构建界面做一些总结。

视觉界面效果更好的场景:

-需要列出许多的条目(朗读会花费很多时间);

-复杂的信息(图表和大量属性的数据);

-你需要比较或必须作出选择的东西;

-购买前你需要看一遍的产品;

-你想要不时的查看状态信息(时间、计数器、速度、地图等等);

语音界面效果更好的场景:

命令(跳过导航,直接发送的命令);

用户说明,人们更倾向于倾听语音说明而不是文字说明;

-对成功和错误状况的声音反馈;

-警告和通知(反应更快);

-简单问题的简单答案。

接下来是什么

当我询问其它设计师朋友知不知道混合界面是什么,他们中有人提到了1979年MIT Media Lab的一段视频,撇开怀旧不谈,38年前,这项技术的雏形已经发展得让人震惊了。我们以为自己发展的很快,只是一种错觉吗?

Put That There (Original)

语音识别今天仍然有一些挑战,只有少数的玩家可以基于语音识别为产品提供服务,包括微信和Amazon这样。

一个不错的开端,是通过小程序和bot将这些功能集成。以下是我们在实践中对多模态界面的经验建议:

-速度和准确性是杀手锏。

-同步声音和视觉界面,总是对正在发生的事情有视觉反馈。

-当设备在听和思考的时候,给出视觉提示。

-在图形界面中突出语音指令字符。

-设置正确的用户期望,了解界面的功能,确保产品能够清楚地说明它是如何工作的。

-产品应该意识到设备和对话所处的物理和社会环境,并作出相应的反应。

-考虑用户的语境,并确定哪些媒介可以减少摩擦,并让任务更轻松地完成。

-让用户可以选择接入的媒介方式。这可以让产品适用的人群更广。

-不要忽视安全和用户的隐私。允许用户关闭权限,并通过透明来构建信任。不要太过于强势(语音提示垃圾邮件会让人反感)。

-避免冗长的独白。如果不能简要地概括,就让它在屏幕上显示。

-花点时间了解每个平台的具体状况,选择合适的平台。

与其它设计相比,多模态界面仍然是一个尚未开发的领域。

受限,我们并没有通过通用语言和框架来描述混合界面。这样一个连贯的语言可以在库中定义语音和GUI元素,使开发和设计更容易。它还支持多种输出和输入选项,使我们能够设计多通道,多设备,多屏幕的体验。

其次,设计师必须设计出新的设计模式,来支持多模态界面的特殊需求。

虽然未来让人兴奋,而且很快就会发生,但我们仍需要到达语音识别和语言处理的临界点:语音媒介可以达到较高的水平,让它成为一系列媒介中最好的选择。我们也需要更好的工具来设计和编写多模式界面。

一旦我们实现了这些目标,那么它就会走向主流。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,026评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,655评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,726评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,204评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,558评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,731评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,944评论 2 314
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,698评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,438评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,633评论 2 247
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,125评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,444评论 3 255
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,137评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,103评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,888评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,772评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,669评论 2 271

推荐阅读更多精彩内容