讯飞,与它承诺给我们的那个万物有灵的未来

编者按:曾经在合肥的时候,该市的朋友总会给我讲些关于中科大的诡异传说——

“哎,你看见没,你得绕着那个楼走,那是核物理所,里面好几个反应堆呢,你手里有个盖革计数器现在指针就狂跳了。”

“知道中科大为什么没放在北京上海,给搁在这么一个二线城市么?中科大物理其实比中科院牛多了,好多国外的实验都得拿过来做。没准哪天加速器突然搞出个黑洞就把合肥给吃了。”

不知真假。

之前对科大唯一的认知是,科大的食堂……实在太好吃,就是没有校园卡吃不了。

直到做手机的罗永浩老师展示了和讯飞语音的合作,我才真正知道了有【科大讯飞】这家其实已经成立了17年的公司。

然而,那时候的认知,也只是以为,讯飞是个做输入法的。

🕹

AlphaGo,其实也是个超级强化版的

看着AlphaGo 干脆利落地结果了李世乭九段,你也跟风转发了朋友圈,四处搜寻复盘分析文章,感叹人工智能即将取人类而代之,拉了《终结者》《黑客帝国》和《西部世界》这样的片单?

其实大可不必。

▲ Google DeepMind 围棋挑战赛,韩国棋手李世乭 vs AlphaGo


▲相似的一幕:1997年5月11日,国际象棋世界冠军卡斯帕罗夫对阵IBM 电脑Deep Blue

类似的“人类被机器打败”的担忧,我们远不是第一次见到。1997年,国际象棋历史上最伟大的棋手之一,俄罗斯棋手卡斯帕罗夫以1胜2负3和的总比分败给IBM 电脑“深蓝”。

在棋牌这类可以通过穷举运算的、规则明确的游戏中,摩尔定律让电脑不断倍增的浮点运算能力发挥了最大的作用。而在围棋这种无法简单穷举的策略里,通过更加复杂的概率运算、局面分析和策略学习机制形成复合系统,用来制定最佳的策略。

而让机器如何抛弃纯粹逻辑的底层,真正像人一样思考,或者说,“拟人”地思考,这正是讯飞面对的课题。

🤖

人工智能?抱歉,它们还比较笨

我们常在国外的游行示威里看到这样的对话:

- What do we want?

- Peace!!!

- When do we want it?

- Right now!!!

而AI从业者将其改成了一个笑话,用来讽刺现在自称“人工智能”的语义判断逻辑:

- What do we want?

- Chatbots!

- When do we want them?

- Sorry, I didn't understand that request.

这个笑话,即是讽刺人工智能对于上下文和语义环境不能进行识别,即人工智能领域常说的context——语义、上下文、语境、背景、环境、文化氛围……无数复杂的微信息都融汇在这里。对于context 内容的智能分析,是一个极为复杂的领域。

人类在6岁之前就具备了常识逻辑和基本的判断能力。回想你从6岁到20岁的痛苦求学经历,其实满打满算也就是几块硬盘的知识量,电脑可以轻易地全部掌握。而人类潜意识中并行加工、发散的“常识模式”,却是电脑最难掌握的。我们会直觉地明白“妈妈”的定义,然而你如何用逻辑来解释“妈妈”?这起码得垫几篇伦理学和医学论文吧。

就如同我们经常调戏的Siri 一样。在Siri 的对话库中存在大量的模板。这些模板确定了Siri 对于所有常见问题的反应。这些模板一部分来自于实时的搜索,一部分则是内置的“段子”。这类看似“智能”的AI 助理产品,其实只是通过“语音抓取+模板库”的机制,为你营造日常应用里“智能”的感觉。日常使用里,模板可以cover 掉绝大多数的问题,而如果你存心刁难Siri,它肯定会露出马脚。

道理很简单,套路是不能长久的,云套路也不行。

🎤

语音交互——带上TA的声带

讯飞的突然走红,很大程度要感谢罗永浩老师在发布会上演示的语音输入——完全口语化,几乎0错误率,甚至加入了语气匹配的标点符号。

语音输入的概念并不新鲜。至少在2011年10月,Siri 的正式发布就为全球智能手机用户科普了这一概念。然而在中文识别领域,Siri 一直做的不甚理想,身边不少朋友的Siri 都是英文版本,用以完成上闹钟、叫车和导航等等简单的服务。和别人扯着京片子时突然说Siri,take me to the nearest gas station 也是一件颇为奇怪的事。

讯飞在语音识别领域显然更为“接地气”。除了普通话外,我还在列表里看到了粤语、四川话、河南话、贵州话、客家话等十几种方言。此功能强大到什么程度呢?就是某些同事装了输入法后完全不好好用,只是拿着手机完全当成是方言识别器,天南海北各种会与不会的方言乱说一气,然后戴着耳机露出奇怪的傻笑。

平时,听着uber 司机手机放出的“前方300米出口驶出主路,请并入右侧车道”“前方有限速摄像,请减速慢行”的机械女声,毫无人情味可言,令人不禁怀念曾经车内循环交通广播和不孕不育广告的年代。而罗老师演示的另一个功能,则是讯飞作为技术支持,老罗录制+语音合成而形成的语音导航。讯飞通过语音合成技术,提取老罗声音中的特征进行语音合成,为他专门制作一个“个性化音库”,这个相比“方言识别”一类的耕耘,显得更“黑科技”一些。

▲嗯,其实,我想的是,什么时候我的手机里能装这个东西……(电影《Her》)

在首批加入讯飞AI的人中,也有我局成员的身影。未来事务管理局局长姬少亭在讯飞的录音棚里待了足足4小时,成为“讯飞个性化音库”的首批体验者。据说,局长当天录制了上万字的语音素材,而且整个录制过程异常辛苦,不仅需要咬字清晰,语速均匀,而且要“不带感情地读”,以避免成为抑扬顿挫的“朗诵腔”。

至于局长的个性化音库会被做成什么,讯飞方面还没有透露给我局。但我的脑洞是,过两年中国投拍的类似“西部世界”的故事里,没准会有一个美少女形象,提着左轮手枪,用平时熟悉的催稿腔调说出——

“这是我这辈子最爽的两个星期。”

💻

当我们说图灵测试时,我们为啥跑去做Winograd 测试

从《模仿游戏》这部与史诗差别其实蛮大的电影中,许多人认识了阿兰·麦席森·图灵这位计算机与信息技术先驱(当然,也包括津津乐道他的同性恋身份与吃氰化钾苹果自杀的悲惨经历)。

1950年,图灵提出了图灵测试的基本准则:如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么称这台机器具有智能。具体操作模式是,被试的人类在单盲的情况下提问,由机器作答。如果70%的人类认为无法判断答题者是人还是机器,则认为图灵测试通过。

▲ Alan Mathison Turing, 1912-1954

严格意义上来说,图灵测试更多是哲学层面思维实验,而非严谨的、科学的测试方法。不同提问者的提问策略完全随机,而结果也完全是主观判断。这就让实验产生了很大的随机性。而在云计算和搜索速度飞速发展的时代,统计意义上70%的通过标准,也显得太过宽松了。

甚至很多AI在设计时,会通过一些取巧的方式规避提问策略,从而迷惑主观判断的人。比如,人会对重复的问题产生厌烦,或者对不礼貌的问题拒绝回答。而这些计算机策略会给人。最终,图灵测试从“计算机能否拥有智能”具体化为了“计算机能否骗过提问者”。

而对于人工智能领域,相对来说更具有可操作性,更可量化的测试,即Winograd 测试。它将计算机对语义的理解程度,具体化为“代词消歧义”的正确性。

“爸爸抱不起儿子,因为他太重了。”

“爸爸抱不起儿子,因为他太虚弱了。”

简单举例,上文中两个“他”在任何具有阅读能力的人看来,都有明确的指代——第一句指代儿子,第二句指代父亲。但计算机识别这个代词所指,则需要根据上下文进行常识性判断。当然,这是简单的句子,相当于语文考试前面的拼音送分题。更复杂的句子比如——

“主编发现这篇《不存在日报》里有5个错别字,于是骂了责编一顿。他很愧疚,因为他惹他生气了。他知道他喜欢吃胡萝卜,于是他掏出他的钱包,买了三斤胡萝卜送给他,讨好他一下让他不要再生他的气。”

好的,请指出上面每个“他”分别指谁。大家记住,这是一个鉴别AI的好方法。身边的一个同事耳朵里冒出了青烟,伴着一股焦糊味,估计他的CPU已经烧了。

🕳

Winograd、KBP 与“讯飞超脑”

2016年春,科大讯飞•约克大学联合实验室获得了Winograd Schema Challenge 的世界第一,嗯,鼓掌。

掌声为什么稀稀落落的?因为WSC 以目前全世界的人工智能,还没有人能达到60分及格分。对,即便是在比赛中得到世界第一的讯飞,也没有及格。

这就像你这次数学考试得了全年级第一名,但这次估计是老师错印了大学复变函数的卷子,所有人都没及格。你拿着55分的卷子,要不要回家跟你爹报喜呢?

于是讯飞挠挠头,就低调处理了。

就在几个月之后,一个比Winograd历史更悠久、业界影响力更大,名字也更长的比赛——NIST TAC Knowledge Base Population Entity Discovery and Linking Track,讯飞的两个团队包揽了本届赛事的冠亚军。TAC KBP已经举办了八届,是当前业界影响力最大、参赛队伍最多、水平最高的知识库构建相关比赛。Entity Discover & Linking(实体发现与链接简称EDL)作为KBP比赛的核心任务,要求从中文,英文,西班牙文三语种文本中自动发现实体并连接到知识库上。

至于这个“包揽前两名”的含金量如何,不如看看该赛事的往届参赛者阵容——IBM、卡内基梅隆大学、伦斯勒理工大学、伊利诺伊大学香槟分校等。在人工智能领域,有头有脸的公司、学院和研究机构,都是该赛事的熟面孔。

而讯飞带去的两支队伍,一支由科大讯飞研究院独立参赛,另一支由科大讯飞研究院和加拿大约克大学江辉教授团队联合组队。国内外学者一番通力合作,分别捧回了EDL任务的冠亚军奖杯,顺便刷新了该任务的历史最好记录。实际上,两个团队不只在中文任务上表现出色。还记得比赛是三语种吗?讯飞在英文,西班牙文上的表现也受到了主办方高度赞扬。

嗯,所以这次讯飞终于拿着满分卷子,回家报喜了。

要不是罗永浩屡次在手机发布会上可劲儿安利讯飞,没准很多人现在还不知道这么个做人工智能和智能语音的上市公司。它只是app store 里面几个不起眼的应用图标,一支代码为002230的股票。

说到底,我们试图创造“智能”,但我们对“智能”是什么,仍然没有清晰的定义与边界。AlphaGo 或许能赢过所有的棋手,但它并不真正地“会”下围棋。它只是在努力逼近“会下围棋”的边界而已。

这也是讯飞的目标,2014年,他们推出了“讯飞超脑”计划,计划用更科学的算法,更完善的语义识别,更全面的上下文分析,逼近人类大脑的认知、经验、情绪构建的并行架构。

科大讯飞与中国科大、中科院声学所、中国社科院语言所、哈尔滨工业大学、西藏大学等都成立了联合实验室,在海外也与约克大学联合创建的“讯飞神经计算与深度学习实验室”(iFLYTEK Laboratory For Neural Computing And Machine Learning,简称iNCML)作为科大讯飞在北美洲成立的首个研究机构,该实验室今后将专注于神经计算、深度学习及人工智能领域的研究,这些中国的科技力量将共同来推进人工智能领域前瞻研究。

至于“讯飞超脑”是什么,我也不知道。更高的识别正确率?更准确的语义判断?更丰富的语气和明星语音包?还是,像它所承诺的那样——让机器人真的拥有一颗“能上大学的大脑”?

😀

我们会在什么地方与讯飞相遇?

▲ 电影《月球》中的机器人Gerty,凯文·史派西配音

总之,我就等着讯飞给我做一个Gerty了。至少,是一个听到你说“买三个西红柿,如果有西瓜,就买一个”之后,不会给你买回来一个西红柿的机器人。

人工智能+语音交互,随着硬件水平提升与网络环境优化,已经从几年前的概念,进展到了如今“基本可用”的状态。虽然Siri 偶尔会给你导航3000公里外的加油站吧……

机器码、程序代码、命令行、视窗操作系统、触控屏幕操作与手势操作、简单语音交互,计算机的交互形式正在逐渐向着人类生理与本能的行为不断进步。而讯飞做的工作之一,正是这个环节的最后一步,也是最为复杂的部分——让计算机“理解”,或者在绝大部分时候“理解”人类语言。

更智能的家居,更安全的自动驾驶与泊车系统,更聪明的语音助理,更便捷的操作感应,更符合你心情的音乐算法,用语音安排生活的一切,甚至包括写下这篇《不存在日报》……我们听到了无数次对“万物有灵”智能时代的描述。未来的某一天,所有交互都可以用语音完成,我们可以不用按按钮,点屏幕,而是说一段话后,放心地解放双手,去握住更重要的东西……我们未来的人机交互,或许就是和整个智能的世界,不停地聊天儿。

咦?什么?你说想和机器谈恋爱?为什么总有这么没出息的人……那你要看讯飞对这部分的语义识别有没有优化过了。鉴于人类在恋爱状态下的超低智商状态和套路漫天的对话模式,我倒是觉得《Her》里面的云女友更容易实现。

对于讯飞在未来几年具体怎么飞,嗯,我充满期待。

第一次码完稿子之后,感觉从颈椎和手腕酸痛变成了口干舌燥,哼,都是讯飞语音输入的锅。我拿过我的手机,决定听首歌放松一下。

- Hey, Sing me the song called "Daisy Bell".

- Sorry. I didn't get that.


📝责编:船长

📝作者高小山,大龄犰狳,性温和,喜床。西坝河畔文字工作者,淡粉色爱的战士。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,198评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,663评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,985评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,673评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,994评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,399评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,717评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,407评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,112评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,371评论 2 241
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,891评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,255评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,881评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,010评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,764评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,412评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,299评论 2 260

推荐阅读更多精彩内容