细数国内市场智能语音开放平台

学号:16020120050

姓名:吴言凡

转自:https://www.leiphone.com/news/201711/pHQqqlsgQKE7upTp.html

【嵌牛导读】:亚马逊的Echo大卖掀起了一股语音智能的热潮,语音交互技术成为炙手可热的时代宠儿。

【嵌牛鼻子】:语音智能,语音交互技术

【嵌牛提问】:国内的智能语音开放平台共有几家?他们的产品原理有何区别?未来语音智能发展的趋势如何?

【嵌牛正文】:

什么是语音开放平台,及何为开放?

这一年来,几乎语音行业内的大小公司都在做一件事,那就是试图建立由自己主导的语音生态产业链。在这个产业链中,产品制造商,技术服务商,平台提供商和内容服务商组成整个产业链的生态。可以说,谁的生态系统最完善,未来谁就将分得更大的市场份额。大势当前,几乎所有的语音技术公司都开放了其智能语音平台,给硬件开发者,应用技能开发者提供了语音交互能力,也招徕更多的玩家进入到他们创建的生态系统之中。

各大语音平台比较

开放平台的主要功能,就是赋予硬件或技能应用获得“能听会说,更智能”的能力。目前,各大科技公司都纷纷开放语音能力,意欲吸引更多的玩家入场,下文笔者将详细分析比较各大智能语音开放平台。

BAT巨头

百度DuerOS开放平台

DuerOS是百度推出的对话式人工智能操作系统,即智能语音交互平台。DuerOS的技术架构包含“对话服务”和“技能框架”两大基础协议。两大协议连通起来的对话核心系统、智能设备开放平台和技能开放平台,构成了完整DuerOS的智能生态系统。

图为DuerOS 2.0系统构架

智能设备开放平台面向传统硬件厂商和开发者输出软硬兼备的多层次解决方案,包括个人版、轻量版、标准版、参考设计等多样化解决方案,能够低成本、方便灵活地满足各个类型厂商和开发者不同层次的需求。例如,软硬一体化的智能语音交互开发解决方案SoundPi,集成全方向唤醒、声源测向、定向拾音、噪声抑制、混响消除、回声抵消、远场语音识别、语义理解、语音播报等多项技术。技能开放平台拥有丰富优质的AI内容资源,包括自有的10大类、100余种原生对话技能,支持接入第三方资源和内容,如音乐、有声、新闻、娱乐等,显著降低了开发成本。

DuerOS的核心层是对话系统,它之所以所以能够有好的听清、听懂效果,主要归功于三个方面:数据多、技术深、内容广。所谓的数据指的是百度拥有庞大的知识图谱、需求图谱、网页图谱、地理信息图谱及用户画像,技术则指的是十余年里百度所积累的自然语言处理、对话控制、对话管理、自然语言生成、搜索等技术,而内容指的是百度拥有的超过10000个信息垂类内容。

阿里AliGenie语音开放平台

AliGenie语音开放平台是由阿里人工智能实验室(AI Labs)推出,主要包括精灵技能市场、硬件开放平台、行业解决方案三大部分,全面赋能智能家居、新制造、新零售、酒店、航空等服务场景。

图为AliGenie语音开发者基本构架

面向硬件品牌商和方案商,例如比如音箱、电视、玩具、OTT盒子、投影仪和汽车等,AliGenie开放平台将提供语音交互技术、自然语言处理能力、云服务系统、开发工具包和一站式软硬件及量化标准。针对个人和行业应用开发者,将提供包括语音唤醒、语音识别、声纹识别、语意理解、语音合成五大核心语音能力的开发者套件,内容提供者使用内容接入套件、即可快速创建语音技能;应用开发者使用自定义技能组件,可定制各类技能。阿里巴巴推出行业的语音解决方案自然带有阿里的零售服务业基因。对于线下零售、航空候机、酒店客房等应用场景,AliGenie开放平台推出了垂直行业解决方案,例如店铺精灵,酒店精灵和航旅精灵等,这些个性化的语音助手将成为服务业的得力助手。

腾讯云小微语音开放平台

腾讯云小微于2017年腾讯「云+未来」峰会上正式发布,分为三个部分,Skill开放平台,硬件开放平台和小微客服机器人。

图为腾讯云小微基本构架

腾讯云小微的Skill是指它为各种各样的设备提供智能语音对话的能力和内容;硬件开放平台是一个能将语音交互能力输出给第三方硬件厂商的平台,即云小微将语音唤醒、语音识别、语义分析、信令收发以及众多的内置资源及服务,如音乐、天气、导航等核心能力提供给智能音箱、智能电视、智能玩具、OTT盒子等传统硬件领域的合作伙伴,实现用户与设备、设备与服务之间的语音联动能力;小微客户机器人可以帮助用户提高效率,降低人力成本。用户需要导入业务领域知识库信息,建立机器人知识信息基础,通过逐步调优,使得机器人机器人实现常见问题的自动应答。

作为网络社交的巨头,腾讯不仅拥有海量的视频、音乐的内容资源,还拥有云端亿万用户的资源,腾讯云小微从一开始就拿到一副好牌。如何在平台之争中胜出,就且看鹅厂的战略策略了。

传统语音行业的科技公司

科大讯飞致力于智能语音及人工智能核心研究和产业化十八年,是国内最大的智能语音上市公司。讯飞开放平台致力于为开发者打造一站式智能人机交互解决方案。目前,开放平台以“云+端”的形式向开发者提供语音合成、语音识别、语音唤醒、语义理解、人脸识别、个性化彩铃、移动应用分析等多项服务。

思必驰的DUI(Dialogue User Interface)开放平台是以D-对话为核心的一站式交互定制平台,覆盖多应用场景和第三方内容资源,内置语音技能库,为物联网、移动互联网和互联网的开发者,提供单项技术服务和一站式对话交互定制解决方案。作为一个全链路智能对话开放平台,DUI提供的,不仅是基于思必驰智能语音语言技术的对话功能,更包括开发者在定制对话系统时所需要的综合服务,如GUI定制、版本管理、私有云部署等,让开发者可以完全依据需求随心所欲定制对话交互系统。DUI开放平台拥有青囊系统、天机系统、紫微系统、玲珑系统四大系统。

云知声的开放者平台以方案为入口,基于特定应用场景打造智能语音交互应用的模版。例如智能电视方案、智能汽车方案、音乐搜索方案等。为开发者提供一个智能语音交互系统的完整而便捷的开发环境。这些方案类似于一个个开发模版,开发者创建应用时可以为自己的应用选择合适的方案,开发者的应用就获得了该方案中所配置的技术服务和内容服务。云知声是一家专业的语音交互提供商,在移动互联网、智能家居、可穿戴设备、车载导航、医疗、教育、呼叫中心等领域有丰富的经验。

创业公司

出门问问推出的AI开放平台其通用版本也是向开发者和硬件厂商免费开放的。非申请或邀请制,只需登陆平台网站注册就可立即下载集成SDK,拥有全栈式语音交互技术整合,平台工具操作简单,适配多场景,且产品集成厂商可根据自身产品需求,自主针对各自产品进行个性化的功能开发,出门问问通过产品获得流量、数据,而产品则能获得AI技术赋能。

Rokid的开放平台语音服务包含Rokid技能开发工具和Rokid语音接入。Rokid技能开发工具帮助开发者为所有搭载Rokid开放服务的设备开发有趣的技能,实现用户各式各样的语音交互需求。Rokid语音接入能够为配有麦克风和扬声器的联网硬件设备开启Rokid开放服务所提供的智能、可扩展的语音能力。并且,其100%的硬件技术和70%的代码将全部开源。

技术赛道难分伯仲 投资研究构建生态

语音能力的技术指标是什么?可以说语音识别率的高低是决定用户体验的最直观的一项,而各平台的语音识别率都能达到90%以上,因此已经难以成为评判好坏的决定性因素。在传统的技术领域中,专业性具有不可替代的统治地位,但现在的语音识别领域已不是一枝独秀的时代。

科大讯飞、云知声、思必驰是几家专注于语音识别技术的公司,依靠垂直语音技术领域,长期盘踞主流语音市场,拥有先发优势。这些科技创业公司在语音领域深耕多年,在业界有多年的人脉和资源的积累。人工智能时代,智能语音作为AI最先落地的突破口,迅速成为全球互联网巨头关注的焦点和角逐的战场,所以,科大讯飞、云知声、思必驰也纷纷转为AI全栈公司。当然,也有类似声智科技、三角兽等语音技术公司坚持定位技术方案提供商。

随着BAT进军AI语音领域,转为全栈的语音技术创业公司、传统语音技术公司的不可替代性也受到了不可忽视的打击。作为互联网公司的BAT虽然入场较晚,但是不缺少财力的投入,并且凭借着互联网行业的大数据等资源发展自家的人工智能技术,迅速抢占智能语音市场。其中百度最早布局,以“All in AI”的战略思维,集中火力发展AI产业,今年全资收购KITT.AI,把KITT.AI的语音能力和自然语言处理能力融入到百度平台中;阿里也不甘落后,照搬亚马逊模式,先推出天猫精灵,接着开放AliGenie开发者平台;腾讯坐拥内容与社交用户资源,一直以后后之势切人市场,腾讯云小微平台的底层技术来自于拥有庞大数据的微信。

在语音产业的技术赛道上,目前,很难说哪一家拥有压倒性的技术优势。从这个角度说,让更多的开发者进入到自己的生态系统之中,也是开放平台的一个重要预期。除了构建平台,各大公司也将投资研究作为战略布局的一项重要内容。比如说,百度发布普罗米修斯计划,将开放超大规模对话式AI数据集、鼓励跨学科合作,并通过100万美元的基金用于鼓励和培养对话式AI领域的优秀项目和人才;阿里投资达摩院布局科研市场;思必驰也表示将拨出2亿基金,用以扶持平台上优秀的开发者、优秀应用案例和创业项目。

结语:在智能语音领域,评价的指标已经变得非常多元,实力的划分也广受争议。在智能领域内的第一梯队究竟是具有先发优势科技公司?还是占据着雄厚资本和资源的商业巨头?也许只有时间才能给我们答案。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 170,569评论 25 707
  • CB Insights的评选结果基于这些公司所提交的数据、对一系列问题的回答、以及企业的Mosaic分数。Mosa...
    平凡的小路阅读 2,955评论 1 21
  • 给五年级学生做课业全科辅导是我的工作,这份兼职从3月做到现在已经有三个多月了,昨天得知他们6.23就考试,心情是非...
    柚子粒阅读 307评论 0 0
  • 今天是三月三十一号,是三月份最后的一天 三月份我一直以来都是认为是全年中最美好的一一天。 因为它代表着万物复苏,新...
    三里有屯阅读 132评论 0 1
  • 今天,我在书上看到了一句话:“无论多么宝贵的东西,都没有良好的人品宝贵。”我知道这句话是什么意思,因为我曾经...
    凡间客阅读 530评论 0 1