车联网-语音方案比对介绍

语音方案比对介绍

语音交互是现今应用最多的智能交互方式,在人工智能越来越火的当下应用十分广泛,所以特别针对车内环境,在驾驶员安心驾驶的时候,用语音可以安全的进行操控,所以针对公司的车联网的业务需求,我做了一个语音方案的研究和比对。

语音需求

整体来说语音需求,选择的语音方案至少要满足语音唤醒,语音合成,语义解析三大基础功能

  1. 语音唤醒: 能够通过唤醒词,唤醒语音助手,进行后续用户语义的识别,免去手动点击唤醒的操作
  2. 语音合成: 俗称TTS(Text To Speech),支持将文本转换成语音播报出来
  3. 语义解析: 支持将用户输入的语音,转换成文本,并进行相应的分析,定位到相应的场景,关键字 返回结果帮助我们定位到用户需求。
    例如:"导航到深圳北站",除了解析语音返回整句文本之外,还需要定位到这是地图场景,关键字是POI点深圳北站

语音方案

现今市面上比较常用的语音方案有:腾讯云语音讯飞语音百度语音思必驰云知声同行者,搜狗语音云

  • 同行者并不同于其他只做语音方案,它提供的更多的是智能设备的整套系统方案,有对外开放SDK,但需要走商务渠道才能试用
  • 思必驰 主要针对场景进行制定化开发,无对外开放平台进行试用,需要走商务合作

所以暂时着重比对介绍一下腾讯云语音讯飞语音百度语音, 云知声搜狗语音云

讯飞语音

讯飞语音开发平台 云知声语音开发平台

优点:

  • 支持的语义场景广泛,包括家居,地图,应用,音乐等等27个场景,8个聊天对话类型
  • 语义解析除了整个语句文本外,还提供详细的域名,操作,类型,关键字等Json数据,便于开发
  • 在线功能 语义解析,语音合成,命令词识别审核通过后,可以无限制免费使用
  • 讯飞平台可以对接微信公众号,在微信公众账号中增加智能问答的功能。
  • 讯飞和云知声 成熟的车载案例很多

缺点:

  • 语音唤醒功能需要收费,最高五万套装机量授权需要 25000,更大的装机量需要定制化开发
  • 唤醒词只支持4-6个汉字,无法更少
  • 有些个别语义关键字,无法正确解析到,但是整句文本都能准确返回
  • 免费的语音合成只支持在线,会耗费很多流量

备注: 云知声的对外开放平台,主要功能和使用形式同讯飞基本一致,唤醒和离线语音合成都需要收费定制化开发

讯飞语音开发平台 云知声语音开发平台


讯飞语义场景
讯飞语义场景

讯飞语音识别
讯飞语音识别

讯飞语音服务

腾讯云语音

腾讯云语音

使用腾讯云语音需要注册腾讯云账号,添加项目和服务,云语音只是整个腾讯云中的一个产品,不收费

特点:

  • 没有提供语音唤醒服务
  • 提供实时流式识别,离线语音识别,语音合成功能
  • 离线语音识别功能 不是离线语音合成或者离线识别语音, 只是支持将录制好的音频上传 RESTful API 进行语音识别,还是需要访问在线API
  • 语音识别和语音合成不是同一个SDK,语音识别是独立的Android SDK,语音合成是一个独立的 RESTful API接口
  • 语音识别成熟的客户案例少,只有五个 没有车载行业,语音合成有一个腾讯地图
  • 语音识别需要自己提供关键字,进行识别检索,关键字最多200个
腾讯云产品总览
腾讯云语音识别功能
腾讯云语音合成功能-场景
腾讯云语音合成架构

百度语音

百度语音

特点:

  • 语音唤醒,语音识别,语音合成三大功能基础服务永久免费
  • 语音识别,语音合成支持离线在线混合SDK,根据网络情况和指令进行自动切换,以及全平台的RESTful API
  • 语音识别的离线SDK支持自定义语义,在线SDK可以设置识别场景
  • 支持开发者上传词库,用以训练识别模型
  • 语音合成 支持多语言多音色选择,可调节语速、音调、音量、音频码率
  • 语音唤醒最多支持十个唤醒词,包括最多三个自定义唤醒词,也叫做基础唤醒词(“小畅你好”),剩下可选百度提供的命令唤醒词(“上一首,下一首”)
自定义语义

语义数据结构

导出唤醒词

搜狗语音云

搜狗语音云

特点:

  • 无语音唤醒功能,提供三大核心功能,语音识别(离线/在线),音乐检索,语音合成
  • 语音识别免费提供,搜狗着重在语音识别的准确性,对于语义支持的不是很广泛,支持十个以内的语义场景,离线识别能通过离线的语音包,准确识别到语音
  • 语音合成,只提供离线版,但是需要走商务渠道进行合作,不免费对外开放
  • 音乐检索,可以根据音乐片段检索出整个音乐的歌曲名

总结

经过比对和试用SDK Demo,总体来说,百度语音最适合,,不仅能够满足我们的语音需求,还支持自定义深度优化,相比较其他语音方案,百度语音具有以下三大优势:

  1. 免费支持语音唤醒,相对比其他方案,唤醒都是收费的,而且还能够支持最多三个自定义唤醒词

  2. 提供离线语音识别和语音合成,其他语音方案只提供在线语音合成和识别,离线都需要收费,百度语音免费提供,能够减少很大的流量消耗

  3. 能够自定义语义,我们可以根据自己的业务需求定义一些语义加入到离线识别中,做到深度化定制,给用户更好的体验,
    例如:"我要点肯德基","打开行车记录仪"

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容