语音识别CMUSphinx(0)简介

96
Seeker_zz
2018.08.04 16:45* 字数 484

文章目录如下:

  • 官方资源导航
  • 功能简介
    • 优点
    • 缺点
  • 后续文章介绍

官方资源导航

功能简介

功能包括按特定语法进行识别、唤醒词识别、n-gram识别等等,Github上还有高层的封装,实现了以下功能:
https://github.com/odetoyama/RapidSphinx
有兴趣的可以了解一下,这里就不展开了。
Features:

  • Build dictionary on the fly
  • Build language model (Arpa File) on the fly
  • Build JSGF Grammar on the fly
  • Support PCM Recorder 16bits / mono little endian (wav file)
  • Scoring system every single word (range 0.0 - 1.0)
  • Detect unsupported words
  • Rejecting Out-Of-Vocabulary (OOV) based on keyword spotting
  • Speaker Adaptation (in progress)
  • SIMPLE TO USE & FAST!

优点

这款语音识别开源框架相比于Kaldi比较适合做开发,各种函数上的封装浅显易懂,解码部分的代码非常容易看懂,且除开PC平台,作者也考虑到了嵌入式平台,Android开发也很方便,已有对应的Demo,Wiki上有基于PocketSphinx的语音评测的例子,且实时性相比Kaldi好了很多。
由于适合开发,有很多基于它的各种开源程序、教育评测论文。
总的来说,从PocketSphinx来入门语音识别是一个不错的选择。

缺点

相比于Kaldi,使用的是GMM-HMM框架,准确率上可能会差一些;其他杂项处理程序(如pitch提取等等)没有Kaldi多。

后续文章介绍

后续文章分为PC平台开发和Android平台开发两部分,先在PC平台上熟悉功能,然后在Android平台上开发一个类似魅族手机上相机喊一句“茄子”就能实现自动拍照的功能的APP。

CMU Sphinx
Web note ad 1