语音合成简介 Text-to-speech

声明：转载请在标题标明转载，并添加原文链接。

简介

这篇博客的主要内容是对语音合成（text to speech）的背景知识进行介绍。希望可以让读者通俗易懂的了解语音合成的工作原理，并对为了理解state-of-the-art text to speech 的算法做基础。

Computer talks like a human---Test-to-speech

这个简介主要基于这篇论文 “Wavenet: a generative model for raw audio”的附录介绍的。论文链接如下： https://arxiv.org/pdf/1609.03499.pdf, 以及stanford CS224S的课程，链接如下 http://web.stanford.edu/class/cs224s/lectures/224s.17.lec14.pdf

什么是语音合成

语音合成是通过文字人工生成人类声音，也可以说语音生成是给定一段文字去生成对应的人类读音。这里声音是一个连续的模拟的信号。而合成过程是通过计算机，数字信号去模拟。这里就需要数字信号处理模拟信号信息，详细内容可参考 [1]。

Fig. 1 an example of voice signal.

图片1，就是一个例子用来表示人类声音的信号图。这里横轴是时间，纵轴是声音幅度大小。声音有三个重要的指标，振幅（amplitude）, 周期（period）和频率（frequency）。振幅指的是波的高低幅度，表示声音的强弱，周期和频率互为倒数的关系，用来表示两个波之间的时间长度，或者每秒震动的次数。而声音合成是根据声波的特点，用数字的方式去生成类似人声的频率和振幅，即音频的数字化。了解了音频的数字化，也就知道了我们要生成的目标函数。

音频的数字化主要有三个步骤。

取样（sampling）：在音频数字化的过程，采样是指一个固定的频率对音频信号进行采样，采样的频率越高，对应的音频数据的保真度就越好。当然，数据量越大，需要的内存也就越大。如果想完全无损采样，需要使用Nyquist sampling frequency，就是原音频的频率2倍。

量化（quantization）：采样的信号都要进行量化，把信号的幅度变成有限的离散数值。比如从0 到 1，只有四个量化值可以用0， 0.25， 0.5， 0.75的话，量化就是选择最近的量化值来表示。

编码（coding）：编码就是把每个数值用二进制的方式表示，比如上面的例子，就可以用2bit 二进制表示, 00, 01, 10, 11。这样的数值用来保存在计算机上。

采样频率和采样量化级数是数字化声音的两个主要指标，直接影响声音的效果。对于语音合成也是同样，生成更高的采样频率和更多多的量化级数（比如16 bit）, 会产生更真实的声音。通常有三个采样频率标准

1. 44.1kHz 采样，用于高品质CD 音乐

2. 22.05kHz 采样，用于语音通话，中品质音乐

3. 11.025kHz 采样，用于低品质声音。

而量化标准一般有8位字长（256阶）低品质量化和16位字长（65536阶）高品质量化。

还有一个重要参数就是通道（channel）, 一次只采样一个声音波形为单通道，一次采样多个声音波形就是多通道。

所以在语音合成的时候，产生的数据量是 数据量=采样频率* 量化位数*声道数，单位是bit/s。一般声道数都假设为1.。 采样率和量化位数都是语音合成里的重要指标，也就是设计好的神经网络1秒钟必须生成的数据量。

语音合成流程

Fig. 2 Two stage text-to-speech synthsis (source [2])

文本分析（text analysis）

文本分析就是把文字转成类似音标的东西。比如下图就是一个文本分析，用来分析 “PG&E will file schedules on April 20. ” 文本分析主要有四个步骤，文字的规范化，语音分析，还有韵律分析。下面一一道来。

Fig. 3 文本分析

文本规范化 (Text normalization )

文本分析首先是要确认单词和句子的结束。空格会被用来当做隔词符. 句子的结束一般用标点符号来确定，比如问号和感叹号（？！）, 但是句号有的时候要特别处理。因为有些单词的缩写也包含句号，比如 str. "My place on Main Str. is around the corner". 这些特别情况一般都会采取规则（rule）的方式过滤掉。

接下来是把非文字信息变成对应的文字，比如句子中里有日期，电话号码，或者其他阿拉伯数字和符号。这里就举个例子，比如， I was born April 14. 就要变成， I was born April fourteen. 这个过程其实非常繁琐，现实文字中充满了缩写，比如CS, 拼写错误，网络用语， tmr --> tomorrow. 解决方式还是主要依靠rule based method，建立各种各样的判断关系来转变。

语音分析 (Phonetic analysis)

语音分析就是把每个单词中的发音单词标出来，比如Fig. 3 中的P, 就对应p和iy, 作为发音。这个时候也很容易发现，发音的音标和对应的字母不是一一对应的关系，反而需要音标去对齐（allignment）。这个对齐问题很经典，可以用很多机器学习的方法去解决，比如Expectation–maximization algorithm.

韵律分析 (Prosody analysis)

韵律分析就是英语里的语音语调，汉语中的抑扬顿挫。我们还是以英语为例，韵律分析主要包含了：重音 (Accent)，边界 (boundaries), 音长 (duration)，主频率 (F0).

重音（Accent）就是指哪个音节发生重一点。对于一个句子或者一个单词都有重音。单词的重音一般都会标出来，英语语法里面有学过，比如banana 这个单词，第二个音节就是重音。而对于句子而言，一样有的单词会重音，有的单词会发轻音。一般有新内容的名词，动词，或者形容词会做重音处理。比如下面的英语句子， surprise 就会被重音了，而句子的重音点也会落到单词的重音上，第二个音节rised, 就被重音啦。英语的重音规则是一套英语语法，读者可以自行百度搜索。

I’m a little surprised to hear it characterized as upbeat.

边界（Boundaries） 就是用来判断声调的边界的。一般都是一个短语结束后，有个语调的边界。比如下面的句子， For language, 就有一个边界，而I 后面也是一个边界.

For language, I , the author of the blog, like Chinese.

音长（Duration）就是每个音节的发声长度。这个通俗易懂。 NLP 里可以假定每个音节单词长度相同都是 100ms, 或者根据英语语法，动词，形容词之类的去确定。也可以通过大量的数据集去寻找规律。

主频率（F0）就是声音的主频率。应该说做傅里叶转换后，值 (magnitude) 最大的那个。也是人耳听到声音认定的频率。一个成年人的声音主频率在 100-300Hz 之间。这个值可以用线性回归来预测，机器学习的方法预测也可以。一般会认为，人的声音频率是连续变化的，而且一个短语说完频率是下降趋势。

文本分析就介绍完了，这个方向比较偏语言学，传统上是语言学家的研究方向，但是随着人工智能的兴起，这些feature 已经不用人为设计了，可以用端到端学习的方法来解决。比如谷歌的文章 TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS 就解救了我们。

https://arxiv.org/pdf/1703.10135.pdf

声波生成（waveform synthesis）

这个部分就比较像我们算法工程师的工作内容了。在未来的博客里，会详细介绍如何用Wavenet 和WaveRNN 来实现这一步骤的。今天这个博客就是简介一下算法。

这里说所谓的waveform synthesis 就是用这些语言特征值（text features）去生成对应的声波，也就是生成前文所说的采样频率和振幅大小（对应的数字信号）。这里面主要有两个算法。

串接合成（concatenative speech synthesis）：这个方法呢，就是把记录下来的音节拼在一起来组成一句话，在通过调整语音语调让它听起来自然些。比较有名的有双音节拼接（Diphone Synthesis）和单音节拼接（Unit Selection Synthesis）。这个方法比较繁琐，需要对音节进行对齐（alignment），调整音节的长短之类的。

参数合成（Parametric Synthesis）：这个方法呢，需要的内存比较小，是通过统计的方法来生成对应的声音。模型一般有隐马尔科夫模型（HMM），还有最近提出的神经网络算法Wavenet, WaveRNN.

对于隐马尔科夫模型的算法，一般都会生成梅尔频率倒谱系数（MFCC），这个是声音的特征值。感兴趣的可以参考这篇博客去了解 MFCC。

https://www.cnblogs.com/BaroC/p/4283380.html

对于神经网络的算法来说，一般都是生成256 个 quantized values 基于softmax 的分类器，对应声音的 256 个量化值。 WaveRNN 和wavenet 就是用这种方法生成的。

学习资料

下面是我学习语音合成的一些资料，其中stanford cs224s 是强力推荐的，但是这个讲义讲的逻辑不是很清楚，要反复看才会懂。

UCSB Digital Speech Processing Course 课程, 声音信号处理的基础。建议读一遍，链接如下， https://www.ece.ucsb.edu/Faculty/Rabiner/ece259/

Stanford CS224S http://web.stanford.edu/class/cs224s/

WaveRNN, https://arxiv.org/pdf/1609.03499.pdf

音频的数字化， https://wenku.baidu.com/view/68fbf1a4f61fb7360b4c658b.html

最后编辑于：2018.08.12 19:30:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268