“重磅！” 常见的NLG评估方法大整理！！

来源：AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2020-1-3

引言

如何判定训练出来的模型好与坏呢？关键是要有一个比较好的模型评估方法，那么今天作者就给大家汇总一下自然语言生成（NLG）中经常见到的无监督自评估方法（BLEU、METEOR、ROUGE、CIDEr）（含评估代码）。

BLEU评估法（机器翻译）

Bleu 全称为 Bilingual Evaluation Understudy（双语评估研究），意为双语评估替换，是衡量一个有多个正确输出结果的模型的精确度的评估指标。
BLEU的设计思想与评判机器翻译好坏的思想是一致的：机器翻译结果越接近专业人工翻译的结果，则越好。BLEU算法实际上在做的事：判断两个句子的相似程度。我想知道一个句子翻译前后的表示是否意思一致，显然没法直接比较，那我就拿这个句子的标准人工翻译与我的机器翻译的结果作比较，如果它们是很相似的，说明我的翻译很成功。因此，BLUE去做判断：一句机器翻译的话与其相对应的几个参考翻译作比较，算出一个综合分数。这个分数越高说明机器翻译得越好。
举个例子：下面拿中英机器翻译做例子：
中文：垫上有一只老鼠。
参考翻译1：The cat is on the mat.
参考翻译1：There is a cat on the mat.
MT(机器翻译):the cat the cat on the mat.
bleu的得分有一元组，二元组，三元组等等，这里做了1-3元组的例子，如下：
下面先计算BELU一元组得分，即先把MT输出的句子拆分成the,cat,on,mat，频数分别为3,2,1,1:

上面的Count(clip) 叫截取计数，是取每个单词在所有参考翻译句子中，出现最多的次数，the在参考翻译1中出现2次，在参考翻译2中出现1次，所以the的Count(clip)取最大值就是2，剩下的单词依次类推。
所以BELU的一元组上的得分为：
p1 = Count(clip)/Count=（2+1+1+1）/(3+2+1+1) =5/7
下面再计算BELU的二元组得分：
参考翻译1：The cat is on the mat.
参考翻译1：There is a cat on the mat.
MT(机器翻译):the cat the cat on the mat.

所以bleu的二元组的得分为：p2 = Count(clip)/Count=（1+0+1+1+1）/(2+1+1+1+1) =4/6=2/3
同理BELU的三元组得分：
参考翻译1：The cat is on the mat.
参考翻译1：There is a cat on the mat.
MT(机器翻译):the cat the cat on the mat.

所以bleu的三元组的得分为：p3 = Count(clip)/Count= 2/5；最后加所有元组的bleu得分都加起来然后取平均数得:
bleu（avg） = （p1+p2+p3）/3 = (5/7+2/3+2/5)/3 = 0.594
最后再乘上一个“简短惩罚” BP（brevity penalty），即最后的bleu得分为：Bleu(total)=BP * bleu(avg)。
这里为什么要乘以BP：
如果MT输出了一个非常短的翻译，那么会更容易得到一个高精度的bleu，因为输出的大部分词都会出现在参考翻译中，所有我们并不想要特别短的翻译结果，所有加入BP这么一个调整因子：

上式中，r为参考翻译的句子长度，c为MT的输出句子长度，若c<=r ,则 0<exp(1-r/c)<=1,得分bleu(avg)就会乘以小于1的系数，从而被“惩罚”。
那么最后：Bleu(total)=BP*bleu(avg)

ROUGE评估法（自动摘要）

Rouge(recall-oriented understanding for gisting evaluation)是评估自动文摘以及机器翻译的一组指标。论文链接地址：http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=368956B77243860A93FC0E3726EE7919?doi=10.1.1.111.9426&rep=rep1&type=pdf
该方法的主要是思想是：由多个专家分别生成人工摘要，构成标准摘要集。将系统生成的自动摘要与人工生成的标准摘要相对比，通过统计二者之间重叠的基本单元（n元语法、词序列和词对）的数目，来评价摘要的质量。通过多专家人工摘要的对比，提高评价系统的稳定性和健壮性。该方法现在已经成为摘要评价技术的通用标准之一。关于该算法演变评价标准有:Rouge-N、Rouge-L、Rouge-S、Rouge-W、Rouge-SU。

Rouge-N

其中，n表示n-gram的长度，{Reference Summaries}表示参考摘要，即事先获得的标准摘要，表示候选摘要和参考摘要中同时出现n-gram的个数，则表示参考摘要中出现的n-gram个数。不难看出，ROUGE公式是由召回率的计算公式演变而来的，分子可以看作“检出的相关文档数目”，即系统生成摘要与标准摘要相匹配的N-gram个数，分母可以看作“相关文档数目”，即标准摘要中所有的N-gram个数。具体计算方式具体如下：

通过上面可以看到其实ROUGE-N 和 BLEU 几乎一模一样，区别是 BLEU 只计算准确率，而 ROUGE 只计算召回率。
优点：直观，简介，能反映词序。
缺点：区分度不高，且当N>3时，ROUGE-N值通常很小。
应用场景：ROUGE-1：短摘要评估，多文档摘要（去停用词条件）;ROUGE-2: 单文档摘要，多文档摘要（去停用词条件）;

Rouge-L

子序列：一个给定序列的子序列就是该给定序列中去掉零个或者多个元素。
公共子序列：给定两个序列X和Y，如果Z既是X的一个子序列又是Y的一个子序列，则序列Z是X和Y的一个公共子序列。
LCS（最长公共子序列）：给定两个序列X和Y，使得公共子序列长度最大的序列是X和Y的最长公共子序列。其计算公式为：

其中X为参考摘要，长度为m，Y为候选摘要，长度为n，用F值来衡量摘要X与Y的相似度，在DUC测评中，由于，，所以只考虑。具体计算例子如下：

优点：不要求词的连续匹配，只要求按词的出现顺序匹配即可，能够像n-gram一样反映句子级的词序。自动匹配最长公共子序列，不需要预先定义n-gram的长度。
缺点：只计算一个最长子序列，最终的值忽略了其他备选的最长子序列及较短子序列的影响。
应用场景：单文档摘要；短摘要评估。

将LCS应用到摘要级数相时，对参考摘要中的每一个句子与候选摘要中的所有句子比对，以union LCS作为摘要句的匹配结果。计算公式：

其中R为参考摘要，包含u个句子，m个词，C为候选摘要，包含v个句子，n个词，长度为n，是句子r_i和候选摘要C的union LCS。

Rouge-W

为使连续匹配比不连续匹配赋予更大的权重，公式描述如下：
$f(x+y)>f(x)+f(y)$ 例如 $f(k)=k^{\alpha}, \alpha > 1$ ，同时为了归一化最终的Rouge-W的值，通常选择函数与反函数具有相似形式的函数。例如： $f(k)=k^2,f^{-1}=k^{1/2}$ ，具体计算公式如下所示：

举个例子如下：

优点：同一LCS下，对连续匹配词数多的句子赋予更高权重，比LCS区分度更高。 缺点：同ROUGE-L，只计算一个最长子序列，最终的值忽略了其他备选的最长子序列及较短子序列的影响。
应用场景：单文档摘要；短摘要评估。

Rouge-S

Skip-Bigram是按句子顺序中的任何成对词语。计算公式如下：

其中X为参考摘要，长度为m，Y为候选摘要，长度为n。SKIP2(X，Y)表示候选摘要与参考摘要的skip-bigram匹配次数。
Skip-gram如果不限制跳跃的距离，会出现很多无意义的词对，比如“the of”、“in the”等。为了减少无意义词对的出现，可以限制最大跳跃距离，通常写ROUGE-S4表示最大跳跃距离为4，ROUGE-S9表示最大跳跃距离为9，依次类推。如果为0，那么ROUGE-S0 = ROUGE-2。举个例子如下：

优点：考虑了所有按词序排列的词对，比n-gram模型更深入反映句子级词序。 缺点：若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数，需要指定最大跳跃词数的值。
应用场景：单文档摘要；ROUGE-S4，ROUGE-S9: 多文档摘要（去停用词条件)。

METEOR评估法（机器翻译、自动文摘）

2004年，卡内基梅隆大学的Lavir提出评价指标中召回率的意义，基于此研究，Banerjee和Lavie（Banerjee and Lavie, 2005）发明了基于单精度的加权调和平均数和单字召回率的METEOR度量方法，目的是解决BLEU标准中的一些固有缺陷。论文链接地址：http://www.cs.cmu.edu/~alavie/METEOR/pdf/Banerjee-Lavie-2005-METEOR.pdf
METEOR扩展了BLEU有关“共现”的概念，提出了三个统计共现次数的模块：一是“绝对”模块（"exact" module），即统计待测译文与参考译文中绝对一致单词的共现次数；二是“波特词干”模块（porter stem module），即基于波特词干算法计算待测译文与参考译文中词干相同的词语“变体”的共现次数，如happy和happiness将在此模块中被认定为共现词；三是“WN同义词”模块（WN synonymy module），即基于WordNet词典匹配待测译文与参考译文中的同义词，计入共现次数，如sunlight与sunshine。
同时METEOR将词序纳入评估范畴，设立基于词序变化的罚分机制，当待测译文词序与参考译文不同时，进行适当的罚分。最终基于共现次数计算准确率、召回率与F值，并考虑罚分最终得到待测译文的METEOR值。
该算法首先计算 unigram 情况下的准确率P和召回率R（计算方式与BLEU、ROUGE类似），得到调和均值F值：
$F=\frac{(\alpha^2+1)P}{R+\alpha P}$ 看到这可能还没有什么特别的。Meteor的特别之处在于，它不希望生成很“碎”的译文：比如参考译文是“A B C D”，模型给出的译文是“B A D C”，虽然每个unigram都对应上了，但是会受到很严重的惩罚。惩罚因子的计算方式为： $Penalty=\gamma (\frac{\#chunks}{\#unigrams\_matched})^{\theta}$ 上式中的 $\#chunks$ 表示匹配上的语块个数，如果模型生成的译文很碎的话，语块个数会非常多； $\#unigrams\_matched$ 表示匹配上的unigram个数。所以最终的评分为：
$Meteor=(1-Penalty)\cdot F$ 用于机器翻译评测时，通常取 $\alpha=3$ ， $\gamma=0.5$ 和 $\theta=3$ 。
自从2004年以来，该团队也在不断的对METEOR评估方法进行优化，具体可见：http://www.cs.cmu.edu/~alavie/METEOR/index.html

CIDEr评价方法

CIDEr（Consensuus-based Image Description Evaluation）评价标准是Vedantm在2015年计算机视觉与模式识别大会上提出来的针对图像摘要问题的度量标准。论文链接地址为：https://arxiv.org/pdf/1411.5726.pdf
研究者认为过去的多种评价方法和人类评价具有较强的相关性，但是无法统一到一个度量标准来评价与人的相似性（human-like），为了解决这个问题，从而评价计算机自动生成的句子到底有多像人工书写的，Vedantam等人提出了基于共识的评价标准（consensus-based protocol），其基本工作原理就是通过度量带测评语句与其他大部分人工描述句之间的相似性来评价相似性。研究者证明CIDEr在与人工共识的匹配度上要好于前述其它评价指标。
CIDEr首先将n-grams在参考句子中的出现频率编码进来，n-gram在数据集所有图片中经常出现的图片的权重应该减少，因为其包含的信息量更少，该权重研究者通过TF-IDF计算每个n-gram的权重。将句子用n-gram表示成向量形式，每个参考句和待评测句之间通过计算TF-IDF项链的余玄距离来度量其相似性。

参考文献

[1] https://blog.csdn.net/qq_31584157/article/details/77709454
[2] https://blog.csdn.net/CharlesOyfz/article/details/90668423
[3] https://blog.csdn.net/qq_25222361/article/details/78694617
[4]https://blog.csdn.net/lcj369387335/article/details/69845385

更多自然语言处理、pytorch相关知识，还请关注AINLPer公众号，极品干货即刻送达。

最后编辑于：2020.01.18 00:09:31

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268

“重磅！” 常见的NLG评估方法大整理 ！！

引言