论文-Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling(At...

1. 简称

论文《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》简称Attention BiRNN，作者Bing Liu(Electrical and Computer Engineering, Carnegie Mellon University)。经典的NLU论文（Semantic Frame）。

2. 摘要

基于注意力的编解码器神经网络模型最近在机器翻译和语音识别中显示出令人鼓舞的结果。

在这项工作中，我们提出了一种基于注意力的神经网络模型，用于联合意图检测和插槽填充，这对于许多语音理解和对话系统都是至关重要的步骤。与机器翻译和语音识别不同，对齐在插槽填充中是显式的。我们探索将对齐信息整合到编码器-解码器框架中的不同策略。从编码器-解码器模型中的注意力机制中学习，我们进一步建议将注意力引入基于对齐的RNN模型。

这种关注为意图分类和插槽标签预测提供了更多信息。我们的独立任务模型在基准ATIS任务上实现了最新的意图检测错误率和插槽填充F1分数。与独立任务模型相比，我们的联合训练模型在意图检测上进一步获得了0.56％的绝对（相对值23.8％的）相对误差减少，在插槽填充上的绝对增益为0.23％。

3. 引言

口语理解（SLU）系统是口语对话系统中的重要组成部分。 SLU系统通常涉及识别说话者的意图并从自然语言查询中提取语义成分，这两项任务常常被称为意图检测和插槽填充。

意图检测和插槽填充通常分别进行。意图检测可以看作是语义话语分类问题，可以应用流行的分类器，例如支持向量机（SVM）和深度神经网络方法。插槽填充可以视为序列标记任务。解决序列标记问题的流行方法包括最大熵马尔可夫模型（MEMM），条件随机场（CRF）和递归神经网络（RNN）。文献也提出了用于意图检测和缝隙填充的联合模型。这种联合模型简化了SLU系统，因为只需训练和微调一个模型即可完成两项任务。

最近，编解码器神经网络模型已成功应用于许多序列学习问题，例如机器翻译和语音识别。编码器-解码器模型背后的主要思想是将输入序列编码为密集向量，然后使用该向量生成相应的输出序列。引入的注意力机制使编码器-解码器体系结构能够学会同时对齐和解码。

在这项工作中，我们研究了SLU模型如何从序列模型的强大建模能力中受益。当没有给出对齐信息时，基于注意力的编码器-解码器模型能够映射具有不同长度的序列。但是，在插槽填充中，对齐是显式的，因此基于对齐的RNN模型通常可以很好地工作。我们想研究基于注意和基于对齐的方法的组合。具体来说，我们想探索如何在编码器-解码器模型中最佳地利用插槽填充中的对齐信息，另一方面，是否可以通过以下关注机制进一步改善基于对齐的RNN缝隙填充模型：由编码器-解码器体系结构引入。此外，我们想研究如何在这种方案下共同模拟时隙填充和意图检测。

4. 背景

4.1 RNN for Slot Filling

插槽填充被当做一个序列标注问题，我们有训练样本 $\{(x^{(n)},y^{(n)}):n=1,...,N\}$ 并且我们想要去学习一个函数 $f:X->Y$ ，将一个输入序列 $X$ 映射到相关联的标签序列 $Y$ 。在插槽填充中，输入序列和标签序列时相同长度，因此是显示对齐的。

RNN已广泛用于许多序列建模问题。在时隙填充的每个时间步，RNN都会读取一个单词作为输入，并根据输入和发出的输出序列中的所有可用信息来预测其对应的时隙标签。对模型进行训练以找到最佳的参数集，该参数集使可能性最大化：

$\argmax_{\theta}\prod_{t=1}^TP(y_t|y_1^{t-1},x;\theta)\tag{4.1.1}$

其中 $x$ 代表输入单词序列， $y_1^{t-1}$ 代表时间步 $t$ 之前的输出标签序列。在推断过程中，我们希望在给定输入序列 $x$ 的情况下找到最佳标签序列 $y$ ：
$\hat{y}=\argmax_yP(y|x)\tag{4.1.2}$

4.2 RNN Encoder-Decoder

编码器和解码器是两个单独的RNN。编码器读取向量c的输入序列 $（x_1，...，x_T）$ 。该向量对整个源序列的信息进行编码，并在解码器中用于生成目标输出序列。解码器将输出序列的概率定义为：

$P(y)=\prod_{t=1}^TP(y_t|y_1^{t-1},c)\tag{4.2.1}$

$y_1^{t-1}$ 代表时间步 $t$ 之前的输出标签序列。与用于序列标记的RNN模型相比，RNN编码器/解码器模型能够将序列映射到具有不同长度的序列。源序列和目标序列之间没有明确的比对。稍后在引入的注意力机制使编码器/解码器模型能够学习软对齐并同时进行解码。

5. 核心

在本节中，我们首先描述将对齐信息集成到编码器-解码器体系结构以进行时隙填充和意图检测的方法。接下来，我们描述了将注意力机制从编码器-解码器架构引入基于对齐的RNN模型的方法。

5.1 Encoder-Decoder Model with Aligned Inputs

用于联合意图检测和时隙填充的编码器-解码器模型如图2所示。在编码器侧，我们使用双向RNN。双向RNN已成功应用于语音识别和`口语理解。我们使用LSTM 作为基本的递归网络单元，因为它具有比简单RNN更好地建模长期依赖关系的能力。

在时隙填充中，我们希望将单词序列 $x =（x_1，...，x_T）$ 映射到其相应的空位标签序列 $y =（y_1，...，y_T）$ 。双向RNN编码器向前和向后读取源字序列。前向RNN以其原始顺序读取单词序列，并在每个时间步生成隐藏状态 $fh_i$ 。类似地，后向RNN以相反的顺序读取单词序列，并生成一系列隐藏状态 $（bh_T，...，bh_1）$ 。在每个时间步骤 $i$ ，最终的编码器隐藏状态 $h_i$ 是前向状态 $fh_i$ 和后向隐藏状态 $bh_i$ ，即 $h_i ＝[fh_i，bh_i]$ 的串联。

前向和后向编码器RNN的最后状态携带整个源序列的信息。我们使用后向编码器RNN的最后状态来计算初始解码器隐藏状态。解码器是单向RNN。同样，我们将LSTM单元用作基本RNN单元。在每个解码步骤 $i$ 中，根据先前解码器状态 $s_{i-1}$ ，先前发出的标签 $y{i-1}$ ，对齐的编码器隐藏状态 $h_i$ 和上下文向量 $c_i$ 来计算解码器状态 $s_i$ ：
$s_i=f(s_{i-1},y_{y-1},h_i,c_i)\tag{5.1.1}$

其中上下文向量 $c_i$ 是作为编码器状态 $h =（h_1，...，h_T）$ 的加权和而计算的：

$c_i=\sum_{j=1}^T\alpha_{i,j}h_j\tag{5.1.2}$

并且：

$\alpha_{i,j}=\frac{exp(e_{i,j})}{\sum_{k=1}^T exp(e_{i,k})} \\ e_{i,k}=g(s_{i-1},h_k) \tag{5.1.3}$

$g$ 是一个前向神经网络。在每个解码步骤，显式对齐的输入为编码器状态 $h_i$ 。上下文向量 $c_i$ 为解码器提供了额外的信息，并且可以看作是一连串的加权特征 $（h_1，...，h_T）$ 。

对于意图检测和时隙填充的联合建模，我们添加了用于意图检测（或意图分类）任务的附加解码器，该解码器与时隙填充解码器共享同一编码器。在模型训练期间，两个解码器的成本都将反向传播到编码器。意图解码器仅生成一个输出，该输出是句子的意图类别分布，因此不需要对齐。目标解码器状态是共享的初始解码器状态 $s_0$ （对整个源序列的信息进行编码）和上下文向量 $c_{intent}$ （其表示源解码器要注意的部分源序列）的函数。

5.2 Attention-Based RNN Model

用于联合意图检测和时隙填充的基于注意力的RNN模型如图3所示。

在用于序列标记的双向RNN中，每个时间步的隐藏状态都携带整个序列的信息，但是信息可能会随着向前和向后传播而逐渐丢失。因此，在进行时隙标签预测时，我们不仅希望在每个步骤中仅使用对齐的隐藏状态 $h_i$ ，还希望查看是否使用上下文向量 $c_i$ 为我们提供了任何其他支持信息，尤其是那些需要长期依赖的信息未被隐藏状态完全捕获。

在提出的模型中，双向RNN（BiRNN）沿正向和反向读取源序列。我们将LSTM单元用作基本RNN单元。插槽标签依赖关系在前向RNN中建模。类似于上述编码器-解码器体系结构中的编码器模块，每个步骤的隐藏状态 $h_i$ 是前向状态 $fh_i$ 和后向状态 $bh_i$ 的串联， $h_i =[fh_i，bh_i]$ 。每个隐藏状态 $h_i$ 都包含整个输入单词序列的信息，并在步骤 $i$ 着重关注单词周围的部分。然后将此隐藏状态 $h_i$ 与上下文向量 $c_i$ 组合以产生标签分布，其中上下文向量 $c_i$ 计算为RNN隐藏状态 $h =（h_1，...，h_T）$ 的加权平均值。

对于意图检测和时隙填充的联合建模，我们重用了双向RNN的预先计算的隐藏状态 $h$ 来生成意图类分布。如果不注意，我们对隐藏状态 $h$ 随时间应用最大池化，然后进行逻辑回归以进行意图分类。如果启用了注意力，我们将取隐藏状态 $h$ 随时间的加权平均值。

与利用显式对齐输入的基于注意力的编码器/解码器模型相比，基于注意力的RNN模型具有更高的计算效率。在模型训练期间，编码器-解码器插槽填充模型两次读取输入序列，而基于注意力的RNN模型只读取一次输入序列。

6. 实验

6.1 Data

ATIS（航空公司旅行信息系统）数据集被广泛用于SLU研究中。数据集包含预订航班的人员的录音。在这项工作中，我们遵循中使用的ATIS 语料设置。训练集包含来自ATIS-2和ATIS-3语料库的4978语音，而测试集包含来自ATIS-3 NOV93和DEC94数据集的893语音。共有127个不同的插槽标签和18个不同的意图类型。我们使用F1分数评估系统在插槽填充方面的性能，并使用分类错误率评估意图检测的性能。

我们获得了用于SLU评估的另一个ATIS文本语料库。该语料库包含5138话语，并标注了意图和插槽标签。总共有110种不同的插槽标签和21种意图类型。我们使用10倍交叉验证设置。

6.2 Training Procedure

LSTM单元用作实验中的基本RNN单元。给定数据集的大小，我们将LSTM单元的单位数设置为128。默认的遗忘门偏置设置为1。我们在提出的模型中仅使用LSTM的一层，而通过堆叠LSTM层的更深层模型将在以后的工作中进行探索。

大小为128的单词嵌入在批量大小为16的小批量训练过程中被随机初始化和微调。在模型训练过程中，对非经常性连接应用Dropout 为0.5，以进行正则化。梯度裁剪的最大范数设置为5。

6.3 Independent Training Model Results:Slot Filling

我们首先在独立的任务训练模型上报告结果。表1显示了使用我们提出的架构的插槽填充F1分数。表2将我们建议的插槽填充模型性能与先前报告的结果进行了比较。

在表1中，第一组结果是针对5.1节中描述的编码器-解码器模型的变化。不足为奇的是，没有利用显式对齐信息的纯基于关注的槽位填充模型的效果很差。让模型从训练数据中学习对准似乎不适用于插槽填充任务。第2行和第3行显示了利用对齐输入的非注意力和基于注意力的编码-解码器模型的F1分数。

在平均和最佳分数上，基于注意力的模型给出的F1得分要比基于非注意力模型的F1得分略好。通过调查模型学习到的注意力，我们发现注意力权重更有可能在源序列中的各个单词之间平均分配。在少数情况下，我们会观察到解码器对输入序列的关注（图4），这可能部分解释了启用注意力后所观察到的性能提升。

表1中的第二组结果是针对3.2节中描述的双向RNN模型的。与之前的结果类似，我们在使用注意力的模型上观察到F1分数略有提高。上下文向量对时隙填充的贡献不是很明显。似乎对于这种级别的序列长度（此ATIS语料库的平均句子长度为11），双向RNN产生的隐藏状态 $h_i$ 能够编码制作该时隙所需的大多数信息用于标签预测。

表2将我们的槽位填充模型与以前的方法进行了比较。我们两种模型架构的结果均优于先前报告的最佳F1分数。

6.4 Independent Training Model Results:Intent Detection

表3比较了我们的意图模型和先前方法之间的意图分类错误率。我们提出的模型的意向错误率大大优于最新结果。基于注意力的编解码器意图模型改进了双向RNN模型。这可能归因于从编码器传递的序列级别信息以及解码器RNN中的非线性附加层。

6.5 Joint Model Results

表4显示了我们与先前报告的结果相比，在意图检测和插槽填充方面的联合训练模型性能。

为了进一步验证我们的联合训练模型的性能，我们将提出的模型应用于其他ATIS数据集，并通过10倍交叉验证对它们进行评估。编码器-解码器和基于注意力的RNN方法均取得了可喜的结果。

7. 重点论文

P. Haffner, G. Tur, and J. H. Wright, “Optimizing svms for complex call classification,” in Acoustics, Speech, and Signal Process- ing, 2003. Proceedings.(ICASSP’03). 2003 IEEE International Conference on, vol. 1. IEEE, 2003, pp. I–632.
R. Sarikaya, G. E. Hinton, and B. Ramabhadran, “Deep belief nets for natural language call-routing,” in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on. IEEE, 2011, pp. 5680–5683.
A. McCallum, D. Freitag, and F. C. Pereira, “Maximum entropy markov models for information extraction and segmentation.” in ICML, vol. 17, 2000, pp. 591–598.
C. Raymond and G. Riccardi, “Generative and discriminative algorithms for spoken language understanding.” in INTERSPEECH, 2007, pp. 1605–1608.
I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence learning with neural networks,” in Advances in neural information processing systems, 2014, pp. 3104–3112.
W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, attend and spell,” arXiv preprint arXiv:1508.01211, 2015.
D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” arXiv preprint arXiv:1409.0473, 2014.
X.Zhang,J.Zhao,andY.LeCun,“Character-levelconvolutional networks for text classification,” in Advances in Neural Informa- tion Processing Systems, 2015, pp. 649–657.

8. 代码编写

# 后续追加代码分析

参考文献

Liu, B., & Lane, I. (2016). Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling. Interspeech.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,298评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,701评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,078评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,687评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,018评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,410评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,729评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,412评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,124评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,379评论 2赞 242
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,903评论 1赞 257
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,268评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,894评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,014评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,770评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,435评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,312评论 2赞 260