检索式人工智障识记

blog可能排版更好点

拖了一个多星期了都快拖到Final Presentation DDL了我这个懒癌晚期都看不下去了

好究竟是道德的沦丧还是人性的扭曲？欢迎来到这一期的「奇葩说之中华田园犬大解密」

在了解了基本的RNN家族之后

我们把步子迈得大一点直接对准目前检索式 chatbots研究前沿

首先 QA系统分为任务型，非任务型两大类

任务型就是像Siri这种，需要识别用户派遣的任务，然后完成相应的任务

而非任务则是主要是闲聊机器人，购物客服机器人

非任务按Answer的生成方式又可以分为 检索式 生成式

目前工业上落地的(效果好的)就是检索式

所以我们为了学术 ~~(找工作)~~ 来研究检索式对话Chatbots

检索式QA 和 生产式QA 最大的区别就是检索式只需要做encode 而生成式不仅仅要encode 还要decode

这个应该很好理解检索式只需要把query+Context encode 到向量然后计算Similarity，取最高的几个

但生成式 encode计算完之后还得根据计算值decode成语句返回给用户

这就是他们最大的区别当然我们这里讨论的是检索式

Base mind

检索式对话顾名思义就是从一堆语料库中通过检索 来匹配到相近的对话从而输出答案

注意这里有两个关键词一个是检索 另外一个是匹配

检索就是检查索引所以检索的关键就是把词变成词向量预处理成Index

匹配就是根据词向量计算出一个匹配值最简单就是计算Cosine Distance 当然这样效果很一般

于是就有一堆学者提出一堆模型

常规的做法有利用RNN家族获取句、文章粒度的信息

然后就开始论文串讲了

上古时代

话说盘古还没开天女娲还没补石后裔还没射日

那个时候还没有Word2vector 更不用说小学五年级就可以学得TF 对词向量的计算还都是传统的Hash优化思路

这个时候出现了一个名叫DSSM的模型[Po-Sen Huang et al. 2013] Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

image

这个模型创新点有

利用wordHash代替传统词袋模型从而达到降维效果
- word Hash 就是用把词前后加上#，然后每n个词做一个切割，比如说good->{#go, goo, ood, od#}
- 每个切割分量作为一维向量
- 因为英文中单词数量级远大于n个字母组合的数量级
- 且这种方案的Hash碰撞率较小 3字母表示仅为0.0044％
- WordHash可以看做是Word2Vector早期的方案
- 其基本思想每个词之间并非完全正交然后应该没有那么多独立的维度所以就可以压缩词向量大小
利用全神经网络对句子进行处理得到相对应的句粒度向量
- 文章利用三个隐藏层进行训练，第一个隐藏层为WordHash层有30K个节点，第二三层各有300个节点，输出层有128个节点，并使用随机梯度下降SGN训练

启蒙运动

随着word2Vec的提出再加上NN方法在NLP中进一步运用检索式QA有了不错的发展

但回顾之前的DSSM模型在计算出句粒度的向量之后就直接使用cosine distance 进行计算Similarity

直观感觉这样算效果不会太好于是这个时期就有一些学者提出一些改进Similarity计算方法的模型

`MV-LSTM`

就有学者提出由构造对齐矩阵然后再做池化的方式计算句粒度之间相似度的MV-LSTM模型[Shengxian Wan et al. 2015]

image

计算句子间的两两匹配度存入对齐矩阵从细粒度描述句子间关系
利用双向LSTM模型减少因为RNN时序遍历的特性导致模型结果更偏向于最后几个单词的现象
Similarity不只直接做cosine计算根据模型特性动态调整参数 $s(u,v)=f(u^TM^{[1:c]}v+W_{uv}[u;v])+b)$
处理最后一步使用多层感知机MLP对得到的结果进行压缩和分类因为效果较好这个做法在之后的论文中被广泛采用

`MM`

MM = Matching Matrix

这个模型[Liang Pang et al. 2016]主要是从多个角度构造对齐矩阵然后讲多个对齐矩阵类比图像处理一起喂入CNN中进行卷积池化操作算是交互式QA的开山之作

image

文章给出了三种对齐函数的计算方式 1. 存在判断: 该单词是否存在于另一个句子中 2. 点积 3. 余弦相似度

image

将多粒度分析出的对齐矩阵通过多重卷积进行训练

image

然后这种多粒度计算词、句之间关系的做法之后发展成交互式QA 现广泛应用于检索式QA模型中

`BiMPM`

BiMPM = Bilateral Multi-Perspective Matching

在前面学者的基础上进一步针对多角度句词匹配进行研究提出BiMPM模型[Zhiguo Wang et al. 2017]

image

文章提出四种匹配方式

Full Matching: 每个单词与需要匹配的句子的最后一个隐藏层输出向量进行Cosine计算
MaxPooling Matching: 每个单词与需要匹配的句子的每一个单词进行Cosine计算取Maximum
Attentive Matching: 每个单词与需要匹配的句子的每一个单词行Cosine计算然后用Softmax归一化 作为attention权重 然后再加权求和 得到的结果再做一次Cosine
Max Attentive Matching: 每个单词与需要匹配的句子的每一个单词行Cosine计算然后用Softmax归一化作为attention权重然后再取最大值 得到的结果再做一次Cosine

image

然后BiMPM还加上了双向处理不仅考虑从Query 推出Answer 还考虑到Answer 推出 Query

工业革命

慢慢的大家发现仅仅从词的角度去进行检索式QA不能达到很好的效果

尤其是在多轮对话中效果并不好于是能反映多角度关系且特别Work(这个很关键)的交互式就越来越流行

`Multi-view model`

说到交互式必须提到这篇论文Multi-view Response Selection for Human-Computer Conversation [Xiangyang Zhou et al. 2016]

虽然它不算完全使用了交互思想的论文但算作给交互打开了一些思路

然后看完这篇Paper LongLong Ago 才发现这篇论文是我老师写的 ~~（虽然他的名字藏在最后）~~

image

我们在研究多轮对话的时候很简单的一个想法就是把多轮用一些标识符(比如说_SOS_)拼接成一句单句然后这个单句就可以像上面一样计算对齐矩阵

image

但很显然这样做不会有太好的效果

于是这篇Paper 提出通过多角度 (Word Level, Utterance Level)

Utterance是指利用CNN 进行卷积池化得到Utterance Level的embedding squence 再经过一次Gated RNN (LSTM or GRU)过滤噪声

然后把两个维度得到的结果相加得到最终的结果

很显然直接相加得到的结果不能准确的反映多维度之间的关系但多维度的思路对后面的论文很有帮助

`SMN`

SMN = Sequential Matching Network

然后就到了大名鼎鼎的SMN [Yu Wu et al. 2017] (ym wuyu dalao)

SMN 把多粒度、基于交互的思想运用在多轮对话中

image

和前面的MM等模型一样 SMN采用了多粒度分析

一个对齐矩阵M1 是直接Word Embedding 得到的对应的就是Word Pairs
另外一个矩阵M2 是通过GRU计算得到的对应的是Segment Pairs

分别代表词粒度、句粒度

然后经过卷积、池化结合两个粒度的信息

然后再过一层GRU 过滤噪声 GRU得到的向量进行Match就可以获得匹配Score

这种多粒度的做法保证了即使CNN很浅，也能抽取出比较high-level的特征，得到高质量的utterance embedding[9]

这篇文章还对最后一个GRU进行优化给出了分别利用1. 最后一个隐藏层结果 $SMN_{last}$ 2. 中间每层的带权和 $SMN_{static}$ 3. 结合attention的一种表示 $SMN_{dynamic}$ 进行匹配的结果

得出dynamic 效果最优的结论

`DUA`

之前我们分析过RNNs家族的一些模型

在刚才的SMN模型中利用了GRU获得时序信息

那么如果把GRU换成RNN的其他模型呢

就有学者提出DUA模型[Zhuosheng Zhang et al. 2018]，把前面M1, M2分别换为GRU, self-attention

image

其实上面这个图画的不好

一个对齐矩阵M1 是通过GRU计算得到的对应的是Segment Pairs
另外一个矩阵M2 是先self-attentation 然后和embedding的结果拼起来再过一次GRU
- 这里的slef-attentation 没有使用position 所以没有带时序信息于是用GRU 捞一下有关时间的信息

之后的就和SMN基本一致实际效果比SMN更好一点

`DAM`

image

前面的SMN给了两层对齐矩阵那么为啥选两层不选三层四层 100层 8848层呢

于是有dalao借助 transformer (其实也就是 self-attentation 还记得Google Brain 那篇风骚的 Attention is All you need吧) 提出了Deep Attention Matching [Xiangyang Zhou et al. 2018]

构造了一些对齐矩阵

原始word embedding 矩阵
第一层Attention: 多轮Contetxt和Response 每个词
第二层Attention: 第一轮结果和新的Response

重复2.3H次就可以得到1+2H层（H为Transformer 层数）对齐矩阵

再把这2H+1维对齐矩阵喂到CNN中训练

DAM最核心的地方在于2H层Attention的构造 Paper中给出了具体的解释证明证明两个Attention 相互作用

目前DAM模型可以获得不错的结果

好基本上目前常用的模型介绍完了也许写完代码会有新的体会匿了

---未完待续期待下一个篇章---

Reference

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,716评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,558评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,431评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,127评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,511评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,692评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,915评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,664评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,412评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,616评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,105评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,424评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,098评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,096评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,869评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,748评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,641评论 2赞 271

检索式人工智障识记

Base mind

上古时代

启蒙运动

MV-LSTM

MM

BiMPM

工业革命

Multi-view model

SMN

DUA

DAM

Reference

推荐阅读更多精彩内容

`MV-LSTM`

`MM`

`BiMPM`

`Multi-view model`

`SMN`

`DUA`

`DAM`