综述:深度学习算法在FAQ中的应用(三)

CSRAN

本文介绍论文《Co-Stack Residual Affinity Networks with Multi-level Attention Refinement for Matching Text Sequences》的相关工作,本文是CAFE算法的扩展版,CAFE算法只计算了one-layer,而本文作者则计算了multi-layer。事实上简单的stacked layer并不会带来太大效果的提升,甚至可能导致效果变差,为了训练深层次的网络,常用的三种网络结构为highway net、residual net、dense net。本文参考三种网络的设计方式,设计了一个网络更深的CAFE。但是本人在复现论文效果的时候发现参考论文的方式,一直达不到论文的效果,因此对论文中的模型结构稍作修改,将stacked-LSTM去掉,然后直接用highway做多层的CAFE投影,发现效果还不错。

Input Encoder

首先将word representation和character representation进行拼接,然后经过2层的highway network进行特征非线性投影。

Multi-level Attention Refinement

这里就比较简单了,直接讲上面讲到的CAFE作为block,参考类似于residual network的方式,输出为input + 6。6为CAFE中抽取的特征:inter-attention有3维,intra-attention有3维。

Co-Stack Residual Affinity

Co-Stacking

Co-Stacking模块负责融合多层的特征输出a、b。回想我们最常用的相似得分计算,本文对其进行多层扩展,在多层中选择最大相似度的词。

Bidirectional Alignment

通过上面计算的相似矩阵,计算alignment representation。作者论文这里的描述较为模糊,感觉公式推导不过来,因此在实现的时候稍作修改,采用了alignment-pooling的方式进行实现。


Matching and Aggregation Layer

最后对多层representation和多层alignment representation进行特征增广,然后通过时序模型进行encode。这里作者只是单纯的对时序模型输出进行求和,本人实现的时候也稍作修改,参考之前的论文这里采用了MeanMax。

Output and Prediction Layer

这里通过2层的全连接神经网络抽取最终用于classification的representation,然后通过softmax进行归一。

MwAN

本文介绍论文《Multiway Attention Networks for Modeling Sentence Pairs》的相关工作,本文的主要思路是如何利用不同attention所取得的representation来加强特征表示,作者这里采用了大量的attention计算用于对结果进行加权求和。1)作者采用4种不同的attention计算:concat-attention、dot-attention、bilinear-attention和minus-attention;2)由attention计算得到的alignment representation拼接上原始的representation经过一个gate控制信息传播,接着经过一个GRU网络对拼接之后的特征编码,这个时候就会得到四种不同的特征;3)如何对这四种特征进行融合,这里仍然采用attention进行加权融合;4):融合之后的特征再经过一个GRU网络进行最后的编码,GRU输出的是每个词的输出,因此需要对其进行aggregate;5)本文再次对文本Q计算attention加权聚合所有词,最后通过该聚合后的特征对之前的GRU输出做最后的attention加权输出。可以看到整个模型应用的大量的attention计算,就是为了避免简单取max-pooling、mean-pooling导致信息损失的问题。原谅我的无能,参考作者的思路进行实现,并未能取得作者的效果。

Encoding Layer

本文encoding layer与之前稍有不同,本文拼接word embedding和context embedding作为input representation,其中context embedding通过ELMo预训练得到。然后对input representation通过GRU网络进行编码。

Multiway Matching

本文针对2个文本中不同词,设计了4种不同的attention函数:concat attention、bilinear attention、dot attention和minus attention。

文本P第t个词与文本Q中每个词计算一次attention,然后通过该attention对文本Q进行加权用于表示文本P第t个词。

Aggregation

以concat attention为例,对concat之后的特征通过一个gate决定concat之后的特征重要程度,类似于信息控制,然后经过GRU网络进行特征编码。

接下来需要对所有的attention输出进行混合聚合,本文采用attention机制对各个attention输出进行加权自适应求和

然后,将混合聚合后的特征采用GUR编码

Prediction Layer

对文本Q的编码特征通过attention-pooling选择最要的信息。然后通过该特征与混合编码特征计算co-attention,最后通过该co-attention对混合编码特征加权求和

最后,整个框架采用交叉熵作为损失函数


DRCN

本文介绍论文《Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information》的相关工作,本文网络结构相对简单,主要参考了dense-net的网络结构,然后在concatenate时添加attentive information来加强多层网络特征编码能力。

Word Representation Layer

本文input representation由四部分组成:静态word embedding、动态更新word embedding、character embedding和句子间相同词。

Densely connected Recurrent Networks

普通的stacked RNNs由上一层的输出直接做为下一层的输入,但是由于梯度消失和梯度爆炸的问题导致模型非常难以训练

为了避免上面的问题,residual connection通过shortcut完成反向传播。

然而求和运算会阻碍信息的传播,参考densenet的网络设计,作者通过concatenate先前所有层的输出作为下一层的输入,concatenate运算保证了先前隐层的所有特征。

Densely-connected Co-attentive networks

作者通过编码之后两个句子向量计算co-attention


然后将co-attentive information、上一层rnn输出和上一层rnn输入concatenate


Bottleneck component

随着网络层数越深,网络参数越来越大。为了避免这个问题,作者采用autoencoder对特征进行压缩,在减少特征数的同时还能保持原始的信息。

Interaction and Prediction Layer

在经过多层网络之后,作者通过max-pooling对特征进行aggregate。然后对question和answer特征进行组合,最后通过2层的全连接层抽取用于classification的特征。

DMAN

本文介绍论文《Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference》的相关工作,文章涉及的内容比较多包含了迁移学习、增强学习和NLI。首先通过特征迁移利用其他数据来丰富目前的特征;在多人标注时,通用的做法是少数服从多数,例如:neural, neural, entailment, contradiction, neural,最终的标签是neural,非0即1的标签太过生硬未能体现出该条样本的置信度,作者这里采用预测标签在该条文本标注集的占比做为reward,因此最终的目标是交叉熵损失最小,reward最大。

Sentence Encoder Model

首先定义source domain的网络结构:通过BiLSTM对句子进行编码,然后对编码特征进行抽取(max-pooling特征和最后时刻特征)




Discourse Marker Augmented Network

Encoding Layer
Interaction Layer

文本匹配模型常用的就是特征交叉,本文做特征交叉时考虑了source domain的特征

通过interaction matrix计算align representation


然后通过align representation做特征增广

最后通过BiLSTM对特征编码,并对其输出采用attention加权求和


Output Layer
Training

在训练阶段时,作者结合监督学习的交叉熵损失和增强学习的reward共同优化模型,其中reward为预测标签在标注者中的占比。




SRL

本文介绍论文《I Know What You Want: Semantic Learning for Text Comprehension》的相关工作,通过对input sentence做语意角色标注来训练tag embedding,然后通过该embedding加强词的表征能力,基础模型采用的ESIM,不同之处在于用ELMo替换Glove embedding,然后加入SRL embedding,其他模型结构不变。最后作者通过实验对SRL embedding、ELMo embedding带来的收益进行了详细的评估,文章的大部分篇幅也是对SRL建模进行了详细的介绍。

下面简单介绍一下文章中的SRL网络结构

Word Representation

word representation包含了两部分:word embedding和SRL embedding,然后进行concat得到最终的word representation。

Encoder

编码层为BiLSTM组合highway network做多层的叠加(单独叠加BiLSTM不一定能获得模型效果提升,甚至会带来性能恶化(由于梯度消失和梯度爆炸))

Model Implementation

从最后的实验结果来看,SRL embedding确实带来了效果的提升

参考文献

  • Co-Stack Residual Affinity Networks with Multi-level Attention Refinement for Matching Text Sequences
  • Multiway Attention Networks for Modeling Sentence Pairs
  • Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information
  • Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference
  • I Know What You Want: Semantic Learning for Text Comprehension
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,511评论 1 330
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,495评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,595评论 0 225
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,558评论 0 190
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,715评论 3 270
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,672评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,112评论 2 291
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,837评论 0 181
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,417评论 0 228
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,928评论 2 232
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,316评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,773评论 2 234
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,253评论 3 220
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,827评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,440评论 0 180
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,523评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,583评论 2 249