Focuing Attention论文阅读笔记

介绍

由于最近一直在做scene text recognition方面的任务,所以不断在阅读最新的论文,这一篇论文"Focusing Attention: Towards Accurate Text Recognition in Natural Images"是17年9月8号出的新论文,由海康威视视觉实验室联合几个上海高校发出,提出了"attention drift",具有一定的思考意义。

目前存在的问题

自然图片的文本识别一直是一个热门的研究领域,目前主流的做法由之前的CNN+RNN+CTC变成了CNN+attention-based encoder-decoder framework,这也是受到了机器翻译中seq2seq模型的影响。

但是目前的模型存在着一些问题,对于复杂图片,比如有重叠,复杂背景,不同字体,大小或者是低像素的图片,模型都没有办法很好的识别,下面就是几个小例子。


Paste_Image.png

对于出现的这种问题,论文提出了一种观点,即注意力偏移,可以看看下面这张图片。


Paste_Image.png

图a所示就是一般的 attention-based 网络结构,图中有一些黄色的十字,这表示在识别每一位字符的时候注意力集中的位置,可以发现前面"8"和"3"的注意力机制还比较好,但到了后面"K"和"M"的时候,注意力已经偏掉了,所以导致最后识别出现错误。而本篇论文提出的Focusing Network能够成功的纠正注意力的偏移,让注意力重新集中到正确的位置,这是本文最大的创新。

FAN Method

本篇论文的模型分为两个,第一个是Attention Network,第二个是Focusing Network,下面我们来依次解释一下这两个网络。

Attention Network(AN)

目前都是先使用CNN和LSTM的encoder,得到图片的特征向量Encoder(I) = ($h_1, \cdots, h_T$)然后使用attention-based decoder从图片I直接生成目标序列($y_1, \cdots, y_M$)。

在生成$y_t$的第t步,使用注意力机制,将第t-1步的隐藏层$s_{t-1}$传入,然后使用下面的公式将其和特征向量h结合在一起。

$$
e_{t, j} = v^T tanh(Ws_{t-1} + V h_j + b) \
\alpha_{t, j} = \frac{exp(e_{t, j})}{\sum_{j=1}^T exp(e_{t, j})}
$$

这里得到的$\alpha_{t, j}$就是注意力权重,其中v,W,V和b都是需要训练的参数。然后应用注意力机制到特征向量上,将注意力权重和特征向量做线性组合。

$$
g_t = \sum_{j=1}^T \alpha_{t, j} h_j
$$

然后将前一时间步的隐藏状态$s_{t-1}$和$g_t$还有输入一起传入RNN中,通过一个线性变化将RNN的输出转换到最后的类别输出上。

$$
s_t = RNN(y_{t-1}, g_t, s_{t-1}) \
y_t = Generate(s_t, g_t)
$$

这样就得到了最后的预测结果。

Focusing Network(FN)

在attention model,通过CNN提取出来的每个特征向量都可以映射到图片中的一个部分,那么对于每一个字符的输出,我们可以反向定位会其注意力在图片中的位置,定位之后我们就可以对其进行纠正。所以Focusing-mechanism的主要步骤是下面两个:1)计算每个预测label的注意力中心; 2)对注意力中心生成一个概率分布来进一步调整注意力的位置。这个过程可以由下面的图片清晰的描绘出来。

Paste_Image.png

计算注意力中心

由卷积网络的机制,我们可以通过下面的公式来求出在L层中的(x, y)点在L-1层中感受野的bounding box。

$$
x_{min} = (x - 1) \times stride_W + 1 - pad_W \
x_{max} = (x -1) \times stride_W - pad_w + kernel_W \
y_{min} = (y - 1) \times stride_H + 1 - pad_H \
y_{max} = (y - 1) \ times stride_H - pad_H = kernel_H
$$

通过上面的公式,在t步,我们能够计算出每个特征向量$h_j$的在原始图片中感受野的中心点$c_{t, j}$,然后通过注意力权重计算出t步label在原图中的注意力位置$c_t$,$c_t = \sum_{j=1}^T \alpha_{t, j} c_{t, j}$。

目标区域的注意力集中

有上面的步骤,在生成字符的每一步我们都能够得到一个注意力中心,下面我们对这个中心取一个小patch $F_t = Crop(F, c_t, P_H, P_W)$,这个patch的大小要大约能够框住这个字符。

我们可以通过下面的公式计算出他的能量分布

$$
e_{t}^{(i, j)} = tanh(R g_t + S F_t^{(i ,j)} + b)
$$

其中R,S和b都是训练的参数。

最后,我们通过softmax能够将其转变为区域上的概率分布。

$$
P_t^{(i, j, k)} = \frac{exp(e_t^{(i, j, k)})}{\sum_{k'}^{K} exp(e_t^{(i, j, k'))}}
$$

其中K表示label的类别数。

FAN Training

FAN可以进行端到端的训练,使用传统的反向传播算法,AN和FN可以合在一起,最后的loss是由这两个loss的凸组合构成,$L = (1-\lambda)L_{attn} + \lambda L_{focus}$,经过实验,$\lambda$取0.01比较好。最后在公开数据集上测试的结果发现FAN比其他的模型都有较大的效果提升。

总结

在本篇文章中,作者针对encoder-decoder网络结构中的一些bad case,对这些bad case进行分析,找到了一些可能存在的原因,同时根据这个原因进行网络的构建,在原结果上有了一定的提升,这给我们做科研一些启发,即在现有的模型上进行复现结果,然后对结果中的一些错误加以分析,根据这些分析想一些改进方法。


欢迎查看我的知乎专栏,深度炼丹

欢迎访问我的博客

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容