用序列稀疏恢复实现可解释的循环神经网络

【原创翻译】

Interpretable Recurrent Neural Networks Using Sequential Sparse Recovery

摘要

循环神经网络能高效的处理序列数据。但是,RNNs通常被视为一个黑箱子模型,而其内部的结构和参数的学习都是不能解释的。在这篇文章中,我们提出了对于解决序列稀疏恢复问题的基于序列迭代软阈值算法(SISTA)的可解释的RNN,其使用稀疏隐向量对一系列相关观测值进行建模。SISTA-RNN结果的结构是由SISTA的计算结构所定义的,该结果是一个新型的RNN网络结构。而且,作为标准的统计模型,SISTA-RNN得到的权值更容易的解释,其中包括稀疏字典、迭代步骤的大小,和正则化参数。另外,在具体的序列压缩感知任务中,SISTA-RNN使得训练的时间更快,得到的结果也比包括长短时记忆(LSTM)RNNs在内的的传统黑箱RNNs效果要好。

1 前期相关工作的介绍

对特征学习的解释和机器学习模型的输出都是不确定的。主要的困难是深度学习方法的意义,由于高的计算复杂度,深度学习方法能够学习出有效的函数特征图。与其试图直接解释学习特征或着黑箱深度网络训练的结果,倒不如设计基于概率模型推理的深度网络结构。因为神经网络都是通过概率模型的推理来描述的,网络的学习权值和输出都保留了它们基于模型的意义。

对于基于模型解释的构建,一些前人的工作经常出现类似的稀疏模型方法。Gregor和LeCun[1]提出了迭代软阈值算法(LISTA)的稀疏编码,该方法通过学习编码和解码来提高原始的ISTA算法的速度和性能。Rolfe和LeCun[2]根据ISTA算法在稀疏系数非负约束的条件下构造了网络结构。在这些例子中,网络的非线性是通过一个线性单元(ReLUs)[3]来调整的,网络的权值是可解释稀疏编码参数的函数。Kamilov和Mansour[4]从数据集中提高了ISTA的非线性。我们通过对稀疏恢复的序列研究扩展了前人的研究工作。

回顾人类解释RNNs的过去的工作,Karpathy et al.[5]表明了LSTM显示了一些有意义的文本注释。Krakovna和Doshi-Velez[6]通过将隐马尔科夫和LSTMs组合来增加ARNNs的可解释性。与前人的这些工作不同,我们的目标不是人类的可解释性,而是模型的可解释性,这就意味着我们所提出的SISTA_RNN模型与不是基于明确的概率模型的LSTMs所使用的黑箱模型是不一样的。我们希望基于模型的网络是建立人类可解释模型的更好的一个出发点。

同样,对于现存的黑箱RNN,我们的SISTA-RNN模型能提供一个基于模型的解释。SISTA-RNN的一个单一的循环层,等价与另外一个最近提出的一个架构,即单一RNN(uRNN)[7][8],SISTA-RNN模型既不使用单一层的限制也不适用隐含的复杂值。uRNN模型已经显示了在不同的任务场景中要比LSTMs表现的好。本文的组织结构如下。首先,详细阐述了我们的方法是如何基于模型的可解释性深度网络进行设计的。然后,我们回顾了传统的RNNs结构同时提出了我们的SISTA-RNN模型。最后,我们给出了实验和数据并总结了实验结果。

2 可解释性深度网络的建立

传统的黑箱深度网络通过g函数给出输出结果

给定参数theta和输入X。参数theta是从训练集I输入输出对中最小化损失函数f得到的,该优化问题(1)是使用随机梯度下降法求解的。通常求解的theta对于人类来说不能直接的解释也不能作为统计模型的参数。

在本文中我们使用深度展开[9]的思想通过给出公式(2),来解决这个优化问题(1)。正如在公式(1)中,像之前一样 f 作为训练的损失函数,但是现在的 h 是一个通过theta得到的确定推断函数。这个推论函数试图通过解决另外一个优化问题 P ,该函数用通过参数theta与概率模型相联系。注意到,参数theta即包含一部分概率模型的模型参数又包括用来通过推断函数到优化函数P的超参数。因为 h 试图解决与标准概率模型相联系的一个优化问题,它的参数是很容易解释清楚的。例如,我们将theta看成是稀疏字典和正则化参数问题。

3 传统的黑箱RNN模型

在这里我们简单的回顾下传统的RNNs。RNNs经常是由多个层堆积起来创建的功能强大的网络[10]。

4 可解释的SISTA-RNN模型

首先我们先介绍本文所使用的具体概率模型。然后我们展现一个迭代的方法来推论真正的降噪信号,即序列迭代软阈值算法(SISTA),对应与一个特殊类型的RNN架构,该架构规定不同节点之间连接的传统RNN网络。

SISTA-RNN使用下面的概率模型:


这就是说,观察序列的每一个元素

5 实验和结果

我们使用与Asif和Romberg[12]相似的实验计划,它被设计用来测试序列的压缩感知算法。在这些计划中,维度N=128的信号向量y序列是128X28灰度图像的列。因此,时间维度实际上是列索引,而且所有序列的长度都是T=128。所有的图像都是来自Caltech-256数据集。我们将彩色图像都转化为灰度图像,夹出来的中心广场区域,并采用双三次插值将图像调整到128×128的大小。训练数据集包括24485张图片,验证集和测试集都是由3061张图像组成。

6 总结

我们展示了SISTA是如何对应一个概率模型的推理,且能够视为深度循环网络SISTA-RNN。SISTA-RNN模型的训练权重能够在概率模型元素上是解释通的。而且,SISTA-RNN模型比之前的两个黑箱RNN模型在具体的图像压缩感知上表现效果更好。通过这个充满希望的初始结果,我们试图将SISTA-RNN模型应用到其他类型的数据集和将来对基于模型的深度网络帮助人类的理解上。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容