【AAAI Oral】利用DeepMind的DQN解数学应用题，准确率提升15%

本文由「AI前线」原创，原文链接： http://dwz.cn/7nBdQV

本文经阿凡题研究院授权发布

作者｜王磊，张东祥，高联丽，宋井宽，郭龙，申恒涛

AI 前线导读： ”增强学习和人类学习的机制非常相近，DeepMind 已经将增强学习应用于 AlphaGo 以及 Atari 游戏等场景当中。作为智能教育领域的引领者，阿凡题研究院首次提出了一种基于 DQN（Deep Q-Network）的算术应用题自动求解器，能够将应用题的解题过程转化成马尔科夫决策过程，并利用 BP 神经网络良好的泛化能力，存储和逼近增强学习中状态 - 动作对的 Q 值。实验表明该算法在标准测试集的表现优异，将平均准确率提升了将近 15%。”

研究背景

自动求解数学应用题（MWP）的研究历史可追溯到 20 世纪 60 年代，并且最近几年继续吸引着研究者的关注。自动求解应用数学题首先将人类可读懂的句子映射成机器可理解的逻辑形式，然后进行推理。该过程不能简单地通过模式匹配或端对端分类技术解决，因此，设计具有语义理解和推理能力的应用数学题自动求解器已成为通向通用人工智能之路中不可缺少的一步。

对于数学应用题求解器来说，给定一个数学应用题文本，不能简单的通过如文本问答的方式端到端的来训练，从而直接得到求解答案，而需要通过文本的处理和数字的推理，得到其求解表达式，从而计算得到答案。因此，该任务不仅仅涉及到对文本的深入理解，还需要求解器具有很强的逻辑推理能力，这也是自然语言理解研究中的难点和重点。

近几年，研究者们从不同的角度设计算法，编写求解系统，来尝试自动求解数学应用题，主要包括基于模板的方法，基于统计的方法，基于表达式树的方法，以及基于深度学习生成模型的方法。目前，求解数学应用题相关领域，面临训练数据集还不够多，求解算法鲁棒性不强，求解效率不高，求解效果不好等多种问题。由于数学题本身需要自然语言有足够的理解，对数字，语义，常识有极强的推理能力，然而大部分求解方法又受到人工干预较多，通用性不强，并且随着数据复杂度的增加，大部分算法求解效果急剧下降，因此设计一个求解效率和效果上均有不错表现的自动求解器，是既困难又非常重要的。

相关工作

算术应用题求解器：

作为早期的尝试，基于动词分类，状态转移推理的方法，只能解决加减问题。为了提高求解能力，基于标签的方法，设计了大量映射规则，把变量，数字映射成逻辑表达式，从而进行推理。由于人工干预过多，其扩展困难。

基于表达式树的方法，尝试识别相关数字，并对数字对之间进行运算符的分类，自底向上构建可以求解的表达式树。除此之外，会考虑一些比率单位等等的限制，来进一步保证构建的表达式的正确性。基于等式树的方法，采用了一个更暴力的方法，通过整数线性规划，枚举所有可能的等式树。基于树的方法，都面临着随着数字的个数的增减，求解空间呈指数性增加。

方程组应用题求解器：

对于方程组应用题的求解，目前主要是基于模板的方法。该需要将文本分类为预定义的方程组模板，通过人工特征来推断未知插槽的排列组合，把识别出来的数字和相关的名词单元在插槽中进行填充。基于模板的方法对数据的依赖性较高，当同一模板对应的题目数量减少，或者模板的复杂性增加时，这种方法的性能将急剧下降。

本文的主要贡献如下：

第一个尝试使用深度增强学习来设计一个通用的数学应用题自动求解框架

针对应用题场景，设计了深度 Q 网络相应的状态，动作，奖励函数，和网络结构。

在主要的算术应用题数据集上验证了本文提出的方法，在求解效率和求解效果上都取得了较好的结果。

方案介绍

基于深度 Q 网络的数学应用题求解器

本文提出的框架如上图所示。给出一个数学应用题，首先采用数字模式提取用于构建表达式树的相关数字，然后根据重排序制定的规则，对提取出来的相关数字进行顺序调整，比如对于“3+4*5”, 我们希望优先计算4*5，这里的数字 5，对应的文本段是“5 元每小时”，显然这里的数字“5”的单位是“元 / 小时”，当数字“4”的单位是“小时”，数字“3”的单位是“元”，遇到这种情况，调整 4 和 5 放到数字序列的最前面，随后，用已排好序的数字序列自底向上的构建表达式树。

首先，根据数字“4”和数字“5”各自的信息，相互之间的信息，以及与问题的关系，提取相应的特征作为增强学习组件中的状态。然后，将此特征向量作为深度 Q 网络中前向神经网络的输入，得到“+”，“-”，反向“-”，“*”，“/“，反向”/“六种动作的 Q 值，根据 epsilon-greedy 选择合适的操作符作为当前的动作，数字”4“和”5“根据当前采取的动作，开始构建表达式树。下一步，再根据数字”4“和数字”3“，或者数字”5“和数字“3”，重复上一步的过程，把运算符数字的最小公共元祖来构建表达式树。直到没有多余相关数字，建树结束。随后将详细介绍深度 Q 网络的各个部件的设计方式。

状态：对于当前的数字对，根据数字模式，提取单个数字，数字对之间，问题相关的三类特征，以及这两个数字是否已经参与表达式树的构建，作为当前的状态。其中，单个数字，数字对，问题相关这三类特征，有助于网络选择正确的运算符作为当前的动作；数字是否参与已经参与表达式树的构建，暗示着当前数字对在当前表达式树所处的层次位置。

动作：因为本文处理的是简单的算术应用题，所以只考虑，加减乘除四则运算。在构建树的过程中，对于加法和乘法，两个数字之间不同的数字顺序将不影响计算结果，但是减法和除法不同的顺序将导致不同的结果。由于，我们实现确定好数字的顺序，所以添加反向减法和反向除法这两个操作是非常有必要的。因此，总共加减乘除，反向减法和除法 6 种运算符作为深度 Q 网络需要学习的动作。

奖励函数：在训练阶段，深度 Q 网络根据当前两个数字，选择正确的动作，得到正确的运算符，环境就反馈一个正值作为奖励，否则反馈一个负值作为惩罚。

参数学习：本文采用了一个两层的前向神经网络用于深度 Q 网络计算期望的 Q 值。网络的参数θ将根据环境反馈的奖励函数来更新学习。本文使用经验重放存储器来存储状态之间的转移，并从经验重放存储器中批量采样 (s,a,s',r)，用于更新网络参数θ。模型的损失函数如下：

利用损失函数的梯度值来更新参数，来缩小预测的 Q 值和期望的目标 Q 值的差距，公式如下：

算法流程如下：

实验

本文采用了 AI2, IL,CC 这三个算术应用题数据集进行实验。其中 AI2 有 395 道题目，题目中含有不相关的数字，只涉及加减法。IL 有 562 道题目，题目中含有不相关的数字，只涉及加减乘除单步运算；CC 有 600 道题，题目中不含有不相关的数字，涉及加减乘除的两步运算。

三个数据集准确率如下图：

观察上述实验结果发现，本文提出的方法在 AI2，CC 数据集上取得了最好的效果。ALGES 在 IL 上表现很好，但是在 AI2 和 CC 数据集上表现却很差，这从侧面证明了我们的方法有更好的通用性。UnitDep 提出的单位依赖图对只有加减运算的 AI2 数据集没有明显的效果，其增加的 Context 特征在 CC 数据集上有取得了明显的效果，但是却在 AI2 数据集上效果明显下降，这里表现出人工特征的局限性。对于本文提出的方法，重排序在 CC 数据集上，提升效果明显，由于 AI2 只有加减运算，IL 只涉及单步运算，所以在这两个数据集上效果不变。

除此之外，本文还做了单步和多步的断点分析，实验效果表明，本文提出的方法在多步上表现十分优异，实验结果如下图：

运行时间如下图：

观察单个题目求解需要的时间，我们可以发现，多步运算的数据集 CC，在时间上明显耗费更多。ALGES 由于要枚举所有可能的候选树，因此耗费时间最长。本文提出的方法，求解效率仅次于只有 SVM 做运算符，和相关数字分类的 ExpTree。

平均奖励和准确率的走势如下图：

总结

本文首次提出了一个用于求解数学应用题的增强学习框架，在基准数据上其求解效率和求解效果展现出较好的效果。

未来，我们将继续沿着深度学习，增强学习这条线去设计数学应用题自动求解器，来避免过多的人工特征。同时在更大更多样化的数据集上，尝试求解方程组应用题。

论文题目:《MathDQN: 利用深度增强学习求解算术应用题》

英文:《MathDQN: Solving ArithmeticWord Problems via Deep Reinforcement Learning》

Paper URL:

http://cfm.uestc.edu.cn/~zhangdongxiang/papers/mathdqn.pdf

团队： 阿凡题研究院、电子科技大学、北京大学

作者： 王磊，张东祥，高联丽，宋井宽，郭龙，申恒涛

更多干货内容，可关注AI前线，ID：ai-front，后台回复「AI」、「TF」、「大数据」可获得《AI前线》系列PDF迷你书和技能图谱。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,117评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,328评论 1赞 293
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,839评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,007评论 0赞 206
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,384评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,629评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,880评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,593评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,313评论 1赞 243
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,575评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,066评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,392评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,052评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,082评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,844评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,662评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,575评论 2赞 270

【AAAI Oral】利用DeepMind的DQN解数学应用题，准确率提升15%

推荐阅读更多精彩内容