增强学习于交易之DDR

增强学习交易之DDR

论文Deep Direct Reinforecement Learning for Financial Signal Representation and Trading是Yue Deng等于17年3月发表在IEEE Transaction on Neural Networks and Learning System期刊上的(实际投稿时间是15年)。
这篇论文

1. 摘要

这篇论文是基于2001年发表的Learning to Trade via Direct Reinforcement论文的方法DRL(direct rl)，加了

deep network来为市场状态提取更深层的特征表达；
fuzzy representation用来降低市场不确定性，模糊化表达市场的状态。
另外也给出了网络的训练方法task-aware BPTT。实验在三个商品期货数据上进行验证，也与DRL, LSTM等方法做了对比。

2. 介绍

增强学习是agent在环境中自我学习，寻找策略的过程，在金融交易里就是学习如何在观察市场状态环境后，做出一个能让未来收益最大化的交易动作，比如我在观察股票行情后，是决定买还是卖。这个动作是可以多样的，最简单的买卖，看涨看跌中立，也可以是多只金融产品的投资占比等。
RL在交易中有两个挑战：

对市场环境状态的表达（特征）。
根据当前状态以及先前动作等做出决策。
第一点，金融市场往往是多变的，充满了大量噪声，波动，这就导致了价格曲线的不稳定性。目前有许多人工提取的特征，比如移动平均线，减少了噪声，反应了市场的总体趋势。但是这些特征有些依赖于专家，领域知识，不能完整或深层次地表达市场环境。为了解决这个问题，文章使用AE，模糊表达来对市场状态提取特征。
第二点，使用了RNN形式，从当前状态和上一个动作到当前动作的直接映射。

3. 算法DDR

Direct Reinforcement Trading （DRL）

文章是基于DRL的，所以这一节会先介绍DRL：
定义：
价格 p1, p2, ..., pt, ...
回报 zt = pt - pt-1
决策 δt ∈ { long, neutral, short} = {1, 0, -1} 其中long是看涨，neutral是中立，short是看跌。

收益

其中δt-1zt是执行决策δt-1后得到的回报，c是交易费用，且仅当两次决策不一样时（毁约）才需要交费。
在周期1到T的累积收益函数

最直接的就是求和

其他复杂的函数比如加了风险调整的收益等也可以作为目标函数。

好了，现在的目标就是如何定义策略的结构和学习方法。

DRL

策略

其中 $f_t$ 是特征向量，在DRL中ft = [z_t-m+1, ..., z_t]，即过去m个回报作为特征。然后特征经过线性变换，在加上上一次的动作(构成循环)，经过tanh函数得到-1到1的值，作为当前动作。

在DRL中，direct指的是直接从状态到动作映射，而不是学习一个值函数V(或者动作值函数Q)。论文中的解释是这样的：

In the conventional RL works, the value functions defined in the discrete space are directly iterated by dynamic programming. However, as indicated in [17] and [19], learning the value function directly is not plausible for the dynamic trading problem, because complicated market conditions are hard to be explained within some discrete states.

大致意思就是传统RL是针对离散状态空间，对于交易问题，很难用几个离散状态来表示复杂的市场状态。其实这种说法是不妥的，因为值函数是可以表示连续变量(无穷变量)的。就像游戏一样，输入的游戏画面就是大量的状态，仍然可以用DQN来学习Q函数。

DNN 与 fuzzy 模糊表达

在drl的基础上，用dnn来提取特征。
市场的行情是有很多噪声，波动的，为了减少不确定性，使用了fuzzy learning. 就是对原始数据进行模糊表达，相当于预处理。
模糊表达将每个数据表达为k个模糊成员组(fuzzy membership groups)，比如对于市场行情，可分为增长，下降，无趋势三组。对于每个组会有一个组函数vi() R->[0, 1]：

可以看出是一个高斯函数。每一维会经过组函数得到3个组对应的值，值越大说明属于这个组的概率越大，越接近中心点
最终，这个优化的目标可以表示为

optimal objective function

参数学习

介绍完架构以及优化函数后，如何得到模型参数呢？文章先初始化参数，然后再进行调优fine-tuning.

(1)初始化

fuzzy: 使用k-means将数据聚为三类，分别算出均值和方差作为高斯函数的参数。
dnn part: 这部分的初始化其实就是一个深度置信网络dbn。使用三层结构，定义loss为
公式
从x重构到x，训练完后把最后一层去掉，如隐藏层作为特征。重复n次。
DRL part: 固定前面参数，优化drl部分的参数。

(2)fine tuning （task-aware BPTT）

根据目标函数UT和链式规则对参数求导：

gradient of function Ut

第二个式子是一个递归的形式，我们将网络按时间展开，可以得到

BPTT

展开后对每个时间段我们能求得一个梯度，然后将每个参数的所有梯度取平均。这是对δt求得的梯度，另外我们对每个Rt都要算一次梯度，然后求和（平均？），最后我们得到参数的梯度的更新值。
另外加了红线部分，是对Ut-1，Ut-2,.... 也进行求导。文中说明是为了解决DNN部分梯度消失的问题。这两个部分称为1) the previous time stack (lower order time delay) and 2) the reward function (learning task) 作者将这种方式的权重更新称为task-aware BPTT。

（另外一种对红线部分的理解是对Rt-1，Rt-2的求导）

算法总结

最终，用伪代码表示为：

algorithm

4. 实验

实验设置

（1）实验选取了三个期货合约: 股指期货IF, 白银期货AG，白糖期货SU，用的是每分钟的数据(属于T+0):

prices

期货的一些信息：

summary_of_contracts

CNY/pnt是内在价值，每增长或下降一个point所能得到的回报；TC，c是交易费用（考虑其他风险因素，实际上高于真实的5倍）。
（2）模型的参数

输入是过去45min的历史价格加上过去3h, 5h, 1 day, 3 day, 10day的变化值，一共50个输入，得到的fuzzy层就是150；
DNN层设置是128，128，128，20.

训练

训练集：前15000点用作训练模型；当模型在测试/预测了5000个点后，会用最近的15000点作为新的训练集，重新训练一次模型，让模型能拟合最近数据。
验证集：12000用作训练，3000用作验证，防止过拟合
训练过程：early stopping；learning rate；100epoch
文中用task-aware BPTT和BPTT两种方法分别训练，进行对比，结果如下图：

可以看出用了task-aware效果提升了。

实验结果

文中将提出的DDR，FDDR与DRL，SCOT进行了对比。
前面提到的累积回报函数记为TP；另一个常用可替换的收益函数是夏普率SR（单位风险得到的收益）：

论文对两个目标分别做了实验。

P&L是profit & loss。第一行是期货价格，第二行是以TP作为收益函数的，第三行是以SR作为收益函数。结论就是DDR，FDDR好于DRL，SCOT；不同函数的区别就不是很明显。
最后的收益用表格展示就是：

与基于预测的DL方法对比

对比的DL有CDNN，RNN和LSTM。预测模型就是一个softmax方式的三分类。
metrics: PR(profitable rate)，TT(trading times).

收益率都是很小的，比一半多一点，但是最终还是有收益的。交易次数是前三个方法多，FDDR只有他们的十分之一左右。如果不考虑cost，那么前三个的收益是要高于FDDR的；考虑cost时，其他方法因为交易次数多使得手续费高，收益就降低了许多。
这种结果的原因是FDDR是考虑了上一个动作和交易费用的，所以交易次数就少了。但是可以看出LSTM等方法的潜力，如果他们也把费用考虑在内的话。

S&P 500验证

S&P500是标准普尔500股票指数(美国)，数据从1990到2015年，以天为间隔共6500条记录。其中2000条用于训练，每个100训练一次。
因为指数很受经济危机影响，所以将其他国家的股票指数变化也加入作为特征，包括英国，香港，中国等。将多特征的FDDR记为multi-FDDR。实验结果为：

在2010后multi-FDDR才超过FDDR，作者的解释是在2010年后，越来越多的算法交易公司参与到市场中，导致价格是多相关的。

不同参数的影响(鲁棒性)

测试的参数有DNN层数l，节点数N，展开的时间段(time stacks) τ。

可以看出层数越深，效果变好；节点数和时间段的影响就不是很大。

5. 总结

文章在DRL的基础之上，用了模糊表达和多层神经网络来提取特征。DRl有别于建模值函数，是一种从状态到动作的直接映射，且考虑了上一动作和交易费用在内，取得还不错的结果。
事实上，论文有些地方没有讲明白，比如动作输出是-1到1的连续值，而真正交易动作是-1，0，1，作者没有给出每个的范围(可能在DRL论文有吧)。第二点就是BPTT中的红线部分含义了，如果有人也读了论文可以一起讨论讨论。

6. 想法

状态表达方式；
对过去历史的建立的模型，像LSTM这种长短时记忆时序模型等；
上一动作；
模糊表达这个也是有点意思的，不过文章中的方式我是不是很认可的，感觉就是一个高斯激活函数；
训练方法，用值函数形式；
多尺度：文中也用了几小时，几天前数据，也算是一种多尺度吧；
多模态：结合多种其他市场行情；像交通预测中的股票embedding，得到不同股票间语义信息，比如相同行业间相关性是比较高的；股民情感分析；新闻文本数据，事件；....
GAN生成序列用于加强训练；
........暂时想到这么多，还是有挺多可以研究的地方。当然了，这些是要一步一步做起的。

最后编辑于：2018.07.20 10:57:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,585评论 4赞 365
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,923评论 1赞 301
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 110,314评论 0赞 248
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,346评论 0赞 214
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,718评论 3赞 291
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,828评论 1赞 223
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,020评论 2赞 315
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,758评论 0赞 204
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,486评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,722评论 2赞 251
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,196评论 1赞 262
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,546评论 3赞 258
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,211评论 3赞 240
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,132评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,916评论 0赞 200
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,904评论 2赞 283
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,758评论 2赞 274