LightGBM 实战：波动率预测(2)

在上一篇文章 LightGBM 实战：波动率预测(1) 中，我们介绍了 LightGBM 的基本用法。本篇将侧重从两个方面介绍进阶方法：

如何提取更好的特征
如何调节 LightGBM 参数

最终结果是将预测误差从 0.24 降低到了 0.19。这只是 KFold 验证集的结果，因为比赛已结束，没办法提交看看了，排名第一的似乎可以做到 0.18 以内。

本项目代码已上传 GitHub：LightGBM-Volatility-Predict.

1 更好的特征

实质上这是一种根据对业务的理解，不断尝试组合基础信息的过程。对于新构建的特征，可以通过训练结果是否有提升、“特征重要度“是否较高来判断是不是一个好的特征。

1.1 单个 stock 的特征

我们的目标是预测未来 10 分钟的波动率，那么哪些特征是好特征呢？波动率反应的是价格变化剧烈程度。理论上，当某个股票流动性不佳（即买卖价差大、挂单数量少）时，它的波动率会显著上升。此外，成交频率、挂单撤单频率等也可以纳入考虑。

1.1.1 时间窗口统计特征

现实中的股票价格变化并不是一个 Markov 过程。但是，显然距离较近的事件对预测影响较大。因此，对于训练数据，由于是以 10 分钟为一个 time_id，我们可以考虑将其更进一步细分，例如，100 秒为一个 batch。将原本的 stock_id-time_id 两层结构细分为三层：stock_id-time_id-batch_id。

在生成训练数据时，每个 time_id 下多个 batch_id 之间是平行的特征，例如：

一段时间平均交易量

1.1.2 最后时刻特征

如果只有一些类似于均值的统计特征，我们会忽略一个重要的信息：在要预测的接下来的 10 分钟，初始状态是怎样的？

因此，我们有必要保留 book 每个 time_id 的最后一条，在这里我记录了 book 的买卖差价以及每个 level 的总挂单量：

    # last book state
    last_state = raw_book.drop_duplicates(["time_id"], keep="last").reset_index(
        drop=True
    )
    book_features["last_total_volume_lv1"] = last_state.bid_size1 + last_state.ask_size1
    book_features["last_total_volume_lv12"] = (
        book_features.last_total_volume_lv1
        + last_state.bid_size2
        + last_state.ask_size2
    )
    book_features["last_bid_ask_spread"] = last_state.ask_price1 - last_state.bid_price1
    return book_features

1.1.3 一些复杂的特征

我们可以将 book 和 trade 联合起来观察，例如，使用 pd.merge_asof 可以知道每个 trade 发生时的 book 情况。相比于单纯的 trade 数量， trade/book 的比例更能描述到底交易者有多激进。

    merged = pd.merge_asof(
        trade,
        raw_book[
            [
                "time_id",
                "time_seconds",
                "bid_size1",
                "ask_size1",
                "bid_size2",
                "ask_size2",
            ]
        ],
        by="time_id",
        on="time_seconds",
    )
    merged["trade_ratio_lv1"] = merged.trade_volume / (
        merged.bid_size1 + merged.ask_size1
    )
    merged["trade_ratio_lv12"] = merged.trade_volume / (
        merged.bid_size1 + merged.ask_size1 + merged.bid_size2 + merged.ask_size2
    )

此外，我们还能记录 book 发生了多少次 “flip”，即交易一整个 level 的情况。

1.2 全局特征

我们目前为止都只根据一个股票的信息做预测。实际上，不同股票之间肯定存在关联的。例如，同一板块、同一个行业或是同一个ETF的股票波动率显然是相关的。因此，如果能加入一些”全局“的，类似于大盘信息的特征，应该会对预测结果有帮助。

1.2.1 将股票分组（Kmeans）

我们需要把股票大致分组，并每个组分别统计一些特征，作为该时段的全局信息加入训练特征中。

我们利用 KMeans 依据历史数据的波动率变化（而非波动率）进行分组。我随便尝试了下 KMeans 和 DBSCAN，发现这个数据更适合用 KMeans 分，当然也可以使用更高级的算法，不过这并不是重点。

不直接使用波动率是因为不同股票之间存在基本波动率的差异。但是如果是相关的股票（例如同一个行业的），那么他们波动率的变动趋势应该是类似的。

分组步骤大概是：

获取所有股票的历史波动率 (在 train.csv 中）
根据 time_id 分组，并求每个股票的相关度矩阵
根据相关度矩阵进行分组

def get_correlation(y_path):
    vol_true = pd.read_csv(y_path).pivot(
        index="time_id", columns="stock_id", values="target"
    )
    # correlation is based on the "change rate" of volatility
    # instead of the raw volatility, I think it is comparable between stocks
    return (vol_true / vol_true.shift(1)).corr()

例如我们将其分为 5 个组，每个组的股票个数是：

group_id
0    41
1    14
2    25
3    28
4     4
dtype: int64

最大的组，组 0 内的元素是：

2,   7,  13,  14,  15,  17,  19,  20,  23,  26,  28,  32,  34,
35,  39,  41,  42,  43,  46,  47,  48,  51,  52,  53,  59,  64,
67,  68,  70,  93,  95, 102, 104, 105, 107, 114, 118, 119, 120,
123, 125

1.2.2 获取每个组的统计特征

对于不同 stock 比较 reasonable 的统计数据就是均值了。我们需要在每个 time_id，对每个组统计所需特征的均值。实现如下：

def get_stock_group_features(train_features, corr, selected_features):
    copied_corr = corr.copy()
    from sklearn.cluster import KMeans

    # clustering = DBSCAN(eps=0.4, min_samples=2).fit(corr.values)
    clustering = KMeans(n_clusters=5, random_state=0).fit(copied_corr)
    copied_corr["group_id"] = clustering.labels_
    merged = train_features.merge(copied_corr[["group_id"]], on="stock_id")
    group_features = (
        merged.groupby(["time_id_", "group_id"])
        .mean()
        .reindex(selected_features, axis=1)
        .reset_index()
        .pivot(index="time_id_", columns="group_id")
    )
    group_features.columns = [
        f"{col[0]}_group{col[1]}" for col in group_features.columns
    ]
    return group_features.reset_index()

最后可以得到类似于这样的特征，附加在每个 stock 自身的特征后面：

image.png

1.3 利用特征重要度筛选特征

在上一篇文章 LightGBM 实战：波动率预测(1) 中，已经简单介绍了特征重要度的计算方法和含义。这里，我们可以尝试使用它来去掉垃圾特征，保留优秀的特征。这可以有效减少训练时间，避免过拟合。

在得到模型后，我们可以画出每个特征重要性：

lightgbm.plot_importance(model, max_num_features=20)

image.png

我们也可以通过下面的函数得到一个 DataFrame：

def get_feature_importance(model):
    return pd.DataFrame(
        {"feature": model.feature_name(), "importance": model.feature_importance()}
    ).sort_values(by="importance", ascending=False)

整体看来，重要的特征还是比较符合直觉的。尤其值得注意的是，全局特征排名非常靠前。这说明我们在 1.2 中加入全局特征是非常有意义的。

1.4 特征优化结果

上述特征并没有完全利用起来，因为我电脑实在太烂了，特征超过 400 就已经内存不足无法运行了，因此对于 group 的特征，我仅选择了一部分：

selected_features = []
selected_features.extend([col for col in train_data.columns if 'trade_volume_mean' in col])
selected_features.extend([col for col in train_data.columns if 'last' in col])
selected_features.extend([col for col in train_data.columns if 'vwap11_realized_volatility' in col])
# selected_features.extend([col for col in train_data.columns if 'gap' in col])
# selected_features.extend([col for col in train_data.columns if 'spread' in col])
selected_features.extend([col for col in train_data.columns if 'flip' in col])
selected_features.extend([col for col in train_data.columns if 'count' in col])
selected_features.extend([col for col in train_data.columns if 'trade_ratio_lv1_' in col])
selected_features = set(selected_features)

但是结果已经相当好了，轻松从之前的 0.22~0.25 优化到了 0.19~0.20（默认 LGBM 参数下）。

Early stopping, best iteration is:
[548]   training's l2: 1.41377e-07  training's RMSPE: 0.173893  valid_1's l2: 1.79515e-07   valid_1's RMSPE: 0.196654
RMSPE =  0.19665403611036217

Early stopping, best iteration is:
[744]   training's l2: 1.3117e-07   training's RMSPE: 0.167791  valid_1's l2: 1.75072e-07   valid_1's RMSPE: 0.192851
RMSPE =  0.19285066677735865

Early stopping, best iteration is:
[389]   training's l2: 1.5088e-07   training's RMSPE: 0.179636  valid_1's l2: 2.03518e-07   valid_1's RMSPE: 0.209418
RMSPE =  0.20941792466116485

Early stopping, best iteration is:
[764]   training's l2: 1.30281e-07  training's RMSPE: 0.167222  valid_1's l2: 1.86109e-07   valid_1's RMSPE: 0.198835
RMSPE =  0.19883534222771257

Early stopping, best iteration is:
[672]   training's l2: 1.35331e-07  training's RMSPE: 0.170158  valid_1's l2: 1.79225e-07   valid_1's RMSPE: 0.196387
RMSPE =  0.19638739751965206

2 Light GBM 参数调节

特征确定后，参数调节很难再大幅提高精度了，没有很专业的调节，因为这个过程本身没什么意思，最终误差率如下：

Did not meet early stopping. Best iteration is:
[1000]  training's l2: 1.29986e-07  training's RMSPE: 0.16674   valid_1's l2: 1.73911e-07   valid_1's RMSPE: 0.19356
RMSPE =  0.19355980904948505

Did not meet early stopping. Best iteration is:
[1000]  training's l2: 1.29211e-07  training's RMSPE: 0.166533  valid_1's l2: 1.69505e-07   valid_1's RMSPE: 0.18976
RMSPE =  0.18975971408050601

Early stopping, best iteration is:
[467]   training's l2: 1.51157e-07  training's RMSPE: 0.1798    valid_1's l2: 1.96557e-07   valid_1's RMSPE: 0.205806
RMSPE =  0.20580561455113955

Did not meet early stopping. Best iteration is:
[1000]  training's l2: 1.29565e-07  training's RMSPE: 0.166761  valid_1's l2: 1.78346e-07   valid_1's RMSPE: 0.194644
RMSPE =  0.19464427237056287

Did not meet early stopping. Best iteration is:
[1000]  training's l2: 1.30119e-07  training's RMSPE: 0.166848  valid_1's l2: 1.74124e-07   valid_1's RMSPE: 0.193572
RMSPE =  0.19357219429054603

贡献最大的参数就是 categorical_colum。将 stock id 指定为类别特征后，有明显的提高。其余参数我感觉差异不大。最终使用的参数为：

params = {
     'learning_rate': 0.06,
     'bagging_fraction': 0.72,
     'bagging_freq': 4,
     'feature_fraction': 0.6,
     'lambda_l1': 0.5,
     'lambda_l2': 1.0,
     'categorical_column':[0]}

        model = lightgbm.train(
            params=lgbm_params,
            train_set=train_dataset,
            valid_sets=[train_dataset, validation_dataset],
            feval=feval_rmspe,
            num_boost_round=1000,
            callbacks=[lightgbm.early_stopping(200), lightgbm.log_evaluation(50)],
        )

2.1 提高精度

能提高精度的参数并不是非常多，我只找到两个。个人感觉参数调节更多是为了减少训练时间以及避免过拟合。

2.1.1 指定 categorical feature

基于树的方法有一个优点是能够非常好的处理类别特征（categorical feature）。在这个项目中，stock_id 就是一个类别特征，它的大小没有意义，只是表明类型。

我们可以明确告诉 LGBM stock_id 是 categorical feature，这样做没有任何副作用：

params = {
    'categorical_column':[0]
}
models = lgbm_train.train(train_features.drop('time_id_', axis=1), train_y.target, 5, params)

仅一条配置就能获得明显的优化 (误差从 0.196 下降到 0.192)，并且 stock_id 的重要性显著提升，更符合直觉。

image.png

Early stopping, best iteration is:
[824]   training's l2: 1.16958e-07  training's RMSPE: 0.158164  valid_1's l2: 1.71789e-07   valid_1's RMSPE: 0.192376
RMSPE =  0.19237567863942145

Early stopping, best iteration is:
[796]   training's l2: 1.17188e-07  training's RMSPE: 0.158596  valid_1's l2: 1.71186e-07   valid_1's RMSPE: 0.190699
RMSPE =  0.19069872260565224

Early stopping, best iteration is:
[550]   training's l2: 1.29443e-07  training's RMSPE: 0.166386  valid_1's l2: 1.98206e-07   valid_1's RMSPE: 0.206667
RMSPE =  0.20666692821450117

Early stopping, best iteration is:
[574]   training's l2: 1.28093e-07  training's RMSPE: 0.165812  valid_1's l2: 1.79801e-07   valid_1's RMSPE: 0.195436
RMSPE =  0.19543642931738184

Early stopping, best iteration is:
[393]   training's l2: 1.40621e-07  training's RMSPE: 0.173451  valid_1's l2: 1.77851e-07   valid_1's RMSPE: 0.195633
RMSPE =  0.19563316948191248

2.1.2 设置更小的 learning rate

最简单粗暴的提高精度方法，但是随之而来是训练时间的增加，一般配合下面章节中的提高训练速度的参数使用。

'learning_rate': 0.06,

2.2 防止过拟合 & 提高训练速度

2.2.1 设置 early stopping

early stopping 需要在训练时额外提供一个验证数据集，如果验证数据集上的预测效果在 N 次迭代中没办法再提高，就提前停止。涉及到 2 个参数：

valid_sets
使用 KFold 分的验证集。
callbacks=[lightgbm.early_stopping(100)]
100 次迭代没有提高，则返回当前最优模型

        model = lightgbm.train(
            params=lgbm_params,
            train_set=train_dataset,
            valid_sets=[train_dataset, validation_dataset],
            feval=feval_rmspe,
            num_boost_round=1000,
            callbacks=[lightgbm.early_stopping(100), lightgbm.log_evaluation(50)],
        )

具体效果就是有时候没有训练到 num_boost_round 就提前终止了：

Early stopping, best iteration is:
[393]   training's l2: 1.40621e-07  training's RMSPE: 0.173451  valid_1's l2: 1.77851e-07   valid_1's RMSPE: 0.195633
RMSPE =  0.19563316948191248

2.2.2 Subsampling

通过随机丢弃一部分样本或者特征，加快训练速度，避免过拟合。

分为两种，一种是对样本（即 rows）：

'bagging_fraction': 0.72,
'bagging_freq': 4,

这两个必须一起使用，bagging_fraction 表示保留多少样本，bagging_freq 表示每隔多少轮生效一次，设置为 0 则不会生效。

还有一种是对特征（即 columns）：

'feature_fraction': 0.6,

2.2.3 控制模型复杂度

我们知道 lightgbm 生成的模型其实是一堆树的组合。那么就可以从两个方向控制模型复杂度，避免过拟合：

控制树的总数
- num_boost_round
控制每棵树的复杂度
- min_data_in_leaf
- num_leaves
- max_depth

2.2.4 Regularization

正则化（Regularization）是机器学习中一种常用的技术，其主要目的是控制模型复杂度，减小过拟合。最基本的正则化方法是在原目标（代价）函数中添加惩罚项，对复杂度高的模型进行“惩罚”。

涉及 3 个参数：

lambda_l1
设置一个 threshold，gain 小于这个 threshold 直接认为是 0，不再分裂。
lambda_l2
为 gain 的分母（即节点样本数）增加一个常数项，作用于全程，在节点样本数已经很小的时候，能显著减小 gain 避免分裂。
min_gain_to_split
如果一个节点的 gain 低于这个数，不再分裂。

在我另一篇文章 LightGBM 参数中的 lambda_l1 和 lambda_l2 中有详细的介绍。

参考

最后编辑于：2021.11.23 22:29:18

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,585评论 4赞 365
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,923评论 1赞 301
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 110,314评论 0赞 248
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,346评论 0赞 214
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,718评论 3赞 291
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,828评论 1赞 223
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,020评论 2赞 315
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,758评论 0赞 204
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,486评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,722评论 2赞 251
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,196评论 1赞 262
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,546评论 3赞 258
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,211评论 3赞 240
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,132评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,916评论 0赞 200
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,904评论 2赞 283
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,758评论 2赞 274

LightGBM 实战：波动率预测(2)

1 更好的特征

1.1 单个 stock 的特征

1.1.1 时间窗口统计特征

1.1.2 最后时刻特征

1.1.3 一些复杂的特征

1.2 全局特征

1.2.1 将股票分组（Kmeans）

1.2.2 获取每个组的统计特征

1.3 利用特征重要度筛选特征

1.4 特征优化结果

2 Light GBM 参数调节

2.1 提高精度

2.1.1 指定 categorical feature

2.1.2 设置更小的 learning rate

2.2 防止过拟合 & 提高训练速度

2.2.1 设置 early stopping

2.2.2 Subsampling

2.2.3 控制模型复杂度

2.2.4 Regularization

参考

推荐阅读更多精彩内容