ensemble方法:stacking
Train Data有890行。每1次的fold,都会生成 713行 小train, 178行 小test。我们用Model 1来训练 713行的小train,然后预测 178行 小test。预测的结果是长度为 178 的预测值。这样的动作走5次! 长度为178 的预测值 X 5 = 890 预测值,刚好和Train data长度吻合。这个890预测值是Model 1产生的,我们先存着,因为,一会让它将是第二层模型的训练来源。重点:这一步产生的预测值我们可以转成 890 X 1 (890 行,1列),记作 P1 (大写P)。
Test Data 有 418 行。每1次的fold,713行 小train训练出来的Model 1要去预测我们全部的Test Data(全部!因为Test Data没有加入5-fold,所以每次都是全部!)。此时,Model 1的预测结果是长度为418的预测值。这样的动作走5次!我们可以得到一个 5 X 418 的预测值矩阵。然后我们根据行来就平均值,最后得到一个 1 X 418 的平均预测值。重点:这一步产生的预测值我们可以转成 418 X 1 (418行,1列),记作 p1 (小写p)。
参考资料:
https://zhuanlan.zhihu.com/p/26890738
https://stats.stackexchange.com/questions/224237/what-is-out-of-fold-average
https://www.slideshare.net/OwenZhang2/tips-for-data-science-competitions?from_action=save