SAS中如何通过决策树选择重要入选变量

以下在SAS的EM中通过一个案例来说明决策树选择重要变量的过程:

整体流程图

上图中从左到右分别为步骤1-4,其中步骤4是神经网络,其实不重要,重要的是前3步,第4步可以是其他节点。

选择案例数据

插入Input Data Source 节点,选择SAMPSIO.HMEQ作为源数据,并点Change钩上Use complete data as sample选择全部数据用作后续操作。

设置训练、验证数据比例

训练:67%,验证:33%

决策树设置

打开决策树设置,唯一要更改的是上图中圈红的地方,从0改成2(备选规则存储)。

然后关闭后运行决策树,运行结束后右键查看决策树结果:

Score页面中子页面Variable Selection中可以看到变量的重要性排序。

小结

好处是先把作用不大的变量直接筛选掉,跟在这个决策树后面的节点默认会排除掉决策树中已经rejected的变量。

如果变量特别多的时候,这种方法特别有效。

推荐阅读更多精彩内容