对于机器学习中训练集(train set)、验证集(cross vaildation set)和测试集(test set)的理解

             机器学习中为什么要把数据集划分成这么三个部分?我们可以这么做个比喻来帮助我们理解。我们在数据集上训练模型的过程就相当于我们为了考试考出好成绩刷题的过程,我们的最终目标是在高考中(测试集)取得最高分数,那么我们就要在平时疯狂的刷题(训练集),怎样检测平时的学习成果呢?一般都会有学校组织的模拟测试(交叉验证集),一般在几次模拟考试下来成绩好的话,高考也不会差到哪里去。其实设立模拟考试(交叉验证),另一方面是要保证你每个知识点都掌握全了,万一你刷的都是几何题,遇到几何题你都可以完美简答(过拟合),但是模拟考试中(交叉验证集)还有你完全没做过的导数题,概率题,而且分值都很大,那你可能就要重新调整学习计划,把原来大量刷几何题的时间均匀分配给导数题,概率题,如此虽然不能保证你每一道几何题都能简答出了,但总体上,知识点都掌握了,就能取得最高的分数!

推荐阅读更多精彩内容