过拟合和欠拟合的概念
过拟合:模型训练误差远小于在测试数据集上的误差,也就是说数据在训练时模型的预测效果好,但是在测试的数据上(要预测的新数据)不能很好的进行预测。
欠拟合:模型无法得到较低的训练误差,也就是说,在训练数据的过程中,就不能很好的对数据进行预测。
主要因素模型复杂度和训练数据集大小
模型复杂度
为了解释模型复杂,以简单多项式函数拟合为例。给定一个由标量数据特征 x 和对应的标量标签 y 组成的训练数据集,多项式函数拟合的目标是找一个 K 阶多项式函数来近似 y 。
在上式中,
问题:拿到一个图,不怎么怎么区分是过拟合还是欠拟合
图1:
图2:
图3:
1.观察图:
图1:train loss>>test loss 训练误差(10^3)较大
图2:test loss >> train loss 训练误差(10^1)较小
图3: test loss = train loss
2.得出:
图1 模型训练还没得到较好结果,因此欠拟合
图2 模型训练取得较好结果,但是模型测试结果不好,因此过拟合
图3 训练和测试同分布,正常
影响拟合