深度学习中的欠拟合与过拟合区别是?

ztj100 2024-11-03 16:16 14 浏览 0 评论

1. 模型选择、欠拟合和过拟合

在前几节基于Fashion-MNIST数据集的实验中，评价了机器学习模型在训练数据集和测试数据集上的表现。如果你改变过实验中的模型结构或者超参数，你也许发现了：当模型在训练数据集上更准确时，它在测试数据集上却不一定更准确。这是为什么呢？

1.1 训练误差和泛化误差

在解释上述现象之前，需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。

以高考为例来直观地解释训练误差和泛化误差这两个概念。训练误差可以认为是做往年高考试题(训练题)时的错误率，泛化误差则可以通过真正参加高考(测试题)时的答题错误率来近似。假设训练题和测试题都随机采样于一个未知的依照相同考纲的巨大试题库。如果让一名未学习中学知识的小学生去答题，那么测试题和训练题的答题错误率可能很相近。但如果换成一名反复练习训练题的高三备考生答题，即使在训练题上做到了错误率为0，也不代表真实的高考成绩会如此。在机器学习里，通常假设训练数据集(训练题)和测试数据集(测试题)里的每一个样本都是从同一个概率分布中相互独立地生成的。基于该独立同分布假设，给定任意一个机器学习模型(含参数)，它的训练误差的期望和泛化误差都是一样的。例如，如果我们将模型参数设成随机值(小学生)，那么训练误差和泛化误差会非常相近。但从前面几节中已经了解到，模型的参数是通过在训练数据集上训练模型而学习出的，参数的选择依据了最小化训练误差(高三备考生)。所以，训练误差的期望小于或等于泛化误差。也就是说，一般情况下，由训练数据集学到的模型参数会使模型在训练数据集上的表现优于或等于在测试数据集上的表现。由于无法从训练误差估计泛化误差，一味地降低训练误差并不意味着泛化误差一定会降低。机器学习模型应关注降低泛化误差。

1.2 模型选择

在机器学习中，通常需要评估若干候选模型的表现并从中选择模型。这一过程称为模型选择(model selection)。可供选择的候选模型可以是有着不同超参数的同类模型。以多层感知机为例，我们可以选择隐藏层的个数，以及每个隐藏层中隐藏单元个数和激活函数。为了得到有效的模型，通常要在模型选择上下一番功夫。下面，我们来描述模型选择中经常使用的验证数据集(validation data set)。

1.2.1 验证数据集

从严格意义上讲，测试集只能在所有超参数和模型参数选定后使用一次。不可以使用测试数据选择模型，如调参。由于无法从训练误差估计泛化误差，因此也不应只依赖训练数据选择模型。鉴于此，我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集，简称验证集(validation set)。例如，可以从给定的训练集中随机选取一小部分作为验证集，而将剩余部分作为真正的训练集。

然而在实际应用中，由于数据不容易获取，测试数据极少只使用一次就丢弃。因此，实践中验证数据集和测试数据集的界限可能比较模糊。这里实验所使用的测试集为验证集，实验报告的测试结果(如测试准确率)为验证结果(如验证准确率)。

1.2.2 k 折交叉验证

由于验证数据集不参与模型训练，当训练数据不够用时，预留大量的验证数据显得太奢侈。一种改善的方法是 k 折交叉验证（k-fold cross-validation）。在 k折交叉验证中，把原始训练数据集分割成 k个不重合的子数据集，然后做 k次模型训练和验证。每一次，使用一个子数据集验证模型，并使用其他 k - 1个子数据集来训练模型。在这 k次训练和验证中，每次用来验证模型的子数据集都不同。最后，对这 k次训练误差和验证误差分别求平均。

1.3 欠拟合和过拟合

模型训练中经常出现的两类典型问题：一类是模型无法得到较低的训练误差，这一现象称作欠拟合(underfitting)；另一类是模型的训练误差远小于它在测试数据集上的误差，该现象为过拟合(overfitting)。在实践中，要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里重点讨论两个因素：模型复杂度和训练数据集大小。

1.3.1 模型复杂度

为了解释模型复杂度，以多项式函数拟合为例。给定一个由标量数据特征 x和对应的标量标签 y组成的训练数据集，多项式函数拟合的目标是找一个 k阶多项式函数

来近似 y。在上式中，

是模型的权重参数，b是偏差参数。与线性回归相同，多项式函数拟合也使用平方损失函数。特别地，一阶多项式函数拟合又叫线性函数拟合。因为高阶多项式函数模型参数更多，模型函数的选择空间更大，所以高阶多项式函数比低阶多项式函数的复杂度更高。因此，高阶多项式函数比低阶多项式函数更容易在相同的训练数据集上得到更低的训练误差。给定训练数据集，模型复杂度和误差之间的关系通常如下图所示。给定训练数据集，如果模型的复杂度过低，很容易出现欠拟合；如果模型复杂度过高，很容易出现过拟合。应对欠拟合和过拟合的一个办法是针对数据集选择合适复杂度的模型。

1.3.2 训练数据集大小

影响欠拟合和过拟合的另一个重要因素是训练数据集的大小。一般来说，如果训练数据集中样本数过少，特别是比模型参数数量(按元素计)更少时，过拟合更容易发生。此外，泛化误差不会随训练数据集里样本数量增加而增大。因此，在计算资源允许的范围之内，通常希望训练数据集大一些，特别是在模型复杂度较高时，例如层数较多的深度学习模型。

1.4 多项式函数拟合实验

为了理解模型复杂度和训练数据集大小对欠拟合和过拟合的影响，下面以多项式函数拟合为例来实验。

1.4.1 生成数据集

生成一个人工数据集。在训练数据集和测试数据集中，给定样本特征 x，使用如下的三阶多项式函数来生成该样本的标签：

其中噪声项

服从均值为0、标准差为0.1的正态分布。训练数据集和测试数据集的样本数都设为100。

import torch
import numpy as np
import torch.utils.data
import matplotlib.pyplot as plt
import utils as d2l

n_train,n_test,true_w,true_b = 100,100,[1.2,-3.4,5.6],5
feature = torch.randn((n_train + n_test,1))
poly_features = torch.cat((feature,torch.pow(feature,2),torch.pow(feature,3)),1)
labels = (true_w[0] * poly_features[:,0] + true_w[1] * poly_features[:,1]
          + true_w[2] * poly_features[:,2] + true_b)
labels += torch.tensor(np.random.normal(0,0.01,size=labels.size()),dtype=torch.float)

#查看生成的数据集的前两个样本
print(feature[:2])
print(poly_features[:2])
print(labels[:2])

输出结果：

tensor([[0.8637],
        [0.9680]])
tensor([[0.8637, 0.7460, 0.6444],
        [0.9680, 0.9371, 0.9071]])
tensor([7.1012, 8.0550])

1.4.2 定义、训练和测试模型

先定义作图函数semilogy，其中轴使用了对数尺度。

#该函数已保存在utils包中方便以后使用
def semilogy(x_vals,y_vals,x_label,y_label,x2_vals=None,y2_vals=None,
legend=None,figsize=(3.5,2.5)):
    d2l.set_figsize(figsize)
    d2l.plt.xlabel(x_label)
    d2l.plt.ylabel(y_label)
    d2l.plt.semilogy(x_vals,y_vals)
    if x2_vals and y2_vals:
        d2l.plt.semilogy(x2_vals,y2_vals,linestyle=':')
        d2l.plt.legend(legend)

和线性回归一样，多项式函数拟合也使用平方损失函数。因为将尝试使用不同复杂度的模型来拟合生成的数据集，所以把模型定义部分放在fit_and_plot函数中。多项式函数拟合的训练和测试步骤与softmax回归的从零开始实现一节介绍的softmax回归中的相关步骤类似。

num_epochs,loss = 100,torch.nn.MSELoss()

def fit_and_plot(train_features,test_features,train_labels,test_labels):
    net = torch.nn.Linear(train_features.shape[-1],1)

    batch_size = min(10,train_labels.shape[0])
    dataset = torch.utils.data.TensorDataset(train_features,train_labels)
    train_iter = torch.utils.data.DataLoader(dataset,batch_size,shuffle=True)

    optimizer = torch.optim.SGD(net.parameters(),lr=0.01)
    train_ls,test_ls = [],[]
    for _ in range(num_epochs):
        for X,y in train_iter:
            l = loss(net(X),y.view(-1,1))
            optimizer.zero_grad()
            l.backward()
            optimizer.step()
        train_labels = train_labels.view(-1,1)
        test_labels = test_labels.view(-1,1)
        train_ls.append(loss(net(train_features),train_labels).item())
        test_ls.append(loss(net(test_features),test_labels).item())

    print('final epoch: train loss',train_ls[-1],'test loss',test_ls[-1])
    semilogy(range(1,num_epochs + 1),train_ls,'epochs','loss',
             range(1,num_epochs + 1),test_ls,['train','test'])
    print('weight:',net.weight.data,'\nbias:',net.bias.data)

1.4.3 三阶多项式函数拟合（正常）

先使用与数据生成函数同阶的三阶多项式函数拟合。实验表明，这个模型的训练误差和在测试数据集的误差都较低。训练出的模型参数也接近真实值：

。

fit_and_plot(poly_features[:n_train, :], poly_features[n_train:, :],
            labels[:n_train], labels[n_train:])
plt.show()

输出结果：

final epoch: train loss 0.00011616387200774625 test loss 0.00014531151100527495
weight: tensor([[ 1.2014, -3.3989,  5.5987]]) 
bias: tensor([5.0005])

效果图

1.4.4 线性函数拟合（欠拟合）

再试试线性函数拟合。很明显，该模型的训练误差在迭代早期下降后便很难继续降低。在完成最后一次迭代周期后，训练误差依旧很高。线性模型在非线性模型（如三阶多项式函数）生成的数据集上容易欠拟合。

fit_and_plot(features[:n_train,:],features[n_train:,:],
             labels[:n_train],labels[n_train:])
plt.show()

输出结果：

final epoch: train loss 197.37686157226562 test loss 365.67547607421875
weight: tensor([[18.7399]]) 
bias: tensor([-0.7649])

效果图

1.4.5 训练样本不足（过拟合）

事实上，即便使用与数据生成模型同阶的三阶多项式函数模型，如果训练样本不足，该模型依然容易过拟合。现在只使用两个样本来训练模型。显然，训练样本过少了，甚至少于模型参数的数量。这使模型显得过于复杂，以至于容易被训练数据中的噪声影响。在迭代过程中，尽管训练误差较低，但是测试数据集上的误差却很高，这是典型的过拟合现象。

fit_and_plot(poly_features[0:2, :], poly_features[n_train:, :], labels[0:2],
             labels[n_train:])
plt.show()

输出结果：

final epoch: train loss 0.7788520455360413 test loss 97.1064682006836
weight: tensor([[1.7228, 1.7428, 2.0598]]) 
bias: tensor([3.2741])

效果图

torch.randperm

上一篇：PyTorch常用5个抽样函数（numpy抽样）
下一篇：FredNormer: 非平稳时间序列预测的频域正则化方法

深度学习中的欠拟合与过拟合区别是?

1. 模型选择、欠拟合和过拟合

1.1 训练误差和泛化误差

1.2 模型选择

1.2.1 验证数据集

1.2.2 k 折交叉验证

1.3 欠拟合和过拟合

1.3.1 模型复杂度

1.3.2 训练数据集大小

1.4 多项式函数拟合实验

1.4.1 生成数据集

1.4.2 定义、训练和测试模型

1.4.3 三阶多项式函数拟合（正常）

1.4.4 线性函数拟合（欠拟合）

1.4.5 训练样本不足（过拟合）

相关推荐

取消回复欢迎你发表评论:

Vue自定义Hook示例:useUrlState（vue中的自定义指令如何使用）

Vue-实现自定义插件弹窗（vue 实现弹窗）

旗舰机新标杆 OPPO Find X2系列正式发布售价5499元起

什么是幂等?分布式锁如何实现业务幂等?

【Python机器学习系列】建立多层感知机模型预测心脏疾病

手把手教你搞定菜单权限设计，精确到按钮级别，建议收藏

如何发个 npm 包?

详解MySQL 字符串拼接之concat\concat_ws\group_concat

如何快速切换node版本?利用n包快速切换nodejs版本

让Jenkins自动部署你的Vue项目「实践」

深度学习中的欠拟合与过拟合区别是?

1. 模型选择、欠拟合和过拟合

1.1 训练误差和泛化误差

1.2 模型选择

1.2.1 验证数据集

1.2.2 k 折交叉验证

1.3 欠拟合和过拟合

1.3.1 模型复杂度

1.3.2 训练数据集大小

1.4 多项式函数拟合实验

1.4.1 生成数据集

1.4.2 定义、训练和测试模型

1.4.3 三阶多项式函数拟合（正常）

1.4.4 线性函数拟合（欠拟合）

1.4.5 训练样本不足（过拟合）

相关推荐

取消回复欢迎 你 发表评论:

Vue自定义Hook示例:useUrlState（vue中的自定义指令如何使用）

Vue-实现自定义插件弹窗（vue 实现弹窗）

旗舰机新标杆 OPPO Find X2系列正式发布 售价5499元起

什么是幂等?分布式锁如何实现业务幂等?

【Python机器学习系列】建立多层感知机模型预测心脏疾病

手把手教你搞定菜单权限设计，精确到按钮级别，建议收藏

如何发个 npm 包?

详解MySQL 字符串拼接之concat\concat_ws\group_concat

如何快速切换node版本?利用n包快速切换nodejs版本

让Jenkins自动部署你的Vue项目「实践」

取消回复欢迎你发表评论:

旗舰机新标杆 OPPO Find X2系列正式发布售价5499元起