什么是网站栏目标题,网站营销策略,wordpress托管网站,免费的行情软件网站在线使用一、定义
在深度学习中#xff0c;正则化是一种用于防止过拟合的技术。过拟合是指模型在训练数据上表现非常好#xff0c;但在新的、未见过的数据#xff08;测试数据#xff09;上表现很差的情况。正则化模型就是通过在损失函数中添加额外的项来约束模型的复杂度#xf…一、定义
在深度学习中正则化是一种用于防止过拟合的技术。过拟合是指模型在训练数据上表现非常好但在新的、未见过的数据测试数据上表现很差的情况。正则化模型就是通过在损失函数中添加额外的项来约束模型的复杂度使得模型在训练过程中不仅要拟合数据还要满足一定的复杂度限制从而提高模型的泛化能力。
二、常见的正则化方法及原理 L1 正则化Lasso 正则化 原理L1 正则化是在损失函数中添加权重向量的 L1 范数绝对值之和作为惩罚项。对于一个具有权重向量的神经网络模型L1 正则化后的损失函数可以表示为其中是原始的损失函数如交叉熵损失或均方误差损失是正则化强度参数是权重向量的各个分量。效果L1 正则化会使模型的一些权重变为 0从而实现特征选择的效果。例如在一个线性回归模型神经网络的一种简单形式中如果某个特征对应的权重被正则化为 0就相当于这个特征被模型忽略了这样可以减少模型的复杂度。 L2 正则化岭正则化 原理L2 正则化是在损失函数中添加权重向量的 L2 范数平方和的平方根的平方作为惩罚项。损失函数可表示为。效果L2 正则化会使模型的权重趋向于较小的值但不会使权重为 0。较小的权重意味着模型对输入的变化不会过于敏感从而减少过拟合。例如在一个多层感知机MLP中经过 L2 正则化训练后权重的大小会受到限制使得模型更加平滑不容易对训练数据中的噪声进行过度拟合。 Dropout 正则化 原理在训练过程中对于每一个训练批次mini - batch以一定的概率例如随机地 “丢弃”将其权重设置为 0神经网络中的一些神经元。在预测阶段所有的神经元都参与计算但是神经元的输出要乘以保留概率。例如对于一个有个神经元的层在训练时每个神经元有的概率被丢弃那么剩下的神经元组成的网络结构就会发生变化相当于训练了多个不同结构的子网络。效果这种随机丢弃神经元的方式可以防止神经元之间的复杂协同适应co - adaptation。也就是说神经元不能过度依赖于其他特定的神经元因为它们在每次训练时可能会被丢弃从而提高了模型的泛化能力。例如在一个卷积神经网络CNN用于图像分类时使用 Dropout 可以避免某些卷积核过度拟合图像中的局部特征。 Early Stopping 原理在训练过程中记录模型在验证集上的性能如准确率或损失值。当验证集性能不再提升甚至开始下降时停止训练。这是基于这样的观察随着训练的进行模型可能会开始过拟合训练数据而验证集性能可以反映模型的泛化能力。效果通过及时停止训练可以得到一个在泛化性能和拟合训练数据之间取得较好平衡的模型。例如在训练一个循环神经网络RNN用于文本生成时早期停止训练可以防止模型对训练文本中的特定模式过度记忆从而提高生成文本的多样性和合理性。