电子商务网站建设与管理课程评价,义乌专业做网站的,深圳营销型网站制作建设,网络建设公司有哪些文章目录 一、实验介绍二、实验环境1. 配置虚拟环境2. 库版本介绍 三、实验内容0. 导入必要的库1. 随机梯度下降SGD算法a. PyTorch中的SGD优化器b. 使用SGD优化器的前馈神经网络 2.随机梯度下降的改进方法a. 学习率调整b. 梯度估计修正 3. 梯度估计修正#xff1a;动量法Momen… 文章目录 一、实验介绍二、实验环境1. 配置虚拟环境2. 库版本介绍 三、实验内容0. 导入必要的库1. 随机梯度下降SGD算法a. PyTorch中的SGD优化器b. 使用SGD优化器的前馈神经网络 2.随机梯度下降的改进方法a. 学习率调整b. 梯度估计修正 3. 梯度估计修正动量法Momentum4. 自适应学习率Adagrad算法Adadelta算法RMSprop算法算法测试 5. 代码整合以RMSprop算法为例 任何数学技巧都不能弥补信息的缺失。 ——科尼利厄斯·兰佐斯Cornelius Lanczos匈牙利数学家、物理学家 一、实验介绍 深度神经网络在机器学习中应用时面临两类主要问题优化问题和泛化问题。 优化问题深度神经网络的优化具有挑战性。 神经网络的损失函数通常是非凸函数因此找到全局最优解往往困难。深度神经网络的参数通常非常多而训练数据也很大因此使用计算代价较高的二阶优化方法不太可行而一阶优化方法的训练效率通常较低。深度神经网络存在梯度消失或梯度爆炸问题导致基于梯度的优化方法经常失效。 泛化问题由于深度神经网络的复杂度较高且具有强大的拟合能力很容易在训练集上产生过拟合现象。因此在训练深度神经网络时需要采用一定的正则化方法来提高网络的泛化能力。 目前研究人员通过大量实践总结了一些经验方法以在神经网络的表示能力、复杂度、学习效率和泛化能力之间取得良好的平衡从而得到良好的网络模型。本系列文章将从网络优化和网络正则化两个方面来介绍如下方法
在网络优化方面常用的方法包括优化算法的选择、参数初始化方法、数据预处理方法、逐层归一化方法和超参数优化方法。在网络正则化方面一些提高网络泛化能力的方法包括ℓ1和ℓ2正则化、权重衰减、提前停止、丢弃法、数据增强和标签平滑等。 本文将介绍基于自适应学习率的优化算法Adagrad、Adadelta、RMSprop 二、实验环境 本系列实验使用了PyTorch深度学习框架相关操作如下
1. 配置虚拟环境
conda create -n DL python3.7 conda activate DLpip install torch1.8.1cu102 torchvision0.9.1cu102 torchaudio0.8.1 -f https://download.pytorch.org/whl/torch_stable.htmlconda install matplotlibconda install scikit-learn2. 库版本介绍
软件包本实验版本目前最新版matplotlib3.5.33.8.0numpy1.21.61.26.0python3.7.16scikit-learn0.22.11.3.0torch1.8.1cu1022.0.1torchaudio0.8.12.0.2torchvision0.9.1cu1020.15.2
三、实验内容
0. 导入必要的库
import torch
import torch.nn.functional as F
from d2l import torch as d2l
from sklearn.datasets import load_iris
from torch.utils.data import Dataset, DataLoader1. 随机梯度下降SGD算法 随机梯度下降Stochastic Gradient DescentSGD是一种常用的优化算法用于训练深度神经网络。在每次迭代中SGD通过随机均匀采样一个数据样本的索引并计算该样本的梯度来更新网络参数。具体而言SGD的更新步骤如下
从训练数据中随机选择一个样本的索引。使用选择的样本计算损失函数对于网络参数的梯度。根据计算得到的梯度更新网络参数。重复以上步骤直到达到停止条件如达到固定的迭代次数或损失函数收敛。
a. PyTorch中的SGD优化器 Pytorch官方教程
optimizer torch.optim.SGD(model.parameters(), lr0.2)b. 使用SGD优化器的前馈神经网络 【深度学习实验】前馈神经网络final自定义鸢尾花分类前馈神经网络模型并进行训练及评价
2.随机梯度下降的改进方法 传统的SGD在某些情况下可能存在一些问题例如学习率选择困难和梯度的不稳定性。为了改进这些问题提出了一些随机梯度下降的改进方法其中包括学习率的调整和梯度的优化。
a. 学习率调整 学习率衰减Learning Rate Decay随着训练的进行逐渐降低学习率。常见的学习率衰减方法有固定衰减、按照指数衰减、按照时间表衰减等。Adagrad自适应地调整学习率。Adagrad根据参数在训练过程中的历史梯度进行调整对于稀疏梯度较大的参数降低学习率对于稀疏梯度较小的参数增加学习率。这样可以在不同参数上采用不同的学习率提高收敛速度。Adadelta与Adagrad类似但进一步解决了Adagrad学习率递减过快的问题。Adadelta不仅考虑了历史梯度还引入了一个累积的平方梯度的衰减平均以动态调整学习率。RMSprop也是一种自适应学习率的方法通过使用梯度的指数加权移动平均来调整学习率。RMSprop结合了Adagrad的思想但使用了衰减平均来减缓学习率的累积效果从而更加稳定。
b. 梯度估计修正
Momentum使用梯度的“加权移动平均”作为参数的更新方向。Momentum方法引入了一个动量项用于加速梯度下降的过程。通过积累之前的梯度信息可以在更新参数时保持一定的惯性有助于跳出局部最优解、加快收敛速度。Nesterov accelerated gradientNesterov加速梯度NAG是Momentum的一种变体。与Momentum不同的是NAG会先根据当前的梯度估计出一个未来位置然后在该位置计算梯度。这样可以更准确地估计当前位置的梯度并且在参数更新时更加稳定。梯度截断Gradient Clipping为了应对梯度爆炸或梯度消失的问题梯度截断的方法被提出。梯度截断通过限制梯度的范围将梯度控制在一个合理的范围内。常见的梯度截断方法有阈值截断和梯度缩放。
3. 梯度估计修正动量法Momentum
【深度学习实验】网络优化与正则化一优化算法使用动量优化的随机梯度下降算法Stochastic Gradient Descent with Momentum
4. 自适应学习率
Adagrad算法 AdagradAdaptive Gradient Algorithm算法会为每个参数维护一个学习率该学习率随着时间的推移会逐渐减小。它适用于稀疏数据集能够有效地处理出现较少的特征。
def init_adagrad_states(feature_dim):s_w torch.zeros((feature_dim, 3))s_b torch.zeros(3)return (s_w, s_b)def adagrad(params, states, hyperparams):eps 1e-6for p, s in zip(params, states):with torch.no_grad():s[:] torch.square(p.grad)p[:] - hyperparams[lr] * p.grad / torch.sqrt(s eps)p.grad.data.zero_()
init_adagrad_states函数用于初始化Adagrad算法中的状态。 创建两个张量 s_w 和 s_b分别用于保存权重参数和偏置参数的平方梯度累积和。这些状态张量的形状与对应的参数张量相同。 adagrad函数使用Adagrad算法来更新模型的参数。 接受三个输入params表示模型的参数张量列表states表示Adagrad算法的状态张量列表hyperparams表示超参数字典其中包含学习率 lr。在更新参数之前算法首先定义了一个小量 eps用于避免除零错误。对于每个参数张量 p 和对应的状态张量 s算法执行以下操作 计算参数梯度的平方。将平方梯度累积到状态张量 s 中。使用自适应学习率更新参数 p。这里使用了累积的平方梯度来调整学习率的大小以更好地适应不同参数的更新需求。使用 p.grad.data.zero_() 将参数梯度置零以便下一次迭代时重新计算梯度。
Adadelta算法 Adadelta算法是Adagrad的改进版本通过限制累积梯度的历史信息解决了Adagrad学习率递减过快的问题。它对学习率的调整更加平滑适合于长期训练的模型。 def init_adadelta_states(feature_dim):s_w torch.zeros((feature_dim, 3))s_b torch.zeros(3)delta_w torch.zeros((feature_dim, 3))delta_b torch.zeros(3)return (s_w, s_b, delta_w, delta_b)def adadelta(params, states, hyperparams):rho, eps hyperparams[rho], 1e-6for p, s, delta in zip(params, states[:2], states[2:]):with torch.no_grad():s[:] rho * s (1 - rho) * torch.square(p.grad)update (torch.sqrt(delta eps) / torch.sqrt(s eps)) * p.gradp[:] - updatedelta[:] rho * delta (1 - rho) * torch.square(update)p.grad.data.zero_()init_adadelta_states函数用于初始化Adadelta算法的状态。 创建了四个张量 s_w、s_b、delta_w 和 delta_b分别用于保存权重参数和偏置参数的梯度平方累积和以及参数更新的累积平方梯度。这些状态张量的形状与对应的参数张量相同。 adadelta函数使用Adadelta算法来更新模型的参数。 接受三个输入params表示模型的参数张量列表states表示Adadelta算法的状态张量列表hyperparams表示超参数字典其中包含衰减率 rho。在更新参数之前算法首先定义了两个小量rho表示衰减率用于平衡历史梯度和当前梯度的贡献eps用于避免除零错误。对于每个参数张量 p 和对应的状态张量 s、delta算法执行以下操作 计算参数梯度的平方。使用衰减率 rho 更新状态张量 s使用历史梯度和当前梯度的加权平均以平衡参数更新的速度。计算参数更新的值 update使用参数更新的累积平方梯度来调整更新的幅度。使用更新值 update 更新参数 p根据调整后的学习率大小来更新参数。使用衰减率 rho 更新累积平方梯度 delta。使用 p.grad.data.zero_() 将参数梯度置零以便下一次迭代时重新计算梯度。
RMSprop算法 RMSpropRoot Mean Square Propagation算法是一种针对Adagrad算法的改进方法通过引入衰减系数来平衡历史梯度和当前梯度的贡献。它能够更好地适应不同参数的变化情况对于非稀疏数据集表现较好。 def init_rmsprop_states(feature_dim):s_w torch.zeros((feature_dim, 3))s_b torch.zeros(3)return (s_w, s_b)def rmsprop(params, states, hyperparams):gamma, eps hyperparams[gamma], 1e-6for p, s in zip(params, states):with torch.no_grad():s[:] gamma * s (1 - gamma) * torch.square(p.grad)p[:] - hyperparams[lr] * p.grad / torch.sqrt(s eps)p.grad.data.zero_()
init_rmsprop_states函数用于初始化RMSprop算法中的状态。 创建两个张量 s_w 和 s_b分别用于保存权重参数和偏置参数的梯度平方累积和。这些状态张量的形状与对应的参数张量相同。 rmsprop函数使用RMSprop算法来更新模型的参数。 它接受三个输入params表示模型的参数张量列表states表示RMSprop算法的状态张量列表hyperparams表示超参数字典其中包含学习率 lr 和衰减率 gamma。在更新参数之前算法首先定义了两个小量gamma表示衰减率用于平衡历史梯度和当前梯度的贡献eps用于避免除零错误。对于每个参数张量 p 和对应的状态张量 s算法执行以下操作 使用 torch.square(p.grad) 计算参数梯度的平方。使用衰减率 gamma 更新状态张量 s使用了历史梯度和当前梯度的加权平均以平衡参数更新的速度。使用自适应学习率更新参数 p使用了累积的梯度平方来调整学习率的大小以更好地适应不同参数的更新需求。使用 p.grad.data.zero_() 将参数梯度置零以便下一次迭代时重新计算梯度。
算法测试
batch_size 24# 构建训练集
train_dataset IrisDataset(modetrain)
train_loader DataLoader(train_dataset, batch_sizebatch_size, shuffleTrue)lr 0.02
train(adagrad, init_adagrad_states(4), {lr: lr}, train_loader, 4)
# train(rmsprop, init_rmsprop_states(4), {lr: lr, gamma: 0.9}, train_loader, 4)IrisDataset类 参照前文【深度学习实验】前馈神经网络七批量加载数据直接加载数据→定义类封装数据 train函数 参照前文【深度学习实验】网络优化与正则化一优化算法使用动量优化的随机梯度下降算法Stochastic Gradient Descent with Momentum
5. 代码整合以RMSprop算法为例
import torch
from torch import nn
import torch.nn.functional as F
from d2l import torch as d2l
from sklearn.datasets import load_iris
from torch.utils.data import Dataset, DataLoaderclass FeedForward(nn.Module):def __init__(self, input_size, hidden_size, output_size):super(FeedForward, self).__init__()self.fc1 nn.Linear(input_size, hidden_size)self.fc2 nn.Linear(hidden_size, output_size)self.act nn.Sigmoid()def forward(self, inputs):outputs self.fc1(inputs)outputs self.act(outputs)outputs self.fc2(outputs)return outputsdef evaluate_loss(net, data_iter, loss):评估给定数据集上模型的损失Defined in :numref:sec_model_selectionmetric d2l.Accumulator(2) # 损失的总和,样本数量for X, y in data_iter:X X.to(torch.float32)out net(X)# y d2l.reshape(y, out.shape)l loss(out, y.long())metric.add(d2l.reduce_sum(l), d2l.size(l))return metric[0] / metric[1]def train(trainer_fn, states, hyperparams, data_iter, feature_dim, num_epochs2):Defined in :numref:sec_minibatches# 初始化模型w torch.normal(mean0.0, std0.01, size(feature_dim, 3),requires_gradTrue)b torch.zeros((3), requires_gradTrue)# 训练模型animator d2l.Animator(xlabelepoch, ylabelloss,xlim[0, num_epochs], ylim[0.9, 1.1])n, timer 0, d2l.Timer()# 这是一个单层线性层net lambda X: d2l.linreg(X, w, b)loss F.cross_entropyfor _ in range(num_epochs):for X, y in data_iter:X X.to(torch.float32)l loss(net(X), y.long()).mean()l.backward()trainer_fn([w, b], states, hyperparams)n X.shape[0]if n % 48 0:timer.stop()animator.add(n / X.shape[0] / len(data_iter),(evaluate_loss(net, data_iter, loss),))timer.start()print(floss: {animator.Y[0][-1]:.3f}, {timer.avg():.3f} sec/epoch)return timer.cumsum(), animator.Y[0]def load_data(shuffleTrue):x torch.tensor(load_iris().data)y torch.tensor(load_iris().target)# 数据归一化x_min torch.min(x, dim0).valuesx_max torch.max(x, dim0).valuesx (x - x_min) / (x_max - x_min)if shuffle:idx torch.randperm(x.shape[0])x x[idx]y y[idx]return x, yclass IrisDataset(Dataset):def __init__(self, modetrain, num_train120, num_dev15):super(IrisDataset, self).__init__()x, y load_data(shuffleTrue)if mode train:self.x, self.y x[:num_train], y[:num_train]elif mode dev:self.x, self.y x[num_train:num_train num_dev], y[num_train:num_train num_dev]else:self.x, self.y x[num_train num_dev:], y[num_train num_dev:]def __getitem__(self, idx):return self.x[idx], self.y[idx]def __len__(self):return len(self.x)def init_rmsprop_states(feature_dim):s_w torch.zeros((feature_dim, 3))s_b torch.zeros(3)return (s_w, s_b)def rmsprop(params, states, hyperparams):gamma, eps hyperparams[gamma], 1e-6for p, s in zip(params, states):with torch.no_grad():s[:] gamma * s (1 - gamma) * torch.square(p.grad)p[:] - hyperparams[lr] * p.grad / torch.sqrt(s eps)p.grad.data.zero_()# batch_size 1
batch_size 24
# batch_size 120# 分别构建训练集、验证集和测试集
train_dataset IrisDataset(modetrain)train_loader DataLoader(train_dataset, batch_sizebatch_size, shuffleTrue)lr 0.02
train(rmsprop, init_rmsprop_states(4), {lr: lr, gamma: 0.9}, train_loader, 4)