当前位置: 首页 > news >正文

推拿网站制作seo美式

推拿网站制作,seo美式,cms系统介绍,google adsense wordpress 插件目录 一.梯度概念 1.一元函数 2.二元函数 3.几何意义上的区别 二.梯度下降 1.原理 2.步骤 3.示例代码(Python) 4.不同类型的梯度下降 5.优缺点 三.动量优化器(Momentum) 适用场景 1.复杂地形的优化问题 2.数据具有噪声的问…

目录

一.梯度概念

1.一元函数

2.二元函数

 3.几何意义上的区别

二.梯度下降

 1.原理

 2.步骤

3.示例代码(Python)

4.不同类型的梯度下降

 5.优缺点

 三.动量优化器(Momentum)

适用场景

1.复杂地形的优化问题

 2.数据具有噪声的问题

3.目标函数变化缓慢的问题

4.特征稀疏的问题

指定参数 

1. params

3. momentum(动量系数)

4. weight_decay(权重衰减)

5. nesterov(是否使用 Nesterov 动量)

 四.Adagrad(Adaptive Gradient Algorithm)

 五.Adadelta

 六.RMSProp(Root Mean Square Propagation)

 七.Adam(Adaptive Moment Estimation)

 八.Nesterov 加速梯度(Nesterov Accelerated Gradient,NAG)


一.梯度概念

梯度和导数既有联系又有区别,下面从一元函数、多元函数以及几何意义等方面为你详细解释:

1.一元函数

联系:在一元函数  中,梯度和导数本质上是相同的概念。导数表示函数在某一点处的变化率,它描述了函数值随自变量变化的快慢程度。其定义为函数在该点的极限:

 

 梯度在一元函数中也是指函数在某一点的变化率,所以此时梯度就是导数。例如,对于函数y=2x+1 ,其导数y`=2 ,这也是该函数在任意点的梯度。

  • 表示形式:在一元函数里,导数和梯度都可以用一个标量值来表示。

2.二元函数

  • 作用:偏导数只能反映函数在某一个坐标轴方向上的变化情况,而梯度则综合了函数在各个自变量方向上的变化信息,它指向函数值增长最快的方向,梯度的模表示函数在该方向上的最大变化率。

 3.几何意义上的区别

  • 导数(一元函数):一元函数的导数在几何上表示函数曲线在某一点处的切线斜率,反映了曲线在该点的倾斜程度。
  • 梯度(多元函数):多元函数的梯度在几何上表示函数在某一点处的一个向量,该向量垂直于函数在该点的等值面(或等高线),并且指向函数值增加的方向。

综上所述,在一元函数中梯度等同于导数,但在多元函数中,梯度是由多个偏导数组成的向量,与导数(偏导数)的概念不同。

二.梯度下降

 梯度下降(Gradient Descent)是一种常用的优化算法,主要用于寻找函数的最小值。在机器学习和深度学习领域,它被广泛应用于模型参数的优化,例如神经网络中权重和偏置的更新,以最小化损失函数。

 1.原理

梯度下降的核心思想基于函数的梯度特性。对于一个多元函数f=(x1,x2,x3.....) ,其梯度vf  是一个向量,它指向函数值增长最快的方向。那么,负梯度方向就是函数值下降最快的方向。梯度下降算法通过不断地沿着负梯度方向更新参数,逐步逼近函数的最小值

 2.步骤

1.初始化参数:随机初始化待优化的参数 θ = (θ1,θ2,θ3.....θn)

 2.计算梯度:计算损失函数 J(θ) 关于参数 θ 的梯度▽θ 

 3.更新参数:根据负梯度方向更新参数,更新公式为:

       θ:=θ - α▽J(θ)

其中, α学习率(Learning Rate),它控制着每次参数更新的步长。

 4.重复步骤 2 和 3:不断重复计算梯度和更新参数的过程,直到满足停止条件,例如达到最大迭代次数、梯度的模小于某个阈值等。

3.示例代码(Python)

以下是一个简单的示例,使用梯度下降算法来最小化一个简单的一元函数 :f(x) = x₂

import numpy as np# 定义目标函数
def f(x):return x**2# 定义目标函数的导数
def df(x):return 2 * x# 初始化参数
x = 2.0
# 学习率
alpha = 0.1
# 最大迭代次数
max_iter = 100# 梯度下降过程
for i in range(max_iter):# 计算梯度gradient = df(x)# 更新参数x = x - alpha * gradient# 输出当前迭代的结果print(f'Iteration {i+1}: x = {x}, f(x) = {f(x)}')print(f'Optimal x: {x}, f(x) = {f(x)}')

4.不同类型的梯度下降

  • 批量梯度下降(Batch Gradient Descent,BGD):在每次迭代中,使用整个训练数据集来计算梯度并更新参数。这种方法的优点是收敛稳定,能够保证收敛到全局最优解(对于凸函数),但计算开销大,尤其是当数据集较大时。
  • 随机梯度下降(Stochastic Gradient Descent,SGD):在每次迭代中,随机选择一个样本进行梯度计算和参数更新。这种方法的优点是计算速度快,能够快速跳出局部最优解,但收敛过程可能会比较震荡,不稳定。
  • 小批量梯度下降(Mini-Batch Gradient Descent,MBGD):结合了批量梯度下降和随机梯度下降的优点,在每次迭代中,随机选择一小部分样本(一个小批量)来计算梯度并更新参数。这种方法在计算效率和收敛稳定性之间取得了较好的平衡,是实际应用中最常用的方法。

 5.优缺点

  • 优点
    • 通用性强:适用于各种类型的损失函数和模型,只要损失函数可导,就可以使用梯度下降算法进行优化。
    • 易于实现:算法的原理和实现都比较简单,容易理解和掌握。
  • 缺点
    • 学习率选择困难:学习率  α的选择对算法的性能影响很大。如果学习率过大,算法可能会发散,无法收敛到最优解;如果学习率过小,算法的收敛速度会非常慢
    • 可能陷入局部最优解:对于非凸函数,梯度下降算法可能会陷入局部最优解,而无法找到全局最优解。不过,在实际应用中,通过一些技巧(如随机初始化、动量法等)可以在一定程度上缓解这个问题。

 三.动量优化器(Momentum)

  • 原理:动量优化器借鉴了物理中动量的概念,它在更新参数时不仅考虑当前的梯度,还会结合之前的梯度信息。在梯度下降的基础上,引入了一个动量项 ,用于累积之前的梯度。动量项可以帮助参数更新在相同方向上加速,减少在局部最优解附近的震荡,更快地越过局部极小值。

 更新公式

  • 优点:收敛速度通常比普通的梯度下降更快,能有效减少震荡,更快地收敛到最优解。
  • 缺点:需要额外的超参数(动量系数)进行调整。

适用场景

1.复杂地形的优化问题

具有高曲率或局部极小值的函数优化

  • 在目标函数的曲面具有复杂的形状,存在许多局部极小值和鞍点时,普通的梯度下降算法容易陷入局部最优解,或者在鞍点附近停滞不前。而动量优化器凭借动量项的累积效应,能够帮助算法更快地跳出局部极小值和鞍点区域。
  • 例如,在训练深度神经网络时,损失函数的地形通常非常复杂。以图像识别任务中的卷积神经网络为例,其损失函数可能存在大量的局部极小值。动量优化器可以让参数更新在遇到局部极小值时,利用之前累积的动量继续前进,从而更有可能找到全局最优解更好的局部最优解

 2.数据具有噪声的问题

随机梯度下降中的噪声影响缓解

  • 在使用随机梯度下降(SGD)处理大规模数据集时,每次迭代仅使用一个或一小部分样本计算梯度,这会导致梯度估计存在噪声,使得参数更新过程产生较大的震荡。动量优化器可以通过动量项平滑这些噪声的影响。
  • 例如,在推荐系统中,训练数据通常非常庞大且具有一定的噪声。当使用 SGD 进行模型训练时,梯度的波动会比较大。引入动量优化器后,动量项可以对梯度的波动进行平均,使得参数更新更加稳定,减少了噪声对训练过程的干扰,从而加快收敛速度。

3.目标函数变化缓慢的问题

加速收敛过程

  • 当目标函数在某些方向上的变化非常缓慢时,普通的梯度下降算法收敛速度会变得很慢。动量优化器可以在这些方向上累积动量,加快参数在这些方向上的更新速度。
  • 比如,在训练循环神经网络(RNN)处理序列数据时,由于梯度消失梯度爆炸问题,目标函数在某些方向上的变化可能极其缓慢。动量优化器能够在这些方向上积累动量,使得参数更新更快地朝着最优解的方向前进,从而显著提高训练效率。

4.特征稀疏的问题

更好地处理稀疏梯度

  • 在处理稀疏数据时,某些特征的梯度可能很少被更新。动量优化器可以记住之前的梯度信息,即使某个特征的梯度在当前迭代中为零,动量项也能利用之前的梯度推动参数更新。
  • 例如,在自然语言处理中的文本分类任务中,使用词袋模型表示文本时,特征向量通常是非常稀疏的。动量优化器可以有效地处理这种稀疏梯度,让模型更好地学习到稀疏特征与目标之间的关系,提高模型的性能。

指定参数 

1. params
  • 说明:这是必须指定的参数,它表示需要优化的模型参数。在 PyTorch 里,通常通过 model.parameters() 来获取模型中所有可训练的参数。

2. lr(学习率) 

  • 说明学习率控制着每次参数更新的步长,是一个非常关键的参数。如果学习率设置过大,模型可能会在最优解附近震荡甚至发散;如果学习率设置过小,模型的收敛速度会变得非常缓慢。
3. momentum(动量系数)
  • 说明动量系数决定了之前梯度信息在当前参数更新中所占的比重。合适的动量系数可以加速模型的收敛速度,减少震荡。一般来说,常见的动量系数取值在 0.9 左右。
4. weight_decay(权重衰减)
  • 说明权重衰减是一种正则化方法,用于防止模型过拟合。它通过在损失函数中添加一个正则化项,使得模型的参数在更新过程中逐渐变小。权重衰减系数通常设置为一个较小的正数,如 0.0001。
5. nesterov(是否使用 Nesterov 动量)
  • 说明:Nesterov 动量是动量优化器的一种改进版本,它在计算梯度时会考虑到下一个位置的参数值,具有更好的收敛性能。可以通过将 nesterov 参数设置为 True 来启用 Nesterov 动量。

 示例代码

import torch
import torch.nn as nn# 定义一个简单的线性模型
class SimpleModel(nn.Module):def __init__(self):super(SimpleModel, self).__init__()self.linear = nn.Linear(10, 1)def forward(self, x):return self.linear(x)model = SimpleModel()
# 学习效率
learning_rate = 0.01
# 动量系数
momentum = 0.9
# 权重衰减
weight_decay = 0.0001
# 是否使用 Nesterov 动量
nesterov = True# 创建优化器
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate, momentum=momentum,weight_decay=weight_decay, nesterov=nesterov)

 四.Adagrad(Adaptive Gradient Algorithm)

  • 原理Adagrad 是一种自适应学习率的优化器,它会根据每个参数的历史梯度信息自动调整学习率。对于那些经常更新的参数,学习率会逐渐减小;而对于不经常更新的参数,学习率会相对较大。这样可以让每个参数根据自身的特性进行更合理的更新。
  • 更新公式

  • 优点:无需手动调整学习率,能够自适应地为不同参数分配合适的学习率,在稀疏数据场景下表现良好。
  • 缺点:随着迭代次数的增加,学习率会不断减小,可能导致后期收敛速度过慢,甚至提前停止更新。

 五.Adadelta

  • 原理Adadelta 是对 Adagrad 的改进,它解决了 Adagrad 学习率单调递减的问题。Adadelta 不需要手动设置全局学习率,而是通过计算梯度的指数移动平均来动态调整学习率,使得学习率在训练过程中不会一直减小。
  • 优点:无需设置全局学习率,避免了 Adagrad 学习率衰减过快的问题,在不同的数据集和模型上都有较好的表现。
  • 缺点:需要调整的超参数相对较多,包括指数衰减率等。

 六.RMSProp(Root Mean Square Propagation)

  • 原理RMSProp 也是一种自适应学习率的优化器,它与 Adadelta 类似,通过计算梯度平方的指数移动平均来调整学习率。RMSProp 能够有效地缓解 Adagrad 学习率下降过快的问题,使得模型在训练过程中能够持续学习。
  • 更新公式

  • 优点:自适应调整学习率,在处理非凸优化问题时表现较好,收敛速度较快。
  • 缺点:仍然需要手动调整学习率和衰减率等超参数。

 七.Adam(Adaptive Moment Estimation)

  • 原理Adam 结合了动量优化器和自适应学习率的思想,它同时计算梯度的一阶矩估计均值)和二阶矩估计方差),并利用这些估计值来动态调整每个参数的学习率。Adam 具有较快的收敛速度和较好的稳定性。
  • 更新公式

  • 优点:收敛速度快,对不同类型的数据集和模型都有较好的适应性,在深度学习中被广泛使用。
  • 缺点:可能会在某些情况下出现过拟合的问题,需要进行适当的正则化处理

 八.Nesterov 加速梯度(Nesterov Accelerated Gradient,NAG)

  • 原理NAG 是动量优化器的一种改进版本。它在计算梯度时,先根据动量项大致预估下一个位置的参数值,然后在这个预估位置计算梯度,这样可以让优化器更有前瞻性,提前知道梯度的变化趋势,从而更快地收敛。

 更新公式:

  • 优点:比传统的动量优化器收敛速度更快,尤其在处理一些复杂的优化问题时表现更优。
  • 缺点:同样需要调整动量系数和学习率等超参数。
http://www.tj-hxxt.cn/news/4815.html

相关文章:

  • 北京服饰电商网站建设网站推广优化业务
  • 华为云建站怎么样百度竞价排名价格
  • 建设网站所采用的技术方案反向链接查询
  • 河南平台网站建设个人网站制作
  • wordpress页面模版调用分类目录seo服务合同
  • 招商加盟网站的图应该怎么做企业网站建设目标
  • 网站建设思维导图模版百色seo关键词优化公司
  • 自己做网站用软件网站收录工具
  • 江西网站开发百度关键词排名销售
  • 买网站需要多少钱交换友情链接吧
  • 北京公司如何做网站精准引流的网络推广方法
  • 成都公司建设网站网站排名优化软件有哪些
  • 成都网站建设方案如何做网络宣传推广
  • 网站制作有什么好的介绍各大网站提交入口网址
  • 淘宝网站怎么做网站免费建站软件
  • 郴州草皮网站建设百度seo技术优化
  • 传媒网站给行业做宣传能翻到国外的浏览器
  • 如何将自己做的网站买号链接
  • 房城乡建设部网站竞价托管推广哪家好
  • 小县城做网站seo推广绩效考核指标是什么
  • 有没有可以在线做化学实验的网站新网站推广方法
  • 网站建设费用构成网络推广渠道有哪些
  • 有域名了网站怎么做精准营销理论
  • 网站建设意见征求表重大新闻事件2023
  • 东莞做网站 9353百度快照网址
  • 网站上传服务器后台上传资料出错自有品牌如何推广
  • 遵义建设网站sem是什么意思职业
  • 设计类网站模板刷粉网站推广快点
  • js将网站添加到收藏夹口碑营销成功案例简短
  • 韶关市手机网站建设怎么样bt最佳磁力搜索引擎