当前位置：首页 > news >正文

北京南昌网站建设如何在百度发广告推广

news 2025/7/13 11:46:54

北京南昌网站建设,如何在百度发广告推广,国内设计网站公司,建盏的好坏怎么区分文章目录介绍模型结构层（Layer）神经元前向传播反向传播Q1: 为什么要用向量Q2: 不用激活函数会发生什么介绍我们已经学习了简单的分类任务和回归任务，也认识了逻辑回归和正则化等技巧，已经可以搭建一个简单的神经网络模型了。 …

文章目录

介绍
模型结构
- 层（Layer）
- 神经元
前向传播
反向传播
Q1: 为什么要用向量
Q2: 不用激活函数会发生什么

介绍

我们已经学习了简单的分类任务和回归任务，也认识了逻辑回归和正则化等技巧，已经可以搭建一个简单的神经网络模型了。
神经网络模仿人类神经元，进行运算、激活、传递等一系列行为，最终得到结果。这些将在之后详细讲述

模型结构

层（Layer）

一个完整的神经网络由许多层（layer）组成，除了输入层和输出层，中间的层被统称为隐藏层（Hidden Layers），具体根据功能不同有不同的名字。

神经元

一个层由许多神经元组成，一层中神经元的数量称为这一层的宽度。
比如，样本特征有“桌子的长 $a$ ”和“桌子的宽 $b$ ”，标签为"桌子的面积 $s$ "，则我们可以画出这样的图（举个例子）：
在这里插入图片描述
每一个神经元要做的最基本的事情，就是获取上一个神经元的输入，经过计算，给出一个信号给下一个神经元。

前向传播

前向传播就是接收输入后，经过一系列神经元的计算，再输出的整个过程。最简单的，我们设每个神经元使用最简单的线性回归模型：

输入向量 $x^{(i)}$
$f^{(i)}_{j}(x^{(i)}) = w^{(i)}_{j} \cdot x^{(i)} + b^{(i)}_{j}$
这里 $w^{(i)}_{j}$ 和 $b^{(i)}_{j}$ 都是神经元上附带的参数， $i$ 是层的编号， $j$ 是神经元的编号

通常计算出 $f$ 后，得到的结果会再经过一个激活函数 $g$ ，来实现非线性的拟合，我们以 $S i g m o i d$ 函数为例：

$\frac{1}{1+e^{-z}}$

回顾一下 $S i g m o i d$ 函数的性质：

$g^{'} (z) = g (z) * [1 - g (z)]$

然后这一层得到的结果作为输入进入下一层：

$x^{(i+1)}=\begin{bmatrix}g(f^{(i)}_{1}(x^{(i)}))\\g(f^{(i)}_{2}(x^{(i)}))\\...\\g(f^{(i)}_{k_{i}}(x^{(i)}))\end{bmatrix}$

除了Sigmoid函数，Relu函数也经常被使用：

$g(z)=\begin{cases}z \ \ if \ z \ge 0, \\0 \ \ if \ z < 0 \end{cases} = max(0, z)$

在这里插入图片描述
由于它的导数非常简单，可以加速收敛；更重要的是它可以避免梯度消失问题，这个之后再讲。

在最后的输出层时，我们通常使用另一个激活函数 $S o f t ma x$

$[x_{1}, x_{2}, ..., x_{k}] \to y = [y_{1}, y_{2}, ..., y_{k}]$
$\ that \ y_{i}=\frac{x_{i}}{\sum_{j=1}^{k}x_{j}}$
即按比例将结果转化为概率的形式，且总和为 $1$
因此得到的 $y_{i}$ 有时也会写为 $P (y = i ∣ x)$

反向传播

在训练模型过程中，我们会将样本集丢进初始化的模型中，得到预测值，通过预测值与标签（真实值）的差异来调整模型；在神经网络中也是如此。我们这里采用梯度下降的方式，且假定损失函数为均方误差，前向传播的过程如下：
在这里插入图片描述
于是，根据梯度下降，有：

$w^{(i)}_{j} = w^{(i)}_{j} - \alpha \frac{\delta L}{\delta w^{(i)}_{j}}$
$b^{(i)}_{j} = w^{(i)}_{j} - \alpha \frac{\delta L}{\delta b^{(i)}_{j}}$

其中 $\alpha$ 为学习率， $\delta$ 是偏导，回顾一下每个神经元的运算：

$z^{(i)}_{j} = f^{(i)}_{j}(x^{(i)}) = w^{(i)}_{j} \cdot x^{(i)} + b^{(i)}_{j}$
$x^{(i+1)}_{j} = g(z^{(i)}_{j})$ ，其中假设每个神经元用的都是g为 $s i g m o i d$ 函数，不作区分

应用链式法则：
$\frac{\delta L}{\delta w^{(i)}_{j}}=\frac{\delta L}{\delta x^{(i+1)}_{j}}*\frac{\delta x^{(i+1)}_{j}}{\delta z^{(i)}_{j}}*\frac{\delta z^{(i)}_{j}}{\delta w^{(i)}_{j}}$
$\ \ \ \ \ \ \ \ \ =\frac{\delta L}{\delta x^{(i+1)}_{j}}*x^{(i+1)}_{j}*(1-x^{(i+1)}_{j})*x^{(i)}_{j}$
$\frac{\delta L}{\delta b^{(i)}_{j}}=\frac{\delta L}{\delta x^{(i+1)}_{j}}*\frac{\delta x^{(i+1)}_{j}}{\delta z^{(i)}_{j}}*\frac{\delta z^{(i)}_{j}}{\delta b^{(i)}_{j}}$
$\ \ \ \ \ \ \ \ \ =\frac{\delta L}{\delta x^{(i+1)}_{j}}*x^{(i+1)}_{j}*(1-x^{(i+1)}_{j})$

计算 $\frac{\delta L}{\delta x^{(i)}_{j}}$ :
$\frac{\delta L}{\delta x^{(i)}_{j}} = \frac{\delta L}{\delta x^{(i+1)}_{j}} * \frac{\delta x^{(i+1)}_{j}}{\delta x^{(i)}_{j}}$
$\ \ \ \ \ \ \ \ = \frac{\delta L}{\delta x^{(i+1)}_{j}} *x^{(i+1)}_{j}*(1-x^{(i+1)}_{j}) * w_{j}^{(i)}$
最后一层，这里 $y$ 是标签， $y^{'}$ 是预测值：
$\frac{\delta L}{\delta x^{(m-1)}_{j}}=\frac{\delta L}{\delta y^{'}_{j}}=\frac{1}{n}*(y^{'}_{j}-y_{j})$
使用归纳（反向递推），即可得到 $\frac{\delta L}{\delta x^{(i)}_{j}}$