当前位置：首页 > news >正文

福建省建设继续教育网站推广神器app

news 2025/7/5 20:12:33

福建省建设继续教育网站,推广神器app,好用的cms,wordpress怎么更换系统文件夹高数问题解决流程引例：回归回归引例：分类分类线性可分FLD线性不可分智能计算讨论范围下降法为什么要用下降法？- 解析解很难写出公式或很复杂难计算有哪些常用的下降法？- 梯度下降&高斯-牛顿法梯度下降（Gradient De…

高数

问题解决流程
- 引例：回归
回归
- 引例：分类
分类
- 线性可分
- - FLD
- 线性不可分
智能计算讨论范围
下降法
- 为什么要用下降法？- 解析解很难写出公式或很复杂难计算
- 有哪些常用的下降法？- 梯度下降&高斯-牛顿法
- - 梯度下降（Gradient Descent）- 本质：一阶泰勒展开式近似
  - - 如何找到一阶泰勒展开式的最优解（最小值）？- 柯西一施瓦兹不等式
    - 结论：下降最快的方向为梯度的反方向，即梯度下降。
  - 牛顿法 - 本质：二阶泰勒展开式近似
  - - 如何找到二阶泰勒展开式的最优解（最小值）？- 梯度=0
分类&回归
线性分析
常用不等式
- 绝对值不等式
- 柯西不等式
- 算术-几何平均不等式
数列极限
- 序列极限
- - 上极限
  - 下极限
级数
点集拓扑
- 开集
- - 开集性质
- 闭集
- - 闭集性质
- 紧集
- - Heine-Borel定理
- 例题：判断 $Rn\mathbb{R^n}$ 和 $∅\emptyset$ 是否开闭紧？
函数连续性
- 函数连续定义
- - Lipshitz函数是连续函数
  - - Lipshitz函数与机器学习
- 连续函数逼近
- - 拉格朗日插值定理
- 连续函数性质
- - 最值定理
  - 介值定理
- 不连续函数
导数
- 一元函数导数
- - 定义
  - 意义
- 性质
- - 极值定理
  - 微分中值定理
  - 洛必达法则
  - 常用公式
- $C∞C^\infty$
多元多值函数
- 可微
- 梯度存在

问题解决流程

idea - math - optimization - algorithm

引例：回归

在这里插入图片描述

question：123456x，预测x值为多少？
idea： $f(xi)=atxi+b,f(xi)≈yif(x_i)=a^tx_i+b, f(x_i)\approx y_i$ ，使用 $f (x)$ 预测新样本 $x$ 。
optimization：使用L1、L2范数度量 $f(x_i)$ 和 $y_i$ 的差距，即loss function。如何求出参数使得loss function最小？- 偏导数为0。
algorithm：GD、Newton’s method

回归

在这里插入图片描述

引例：分类

智能计算讨论范围

智能计算讨论的是问题解决流程中的math和optimization。

在这里插入图片描述

下降法

为什么要用下降法？- 解析解很难写出公式或很复杂难计算

在这里插入图片描述

考虑求极值问题场景，需要找到一个 $x^*$ 使得 $f(x^*)$ 小于等于邻域内的任意 $f (x)$ ， $x^*$ 是极小值问题的解，因为 $x^*$ 的解析解很难写出公式或者可以写出但是公式很复杂难计算，所以考虑使用下降法。

解析解：指通过严格的公式所求得的解。即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。给出解的具体函数形式，从解的表达式中就可以算出任何对应值。解析解为一封闭形式的函数，因此对任一独立变量，皆可将其代入解析函数求得正确的相依变量。因此，解析解也称为闭式解。

解析法：用来求得解析解的方法称为解析法，解析法是常见的微积分技巧，如分离变量法等。

下降法亦称极小化方法，是一类重要的迭代法。这类方法将方程组求解问题转化为求泛函极小问题。

使用下降法，找出一系列函数值递减的 $f (x)$ 序列，这个下降过程不是一直持续下去的过程，根据一些停止条件得到一个 $x_k$ 时，这个 $x_k$ 即优化问题的解 $x^*$ 。

有哪些常用的下降法？- 梯度下降&高斯-牛顿法

梯度下降（Gradient Descent）- 本质：一阶泰勒展开式近似

在这里插入图片描述

优化问题：在 $x$ 的邻域内，找到一个 $\Delta x$ ，使得 $f(x)>f(x+Δx)f(x)\gt f(x+\Delta x)$ ，且 $f(x+Δx)f(x+\Delta x)$ 在该邻域最小。

数学问题：如何找到该邻域最小 $f(x+Δx)f(x+\Delta x)$ ？

问题难点：因为 $f (x)$ 优化问题的解析解不容易求解，因此 $f(x+Δx)f(x+\Delta x)$ 优化问题的解析解也不容易求解。

解决方法：考虑 $f(x+Δx)f(x+\Delta x)$ 的线性近似——一阶泰勒展开式。将 $min∣∣Δx∣∣≤εf(x+Δx)\underset {||\Delta x||\le \varepsilon}{min} f(x+\Delta x)$ 问题转换为 $min∣∣Δx∣∣≤ε(f(x)+atΔx)\underset {||\Delta x||\le \varepsilon}{min} (f(x)+a^t \Delta x)$ ，因为 $min∣∣Δx∣∣≤ε(f(x)+atΔx)\underset {||\Delta x||\le \varepsilon}{min} (f(x)+a^t \Delta x)$ 中 $f (x)$ 是固定的， $Δx\Delta x$ 是变量，所以问题可再次简化为 $min∣∣Δx∣∣≤εatΔx\underset {||\Delta x||\le \varepsilon}{min} a^t \Delta x$ 。

在这里插入图片描述

如何找到一阶泰勒展开式的最优解（最小值）？- 柯西一施瓦兹不等式

根据柯西一施瓦兹不等式(Cauchy-Schwarz inequality)， $atΔxa^t \Delta x$ 的最小值是显而易见的。

在这里插入图片描述

由以上不等式可得： $\le <a,b> \le ||a||·||b||$ 。
当且仅当a和b共线同向时，a和b线性正相关， $\le ||a||·||b||$ 成立。
当且仅当a和b共线反向时，a和b线性负相关， $\le <a,b>$ 成立。

在这里插入图片描述

当 $Δx=−λa\Delta x=-\lambda a$ 时，表示 $Δx\Delta x$ 与 $a$ 线性负相关，共线反向， $atΔx=−ε∣∣a∣∣a^t \Delta x=-\varepsilon ||a||$ 成立。

一阶泰勒展开式中，a表示梯度，所以下降最快的方向为梯度的反方向。

结论：下降最快的方向为梯度的反方向，即梯度下降。

$λ\lambda$ 即为学习率。

在这里插入图片描述

牛顿法 - 本质：二阶泰勒展开式近似

在这里插入图片描述

优化问题：在 $x$ 的邻域内，找到一个 $\Delta x$ ，使得 $f(x)>f(x+Δx)f(x)\gt f(x+\Delta x)$ ，且 $f(x+Δx)f(x+\Delta x)$ 在该邻域最小。

数学问题：如何找到该邻域最小 $f(x+Δx)f(x+\Delta x)$ ？

问题难点：因为 $f (x)$ 优化问题的解析解不容易求解，因此 $f(x+Δx)f(x+\Delta x)$ 优化问题的解析解也不容易求解。

解决方法：考虑 $f(x+Δx)f(x+\Delta x)$ 的线性近似——二阶泰勒展开式。将 $min∣∣Δx∣∣≤εf(x+Δx)\underset {||\Delta x||\le \varepsilon}{min} f(x+\Delta x)$ 问题转换为 $minΔx(f(x)+atΔx+12(Δx)tPΔx)\underset {\Delta x}{min} (f(x)+a^t \Delta x+\frac 1 2 (\Delta x)^t P \Delta x)$ ，其中 $f (x)$ 是固定的， $Δx\Delta x$ 是变量， $atΔxa^t \Delta x$ 是关于 $Δx\Delta x$ 一次函数， $12(Δx)tPΔx)\frac 1 2 (\Delta x)^t P \Delta x)$ 是 $Δx\Delta x$ 二次函数。

因为使用二阶泰勒展开式近似， $f(x+Δx)f(x+\Delta x)$ 可看做一个二次函数，可以找到全局最优值，而不需要在邻域中讨论，所以可以删除 $∣∣Δx∣∣≤ε||\Delta x||\le \varepsilon$ 条件。

在这里插入图片描述

如何找到二阶泰勒展开式的最优解（最小值）？- 梯度=0

令 $g(Δx)=minΔx(f(x)+atΔx+12(Δx)tPΔx)g(\Delta x)=\underset {\Delta x}{min} (f(x)+a^t \Delta x+\frac 1 2 (\Delta x)^t P \Delta x)$ ，对 $g(Δx)g(\Delta x)$ 求关于 $Δx\Delta x$ 的微分，即梯度 $∇g\nabla g$ ，令 $∇g=0\nabla g = 0$ ，求出 $Δx=−P−1a=−(∇2f(x))−1(∇f(x))\Delta x = -P^{-1}a=-(\nabla^2f(x))^{-1}(\nabla f(x))$ 即为最优解。实际使用时，为了防止 $(∇2f(x))−1(∇f(x))(\nabla^2f(x))^{-1}(\nabla f(x))$ 过大，偏移过远，拟合不准确的问题，需要添加学习率 $λ\lambda$ ，即 $Δx=−λ(∇2f(x))−1(∇f(x))\Delta x =-\lambda(\nabla^2f(x))^{-1}(\nabla f(x))$ 。