网站功能列表,厂家招商,北京电商网站开发多少钱,建设网站框架零、参考资料
一篇文章完全搞懂正则化#xff08;Regularization#xff09;-CSDN博客
一、 机器学习概述
0. 机器学习的层次结构
学习范式#xff08;最高层#xff09; 怎么学 监督学习 无监督学习 半监督学习 强化学习 学习任务#xff08;中间层#xff0…零、参考资料
一篇文章完全搞懂正则化Regularization-CSDN博客
一、 机器学习概述
0. 机器学习的层次结构
学习范式最高层 怎么学 监督学习 无监督学习 半监督学习 强化学习 学习任务中间层 分类任务 回归任务 聚类任务 降维任务 其他任务 学习算法底层 用什么学 基础算法 集成算法 深度学习算法 概率模型算法
学习方式数据特点主要任务典型算法监督学习有标签数据分类、回归决策树、SVM无监督学习无标签数据聚类、降维K-Means、PCA半监督学习部分有标签分类、回归标签传播强化学习奖励信号策略学习Q-learning
1. 人工智能、机器学习与深度学习的关系
人工智能(AI)是最大的概念。它包含了所有让机器模拟人类智能行为的技术和方法。机器学习(ML)是人工智能的一个子集是实现人工智能的一种重要方法。深度学习(DL)则是机器学习的一个分支是一种特殊的机器学习方法。机器学习任务 和 机器学习算法 2. 机器学习的定义与方向
机器学习通过技术手段利用已有的数据(经验)开发可以用来对新数据进行预测的模型。机器学习让计算机从数据中学习规律而不是通过传统的硬编码规则来解决问题。机器学习主要研究产生模型的算法。
2-1 机器学习按基于学习方式的分类
基于学习方式的划分有监督学习、无监督学习、强化学习
学习方式定义主要任务/场景常用算法监督学习 (Supervised Learning)使用已标记的数据进行训练 分类问题- 垃圾邮件识别 - 图像识别 回归问题- 房价预测 - 销量预测 • 决策树 • 支持向量机(SVM) • 随机森林 • 逻辑回归 • 神经网络 无监督学习 (Unsupervised Learning)使用未标记的数据基于数据本身去发现数据中的模式和特征 聚类- 客户群体划分 降维- 特征压缩 异常检测 关联分析 • K-means聚类 • 主成分分析(PCA) • 自编码器 • DBSCAN 强化学习 (Reinforcement Learning)通过与环境交互来学习最优策略 • 游戏AI • 机器人控制 • 自动驾驶 • Q-learning • DQN • DDPG • PPO 半监督学习 (Semi-supervised Learning)同时使用标记和未标记数据进行训练适用场景- 标记数据获取成本高 - 未标记数据丰富 • 自训练 • 协同训练 • 生成模型
有监督学习 与 无监督学习有监督学习数据被打上圆和×的tag目的是找到圆和×的边界无监督学习数据的tag是一样的(没有tag或标识)目的是找到数据聚合的特征将数据根据特征聚类。
强化学习
无监督学习 与 强化学习的区别
数据形式无监督学习静态数据点 强化学习动态交互数据学习目标无监督学习发现数据模式 强化学习最大化累积奖励反馈机制无监督学习无外部反馈 强化学习环境提供奖励信号应用场景无监督学习数据分析和模式识别 强化学习决策制定和控制问题
有监督学习、无监督学习、强化学习的差异
比较维度监督学习无监督学习强化学习训练数据有标记的数据输入和正确答案配对无标记数据只有输入数据无需预先准备的数据通过与环境交互获得学习目标学习输入到输出的映射关系发现数据内在的结构和模式学习在环境中获得最大奖励的策略反馈方式即时反馈知道预测是否正确无外部反馈延迟反馈通过奖励信号典型问题 • 分类是/否判断 • 回归数值预测 • 聚类 • 降维 • 异常检测 • 决策制定 • 控制优化 • 策略学习 应用场景 • 图像识别 • 垃圾邮件过滤 • 疾病诊断 • 房价预测 • 客户分群 • 推荐系统 • 异常交易检测 • 特征提取 • 游戏AI • 机器人控制 • 自动驾驶 • 资源调度 优点 • 准确度高 • 结果可控 • 容易评估 • 不需要标注数据 • 可发现未知模式 • 成本较低 • 能够自主决策 • 可以处理复杂环境 • 持续学习改进 缺点 • 需要大量标注数据 • 标注成本高 • 可能过拟合 • 结果不易评估 • 可解释性较差 • 效果不够精确 • 训练时间长 • 需要大量试错 • 收敛性不稳定 经典算法 • 决策树 • SVM • 神经网络 • 逻辑回归 • K-means • PCA • DBSCAN • 自编码器 • Q-learning • DQN • DDPG • PPO 2-2 机器学习按基于学习策略的分类 3. 分类和回归的定义与区别
3-1 分类
分类是将不同的类别进行分开目标是预测离散的类别标签输出是类别如是/否、猫/狗/鸟、优/良/差例子垃圾邮件检测(是/否)、图像识别(猫/狗)、疾病诊断(良性/恶性)
3-2 回归
回归是找到一个空间使得数据点尽可能落在空间上目标是预测连续的数值输出是具体的数值如价格、温度、身高例子房价预测、温度预测、销售额预测
3-3 分类和回归的区别
4. 机器学习常见函数
4-1 损失函数
用于衡量模型预测值与真实值之间的差距反映模型预测的好坏程度目标是最小化损失函数值职责评估模型性能、提供优化目标、计算误差大小
4-2 优化函数
目标找到使损失函数最小的模型参数作用指导模型如何调整参数以提高性能类比就像在山谷中寻找最低点的过程职责决定如何更新参数、控制学习速度、避免局部最小值优化函数相当于驾驶策略参数相当于油门和方向盘。目标是到达目的地最优解
4-3 损失函数与优化函数的关系
损失函数 地图告诉你距离目标有多远优化函数 导航策略告诉你如何到达目标损失函数告诉我们差距有多大优化函数告诉我们如何缩小差距
4-4 优化函数的执行过程 4-5 优化函数的种类
基础优化器
优化器特点优势劣势适用场景BGD (批量梯度下降)使用全部数据计算梯度 - 稳定 - 准确 - 速度慢 - 内存消耗大 小数据集SGD (随机梯度下降)每次使用单个样本 - 速度快 - 内存效率高 - 不稳定 - 容易震荡 大数据集 在线学习 Mini-batch GD使用小批量数据 - 平衡速度和稳定性 - 并行计算友好 - 需要调整批量大小最常用场景
改进优化器
优化器核心思想优势劣势适用场景Momentum累积历史梯度 - 加快收敛 - 减少震荡 - 需要额外内存 - 可能过冲 有明显方向的优化AdaGrad自适应学习率 - 适合稀疏数据 - 自动调整参数 - 后期学习过慢 稀疏数据 NLP任务 RMSprop指数衰减的梯度累积 - 解决学习率衰减 - 适应性好 - 需要设置衰减率 RNN训练 非凸优化
现代优化器
优化器原理优势劣势适用场景Adam结合动量和自适应学习率 - 收敛快 - 参数自适应 - 稳定性好 - 计算开销大 - 可能不收敛 深度学习默认选择AdaDelta自适应学习率无需设置 - 无需设置学习率 - 鲁棒性好 - 计算复杂对超参数敏感的任务NadamAdam Nesterov动量 - 收敛更快 - 更精确 - 计算开销更大需要快速收敛的任务
5. 机器学习常见评估指标
评估模型性能、验证模型泛化能力、指导模型优化方向评估指标是对模型效果数值上的量化不同类型的机器学习 评估指标有差异评价指标是建立在不同的机器学习任务上的主要分为三大类分类、回归和无监督
5-1 不同学习任务的机器学习方法的评估方法 5-2 分类学习任务的评估方法
混淆矩阵
5-3 分类学习任务的评估指标 5-4 回归任务常见评估指标 6. 学习任务
机器学习的学习任务指的是机器学习算法在训练过程中学校要完成的具体目标。这个定义会直接影响到我们如何收集数据、选择算法和评估结果。
6-1 本质定义
学习任务就是要教会机器做什么是机器需要通过数据学习来完成的具体工作目标
6-2 主要特点
有明确的输入和期望的输出可以通过数据来学习规律有具体的评估标准来衡量性能
6-3 任务的构成要素
输入空间数据的特征输出空间预测的目标假设空间可能的模型集合评估准则衡量模型好坏的标准
6-4 学习任务的作用
明确问题的目标确定需要收集的数据类型选择合适的算法和模型设定合理的评估标准
6-5 举例 预测房价就是一个学习任务 输入房屋的面积、位置、年份等特征输出预测的房价评估标准预测价格与实际价格的误差
二、机器学习经典算法介绍
1. 线性回归算法
1-1 定义
线性回归是一种建立自变量特征变量和因变量目标变量之间线性关系的统计方法。核心思想是找到条直线或超平面使得所有数据点到这条线的距离的平方和最小。
1-2 任务类型
分类维度任务类型特点示例按变量数量简单线性回归 • 一个自变量 • 一个因变量 房屋面积预测房价多元线性回归 • 多个自变量 • 一个因变量 用房屋面积、位置、年份等预测房价按预测目标回归预测• 预测连续的数值预测温度、股票价格概率预测• 预测事件发生的概率客户购买概率预测按模型复杂度标准线性回归 • 无正则化项 • 直接最小化均方误差 基础的线性拟合正则化线性回归 • Ridge回归L2正则化 • Lasso回归L1正则化 • 弹性网络L1L2正则化 处理过拟合问题的高维数据建模
1-3 应用场景
销售预测房价估算温度预测消费行为分析经济指标预测人口增长预测
1-4 线性回归的正则化模型
特性Ridge (L2)Lasso (L1)Elastic Net (L1L2)目标函数MSE λΣθ²MSE λΣ|θ|MSE λ₁Σ|θ| λ₂Σθ²正则项形式平方和惩罚绝对值和惩罚同时包含L1和L2惩罚参数效果参数变小但不为0参数可能变为0两种效果的结合解的特点唯一解可能多个解唯一解
2. 逻辑回归算法
2-1 逻辑回归定义
逻辑回归是一种广义线性回归在线性回归的基础上添加非线性变化使得逻辑回归输出值为离散型。逻辑回归是一种将现行模型与sigmoid函数相结合的分类算法。用于建立特征变量和二分类目标变量之间的非线性关系。核心思想是通过sigmoid函数将现行预测值映射到[0,1]区间。
2-2 数学模型
线性部分z θ₀ θ₁x₁ θ₂x₂ ... θₙxₙ θᵀxSigmoid函数h(z) 1 / (1 e^(-z))
2-3 逻辑回归任务类型
分类
2-4 应用场景
考生成绩预测 雾霾天气预测
2-5 逻辑回归的多分类应用
策略类型原理优点缺点适用场景 一对多OvR One-Vs-Rest • 将N分类转化为N个二分类 • 每个类别对应一个分类器 • 实现简单 • 计算效率高 • 训练速度快 • 存在类别不平衡 • 决策边界可能重叠 • 类别数较少 • 计算资源有限 一对一OvO One-Vs-One • 每两个类别训练一个分类器 • 共N(N-1)/2个分类器 • 分类器更专注 • 类别平衡性好 • 分类器数量多 • 计算开销大 • 类别数适中 • 计算资源充足 Softmax回归 • 直接多分类 • 输出概率分布 • 原理简单优雅 • 概率解释性强 • 计算复杂度高 • 收敛较慢 • 互斥类别 • 需要概率输出 2-6 多分类应用一对多 One-Vs-Rest
分类维度说明核心思想将N个类别的多分类问题转化为N个二分类问题实现方式为每个类别训练一个二分类器将该类别作为正类其他所有类别作为负类决策规则选择概率最高的分类器作为最终预测结果 2-6 多分类应用 一对一 One-Vs-One
分类维度说明核心思想在任意两个类别之间训练一个二分类器分类器数量N(N-1)/2个分类器N为类别数决策方式投票机制或概率综合
2-7 多分类应用Softmax
分类维度说明核心思想直接将线性输出转换为多类别概率分布数学本质将logistic回归推广到多分类的情况概率输出所有类别的概率和为1每个类别概率非负
3. 朴素贝叶斯算法 3-1 定义
基于贝叶斯定理与特征条件独立假设的分类方法算法本质 基于贝叶斯定理的概率分类算法核心思想 假设特征之间相互独立计算后验概率基本假设 条件独立假设朴素假设
3-2 任务类型
分类
3-3 应用场景
垃圾邮件 舆情分析
4. k近邻算法 KNN 4-1 定义
K近邻即从训练集中找到与新实例最近的K个实例根据k个实例来进行预测算法本质 基于实例的懒惰学习算法核心思想 物以类聚通过邻近样本投票决定预测结果基本假设 相似的实例具有相似的特征和标签决策规则 K个最近邻居的多数投票或加权平均
4-2 任务类型
分类 回归
4-3 应用场景
约会匹配 商品推荐
4-4 K近邻算法距离度量 5. 支持向量机算法 SVM 求使两虚线距离最远的直线就是求解最大边距超平面过程。直线是超平面的二维解释。
5-1 定义
核心思想 寻找最优分离超平面使两类样本间隔最大支持向量 距离分离超平面最近的样本点间隔 支持向量到分离超平面的距离核函数 将低维数据映射到高维空间的函数
5-2 任务类型
5-3 应用场景
心脏病预测 用户窃电识别
5-4 线性可分与线性不可分 5-5 核函数 6. 决策树算法
6-1 定义
决策树是一种以树结构形式来表达的预测分析模型基本概念 一种树形结构的监督学习模型通过一系列规则对数据进行分类或回归组成部分 根节点起始点内部节点决策点叶节点结果分支决策路径决策过程 从根节点开始根据特征值进行判断直到达到叶节点得到结果模型特点 直观可解释、自动特征选择、处理混合数据类型、可处理缺失值
6-2 任务类型
类型说明特点评估指标分类树预测离散类别叶节点表示类别基尼指数/信息增益分裂准确率F1分数AUC-ROC回归树预测连续值叶节点表示数值均方差分裂MSEMAER²
6-3 应用场景
银行贷款 动物识别
6-4 决策树结构 6-4 决策树构建步骤 特征选择方法计算公式特点适用场景信息增益IG(D,A) H(D) - H(D|A)偏向多值特征ID3算法信息增益比IGR(D,A) IG(D,A)/H(A)克服多值特征偏好C4.5算法基尼指数Gini(D) 1 - Σ(pi)²计算简单高效CART算法均方误差MSE Σ(yi - ȳ)²/n适用连续值回归树
7. 集成算法 类型原理代表算法特点Bagging并行集成随机采样Random Forest, Bagging降低方差防过拟合Boosting串行集成迭代提升AdaBoost, GBDT, XGBoost降低偏差提高精度Stacking多层集成元学习Stacking, Blending综合多模型优
7-1 Bagging 集成学习算法 7-2 Boosting 集成学习算法 7-3 Stacking 集成学习算法 8. 聚类算法
8-1 聚类
聚类是学习任务的一种聚类属于无监督学习的一种。 9. 机器学习算法的 欠拟合 和 过拟合
9-1 欠拟合Underfitting
定义模型太过简单无法捕捉数据中的基本规律特征 训练误差大测试误差大预测效果差原因 训练样本数量少模型复杂度过低参数还未收敛就停止循环解决办法 增加模型复杂度增加有效特征减少正则化强度
9-2 过拟合
定义模型过于复杂不仅学习了数据的真实规律还学习了训练数据中的噪声特征 训练误差小测试误差大泛化能力差原因 数据噪声太大特征太多模型太复杂解决办法 清洗数据减少模型参数降低模型复杂度增加惩罚因子正则化保留所有的特征但是减少参数的大小magnitude
9-3 欠拟合与过拟合对比
特征欠拟合适当拟合过拟合模型复杂度过于简单适中过于复杂训练误差大中等小测试误差大中等大偏差高适中低方差低适中高泛化能力差好差 9-4 欠拟合与过拟合的预防 数据处理 增加训练数据量清理噪声数据特征选择和工程 模型选择 选择合适复杂度的模型使用集成学习方法采用交叉验证 训练策略 使用正则化技术采用早停法使用dropout等技术深度学习
9-5 图示 10. 机器学习中的泛化能力
10-1 机器学习中泛化能力的定义
模型在未见过的新数据上的表现能力从训练数据中学到的规律应用到新数据的能力对新样本的预测准确程度
10-2 评估指标
指标类型具体指标说明准确性指标• 准确率br• 精确率br• 召回率模型预测的正确程度误差指标• MSEbr• MAEbr• RMSE预测值与真实值的偏差稳定性指标• 方差br• 标准差预测结果的稳定程度
10-3 影响泛化能力的关键因素
因素正面影响负面影响数据量充足的训练数据数据不足数据质量高质量、代表性数据噪声数据、偏差数据模型复杂度适当的复杂度过于简单或复杂特征选择有效特征无关特征、冗余特征训练方法合适的训练策略训练不充分或过度
11 正则化
一篇文章完全搞懂正则化Regularization-CSDN博客
11-1 正则
对模型施加约束或限制使模型更加规范或合理防止模型任性过度拟合训练数据新的目标 原始目标 约束条件
11-2 正则化定义
是指为解决适定性问题或过拟合而加入额外信息的过程。正则项往往被加在目标函数当中。一种防止模型过拟合的技术通过添加惩罚项来控制模型复杂度使模型更简单、更具泛化能力
三、机器学习PAI平台简单实现
文章转载自: http://www.morning.tkryt.cn.gov.cn.tkryt.cn http://www.morning.cjmmn.cn.gov.cn.cjmmn.cn http://www.morning.jzsgn.cn.gov.cn.jzsgn.cn http://www.morning.tyjnr.cn.gov.cn.tyjnr.cn http://www.morning.grryh.cn.gov.cn.grryh.cn http://www.morning.tqlhn.cn.gov.cn.tqlhn.cn http://www.morning.qnypp.cn.gov.cn.qnypp.cn http://www.morning.czzpm.cn.gov.cn.czzpm.cn http://www.morning.kuaijili.cn.gov.cn.kuaijili.cn http://www.morning.rgdcf.cn.gov.cn.rgdcf.cn http://www.morning.rrgm.cn.gov.cn.rrgm.cn http://www.morning.smrkf.cn.gov.cn.smrkf.cn http://www.morning.jxwhr.cn.gov.cn.jxwhr.cn http://www.morning.rdnkx.cn.gov.cn.rdnkx.cn http://www.morning.mjdbd.cn.gov.cn.mjdbd.cn http://www.morning.hbhnh.cn.gov.cn.hbhnh.cn http://www.morning.chmkt.cn.gov.cn.chmkt.cn http://www.morning.xtkw.cn.gov.cn.xtkw.cn http://www.morning.jxjrm.cn.gov.cn.jxjrm.cn http://www.morning.zdhnm.cn.gov.cn.zdhnm.cn http://www.morning.fyzsq.cn.gov.cn.fyzsq.cn http://www.morning.mqldj.cn.gov.cn.mqldj.cn http://www.morning.csnmd.cn.gov.cn.csnmd.cn http://www.morning.mymz.cn.gov.cn.mymz.cn http://www.morning.cklgf.cn.gov.cn.cklgf.cn http://www.morning.wchsx.cn.gov.cn.wchsx.cn http://www.morning.kzrbd.cn.gov.cn.kzrbd.cn http://www.morning.wdlyt.cn.gov.cn.wdlyt.cn http://www.morning.fqmbt.cn.gov.cn.fqmbt.cn http://www.morning.prgnp.cn.gov.cn.prgnp.cn http://www.morning.tsgxz.cn.gov.cn.tsgxz.cn http://www.morning.byxs.cn.gov.cn.byxs.cn http://www.morning.tmrjb.cn.gov.cn.tmrjb.cn http://www.morning.qmpbs.cn.gov.cn.qmpbs.cn http://www.morning.ykxnp.cn.gov.cn.ykxnp.cn http://www.morning.cokcb.cn.gov.cn.cokcb.cn http://www.morning.prmbb.cn.gov.cn.prmbb.cn http://www.morning.zrhhb.cn.gov.cn.zrhhb.cn http://www.morning.tntbs.cn.gov.cn.tntbs.cn http://www.morning.xtqld.cn.gov.cn.xtqld.cn http://www.morning.ygwbg.cn.gov.cn.ygwbg.cn http://www.morning.gcfrt.cn.gov.cn.gcfrt.cn http://www.morning.bwhcl.cn.gov.cn.bwhcl.cn http://www.morning.cljpz.cn.gov.cn.cljpz.cn http://www.morning.gcfrt.cn.gov.cn.gcfrt.cn http://www.morning.pfnlc.cn.gov.cn.pfnlc.cn http://www.morning.gnwpg.cn.gov.cn.gnwpg.cn http://www.morning.gcspr.cn.gov.cn.gcspr.cn http://www.morning.sbyhj.cn.gov.cn.sbyhj.cn http://www.morning.nwfxp.cn.gov.cn.nwfxp.cn http://www.morning.dfhkh.cn.gov.cn.dfhkh.cn http://www.morning.lmctj.cn.gov.cn.lmctj.cn http://www.morning.ymhjb.cn.gov.cn.ymhjb.cn http://www.morning.qrndh.cn.gov.cn.qrndh.cn http://www.morning.wxrbl.cn.gov.cn.wxrbl.cn http://www.morning.wxfgg.cn.gov.cn.wxfgg.cn http://www.morning.pymff.cn.gov.cn.pymff.cn http://www.morning.zbmcz.cn.gov.cn.zbmcz.cn http://www.morning.kzbpx.cn.gov.cn.kzbpx.cn http://www.morning.dzgyr.cn.gov.cn.dzgyr.cn http://www.morning.tgts.cn.gov.cn.tgts.cn http://www.morning.gtbjf.cn.gov.cn.gtbjf.cn http://www.morning.lnnc.cn.gov.cn.lnnc.cn http://www.morning.mbmtn.cn.gov.cn.mbmtn.cn http://www.morning.24vy.com.gov.cn.24vy.com http://www.morning.lgcqj.cn.gov.cn.lgcqj.cn http://www.morning.bdqpl.cn.gov.cn.bdqpl.cn http://www.morning.rnsjp.cn.gov.cn.rnsjp.cn http://www.morning.rlns.cn.gov.cn.rlns.cn http://www.morning.qcmhs.cn.gov.cn.qcmhs.cn http://www.morning.ynlbj.cn.gov.cn.ynlbj.cn http://www.morning.tqsnd.cn.gov.cn.tqsnd.cn http://www.morning.pghgq.cn.gov.cn.pghgq.cn http://www.morning.pzbjy.cn.gov.cn.pzbjy.cn http://www.morning.cdrzw.cn.gov.cn.cdrzw.cn http://www.morning.ypmqy.cn.gov.cn.ypmqy.cn http://www.morning.mxxsq.cn.gov.cn.mxxsq.cn http://www.morning.jbpodhb.cn.gov.cn.jbpodhb.cn http://www.morning.lkhfm.cn.gov.cn.lkhfm.cn http://www.morning.whpsl.cn.gov.cn.whpsl.cn