当前位置: 首页 > news >正文

怎么制作网站外链做响应式网站制作

怎么制作网站外链,做响应式网站制作,做网站时需要注意什么,海口市住房与城乡建设厅网站前言#xff1a; 本文遗留问题#xff1a;#xff08;1#xff09;对最小平方误差分类器的理解不清晰.#xff08;2#xff09;分段线性判别函数的局部训练法理解不清晰。 推荐文章1#xff0c;其中有关于感知机的分析 【王木头从感知机到神经网络】-CSDN博客 推荐文…前言 本文遗留问题1对最小平方误差分类器的理解不清晰.2分段线性判别函数的局部训练法理解不清晰。 推荐文章1其中有关于感知机的分析 【王木头·从感知机到神经网络】-CSDN博客 推荐文章2其中包含关于梯度下降优化的各种方式随机梯度下降、牛顿法等 【王木头·梯度下降法优化】随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam-CSDN博客 目录 一、线性判别函数 1、线性判别函数的定义 2、线性判别函数扩展 3、线性判别函数在多分类情况下的应用 1第一种方法《一对其他》 2第二种方法《一对一》 3两种构建线性判别函数的方法对比 4第三种方法《改进版一对一》 二、线性分类器的构造 1、线性分类器介绍 2、Fisher线性判别 1Fisher线性判别的意义和目标 2Fisher线性判别步骤 3广义Rayleigh商问题的求解 4Fisher线性判别的例子PPT上的例子 5Fisher线性判别 vs 高斯判别分析待思考 6多类分类的Fisher判别分析 3、感知器 1模型结构 2线性判别函数 3感知器算法的准则函数 4优化求解 4、最小平方误差分类器 1概述 2基本原理 3分类问题的矩阵表示 4最小二乘解法 5对  的迭代求解 三、广义线性判别函数 1、广义线性判别函数理论介绍 2、广义线性判别函数实现方法 1一阶多项式 2二阶多项式 3r 阶多项式 3、高阶多项式带来的计算问题 4、例子——点击率预估中的因子分解机 1点击率CTR预估问题 2因子分解机 四、分段线性判别函数 1、基于距离的分段线性函数 2、错误修正算法 1算法的核心思想 2问题的已知条件 3算法步骤 3、局部训练法难懂 4、决策树 1决策树的基本概念 2决策树的结构 3粗略概括决策树的构建过程 4关键问题——熵和经验熵 5关键问题——条件熵和经验条件熵 6关键问题——信息增益 7关键问题——Gini指数 8例子——分类回归树 9停止划分条件 10关键问题——剪枝 11决策树模型的优缺点 五、⭐⭐全文总结⭐⭐ 1、对于线性判别函数 2、对于线性分类器的构造 3、对于广义线性判别函数 4、对于分段线性判别函数 附录 1、类内散度矩阵和协方差矩阵的关系 1定义 2关系 2、分类回归树离散型特征建模 步骤一、初始化决策树 步骤二、计算根节点的Gini指数 步骤三、对每个特征计算划分后的Gini指数并得到第二层节点 步骤四、计算Gini指数并得到第三层节点 步骤五、计算Gini指数并得到第四层节点 步骤六、整个模型即最终决策树判断 一、线性判别函数 1、线性判别函数的定义 在线性分类问题中我们可以通过一个线性判别函数 来划分样本属于不同的类别。对于一个二维空间的两类分类问题线性判别函数可以表示为 其中 是样本的特征向量​ 和 是特征的权重 是偏置项。通过对 的符号来划分类别 i、如果 则分类为 ii、如果 则分类为 2、线性判别函数扩展 对于 维样本的两类分类问题线性判别函数可以推广为 其中 为权重向量 为偏置项。 为简化表示可以将特征向量扩展为 将偏置项合并进权重向量 则判别函数可以写成  。 3、线性判别函数在多分类情况下的应用 对于多类分类问题有两种常用的方法来构建线性判别函数 1第一种方法《一对其他》 将 类分类问题转化为 个两类分类问题。对于每一类构建一个判别函数 将第  类与其他类分开即 ​ 判别准则为若 则  否则不属于第  类。分类所有类别共需要C个判别函数。 判别函数为 2第二种方法《一对一》 对于每两类分别构建一个判别函数共需要 个判别函数。对于   类分类问题通过每个判别函数进行投票最终获得分类结果。 判别函数为 3两种构建线性判别函数的方法对比 i、多类情况下《一对其他方法》需要  个判别函数而《一对一方法》需要  个判别函数。《一对一方法》的缺点 ii、《一对其他方法》中每一个判别函数将一种类别的模式与其余  种类别的模式分开而不是将一种类别的模式仅与另一种类别的模式分开。由于一种模式的分布要比  种模式的分布更为聚集因此《一对一方法》对模式是线性可分的可能性比《一对其他方法》更大一些。《一对一方法》的优点 iii、在实际训练时如果每个类别的样本数目相近《一对一方法》模型训练时两个类别的样本数据相近而此时《一对其他方法》需综合其余  种类别的样本这些样本的数目比第  类一个类别的样本数目会多得多。样本数目不均衡会给模型训练带来困难。 iv、对于上面的《一对一方法》存在不确定区域例如如果三分类那么会有三个判别函数三个判别函数计算后最终投票结果是三类各有一票这样就无法区分目标样本属于哪一类了。如图 4第三种方法《改进版一对一》 在上面那个《一对一方法》中存在不确定区域所以可做如下改进 对每一对类别 我们构建一个线性判别函数 其形式为 其中 ​ 和 ​ 分别是类别 和类别 的权重向量。 对于给定的样本  我们计算所有类别之间的判别函数 。如果对于类别 存在 对所有 成立那么我们将样本分类为类别 。也就是说如果对于某个类别  它的判别函数在与其他所有类别的比较中都胜出那么我们就判定该样本属于类别  。 这种思想的精髓为 其中  二、线性分类器的构造 1、线性分类器介绍 线性分类器是一种用于将数据样本分为不同类别的分类模型其目标是在样本空间中找到一个超平面将不同类别的数据分开。具体来说对于给定的样本集 ​线性分类器试图确定一个线性判别函数 其中 是输入特征向量 是待求的参数向量。 线性分类器的设计步骤 i、确定准则函数 线性分类器设计的核心在于定义一个准则函数 它反映了分类器的性能。通常准则函数与分类的准确率、误差率或其他性能指标相关。我们通过最大化或最小化该准则函数来优化分类器。 ii、优化准则函数 通过求解准则函数 的极值来找到最优参数  。这可以通过以下两种方式来实现 · 最大化准则函数 · 最小化准则函数 具体的优化目标最大化或最小化取决于准则函数的定义。例如如果准则函数表示分类误差则需要最小化该函数如果准则函数表示分类准确率则需要最大化该函数。一般情况下都是解决最小化问题最大化某函数等于最小化负的某函数。 线性分类器的“最佳决策” 通过求得的最优参数  线性分类器可以对新的样本进行分类即根据判别函数   的符号或阈值将样本分为不同类别。这一过程中的“最佳决策”即为根据最优参数所实现的分类。 2、Fisher线性判别 1Fisher线性判别的意义和目标 降低维数 有时是处理实际问题的关键。 Fisher线性判别属于 有监督降维 即降维后有利于分类。在后续也可以拓展到 无监督降维方法如主成分分析PCA和非线性降维方法t-SNE、自编码器等。 Fisher线性判别的目标 给定样本集 ​通过找到一个最优的线性判别方向 在保证类间可分性的同时降低特征维度。 实现方法是 将原始 维空间的样本投影到一个一维直线上使得不同类别的样本在投影后的分布能够分开。 最终目的同样是 在线性判别函数 中确定最优参数  以实现最佳分类。 2Fisher线性判别步骤 i、计算样本在  空间原始高维空间中的统计描述量 类均值向量    ​​ 表示第  类样本的平均值。 类内散度矩阵   ​ 表示第 类样本的类内散度。类内散度矩阵和协方差矩阵之间的关系见《本文附录1》。 总类内散度 其中 ​ 和 ​ 分别表示两个类别的类内散度矩阵。 类间散度矩阵 ​ ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中 ​ 和 ​ 是两个类别的均值向量。类间散度矩阵 ​ 用来衡量不同类别均值之间的差              异。 ii、计算样本在投影后的 空间中的统计描述量 当我们将样本投影到一维空间  后可以重新计算类均值和类内散度这些描述量如下 类均值向量 ​ ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中 是样本在方向 上的投影。 类内散度 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         总类内散度 ​ ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​      ​​​​​​​   类间散度 ​ ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         iii、从  空间投影到  空间 从  空间投影到  空间 小于 需要给  中的向量乘上一个秩为  的矩阵如果  等于1即投影到一维空间时给  乘上一个秩为1的矩阵即向量。 iv、在投影后的 空间与原空间  中的统计描述量之间的关系 根据投影方向  的性质投影后的类内和类间散度可以用原空间的散度表示 投影后的类内散度 ​ ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         观察散度的定义其与样本  的平方成正比 映射过去是乘一个  所以散度映射          过去就要乘两个  。所以其形式才是这样的下面的类内散度和类间散度同理。 总类内散度 ​ ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         投影后的类间散度 ​ ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         v、Fisher准则函数和最优投影方向 Fisher线性判别的核心思想是找到一个最优的投影方向 使得 投影后的总类内散度  最小同类样本在投影方向上尽量聚集。 投影后的类间散度最大不同类别的样本在投影方向上尽量远离。​​​​​​​ 显然满足以上两个条件可以使得投影后的一维空间上不同类别的投影点尽可能分开          而同类别的投影点尽量聚集。 即使得 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​                      最大。被称为Fisher准则函数。 我们希望找到一个投影方向 使得 最大即最大化类间散度和类内散度的比值。 因此最优的投影方向 可以通过如下优化问题获得 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         这个优化问题通常称为广义Rayleigh商问题可以通过特征值分解来解决本文下面一节有          详细解答。计算后得到最优投影方向为。 vi、解出最优投影方向  后寻找决策面 投影后的  空间中的决策面 最优投影方向为 。决策面要满足两个条件 i、与  正交 ii、向量  的终点在在决策面上 即决策函数为 相对应的决策面方程为  即  高维空间  中的决策面 最优投影方向为 。决策面要满足两个条件 i、与  正交 ii、向量  的终点在在决策面上 即决策函数为 相对应的决策面方程为  即  3广义Rayleigh商问题的求解 上面Fisher线性判别步骤中写道最优投影方向为这个问题还没有解决。下面解决这个问题即求问题 其中 该类问题被称为广义Rayleigh商问题。 为了更具一般性这里用代替。 即解决问题 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​  其中  为了解决最优投影问题我们的目标是找到一个向量 使得广义Rayleigh商 最大化。需要对分母进行归一化因为不做归一的话 扩大任何倍 不变我们无法确定 。 通常选择的归一化方式是 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         这样可以确保优化问题的解是唯一的。 使用拉格朗日乘子法解优化问题 即问题变为解优化问题 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         为求解这个约束优化问题采用拉格朗日乘子法。定义拉格朗日函数 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中  是拉格朗日乘子。通过对 关于  求偏导并设为零可以得到最优解的条件。 对 关于  求导得到 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         可以简化为 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         求解特征值问题 由于   正定所以两边同时乘   得 : ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         这表明优化问题的解  是矩阵   的特征向量而对应的特征值就是  。 解Fisher线性判别分析中得最优投影 根据 Rayleigh商问题使得  最大的   满足  其中 为一个数 令 所以 即 由于我们只关心投影方向可忽略系数  最终得到  4Fisher线性判别的例子PPT上的例子 i、给定数据的均值向量 类别1的均值向量 ​ 类别2的均值向量 ii、类内散度矩阵 ​ 和 类别1的类内散度矩阵 ​ 类别2的类内散度矩阵 iii、总的类内散度矩阵 计算总类内散度矩阵 ​ iv、Fisher准则计算投影方向 通过Fisher准则计算投影方向 ​   ​​​​​​ v、判别函数和判别面方程 判别面方程为 ​​​​​​​ 即    判别函数为即当属于某类当属于另一类。 这个例子展示了通过Fisher准则得到最佳投影方向 并在此方向上计算判别面用于区分两类样本。 5Fisher线性判别 vs 高斯判别分析待思考 6多类分类的Fisher判别分析 针对两类分类情况D维特征降到1维对多类分类任务类别多了将至1维可能已经不能满足要求。假设我们D有个类别找到K个基向量来做投影将原始D维特征降为K维向量。原始样本应乘一个秩为K的矩阵来做投影。 假设我们有 类目标是找到一个投影矩阵 将原始的 维特征降维到  维。投影后的样本表示为 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​       其中​ 是  维向量 为  的投影矩阵。 i、投影前的统计量 第  类样本均值向量 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中 是指示函数当样本 属于第  类时取值为1否则为0。 第  类样本的类内散度矩阵 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         该矩阵反映了第 类样本在其均值 ​ 周围的分布情况。 总类内散度矩阵 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​ ​ 是所有类别的类内散度矩阵之和描述了各类样本内部的总体分散情况。 总散度矩阵 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中整体均值  表示为 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         总散度矩阵  表示所有样本相对于整体均值  的散布情况。 类间散度矩阵 ​​​​​​​        ​​​​​​​        ​​​​​​​         类间散度矩阵 ​ 表示各类别均值之间的散布情况用于度量类别之间的可分离性。 类间散度矩阵与两类情形略有不同原来度量的是两个均值点的散列情况现在度量的是每            类均值点相对于样本中心的散列情况。 ii、投影后的统计量和两类情形同理 投影后第  类样本的均值 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​           投影后第  类的均值 ​ 是原均值 ​ 在投影方向上的映射。 投影后第  类样本的类内散度 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         投影后第  类的类内散度 是原始类内散度矩阵 在  上的投影。 投影后的总类内散度矩阵 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         投影后的总类内散度矩阵 是所有类别类内散度矩阵之和在 上的表现。 投影后的类间散度矩阵 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         类间散度矩阵 ​ 表示投影后各类别均值之间的分布情况。 iii、多类情况下Fisher准则函数 Fisher准则的目标是最大化类间散度同时最小化类内散度以保证投影后类别间的区            分度。 Fisher准则函数可以表示为 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         这里使用了矩阵行列式的比值来衡量类间和类内的散布情况。这个准则的优化目标是找           到一个投影矩阵 使得 最大化。 iv、最佳投影方向的求解 最佳投影方向  满足以下广义特征值问题 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         我们选择 ​ 的前 个最大的非零广义特征值对应的特征向量组成矩阵 作为            最佳投影方向。 3、感知器 本篇开头的《推荐文章1》中也有对感知机的分析《推荐文章2》中有对梯度下降法的优化。 1模型结构 输入特征向量  。 输出分类结果 其中 代表正类 代表负类。 2线性判别函数 感知器使用一个线性判别函数来表示输入数据的分类 其中 是权重向量 是偏置项bias表示模型的决策面。写成增广形式为 判别规则为依据 的符号来判断样本的类别 ​​​​​​​        ​​​​​​​        ​​​​​​​                 3感知器算法的准则函数 样本分类准则对于样本 当 时样本分类正确若  则分类错误。 准则函数分错的样本越少越好令  为所有错分类样本的集合则准则函数可以表示为  ​​​​​​​        ​​​​​​​        ​​​​​​​           ​​​​​​​         目标通过优化使得权重  和偏置  的组合最小化准则函数 。         ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         思考准则函数这个准则函数是因为判别规则而凑出来的形式我认为没有它没有物理意义。 4优化求解 目标函数 可以通过优化算法求解。感知器模型通常采用随机梯度下降法Stochastic Gradient DescentSGD来更新模型参数  和   将目标函数表示为增广向量形式的判别函数 然后目标函数为 通过迭代更新权重向量  和偏置  感知器模型逐渐优化以满足准则函数的最小化需求。 对于梯度下降的超详细分析在王木头是视频中有非常清晰的讲解从梯度下降原理及几何直观下面链接中的视频到梯度下降的优化本文开头推荐文章2。 如何理解“梯度下降法”什么是“反向传播”通过一个视频一步一步全部搞明白_哔哩哔哩_bilibili 4、最小平方误差分类器 1概述 最小平方误差分类器是一种基于最小二乘准则的分类方法主要用于处理二类或多类分类问题。与感知器算法不同最小平方误差分类器能够在模型不可分的情况下也达到一定的收敛效果。 2基本原理 在二类分类的情况下设输入特征向量为  标签 为 1代表正类或 -1代表负类。该分类器的基本思想是通过线性判别函数 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         实现分类其中  为权重向量 为偏置项。 线性判别函数写成增广形式为 判别条件为对于每个样本 当满足 时样本被正确分类。 3分类问题的矩阵表示 从上面的判别条件可得到目标是让每个样本满足  即   写成矩阵形式为 其中                式 4最小二乘解法 当不等式解不存在或无法收敛时可以通过最小二乘方法解决。将不等式转化为超定方程  这里的  和判别函数中的 不是同一个判别函数中的  的信息已经通过增广进入了中其中 且 。目标是找到最小二乘解使得 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         ​​​​​​​   其中  的梯度可以通过微分求得最终求解为  。 5对  的迭代求解 对  求梯度 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         的迭代更新公式为 ​​​​​​​        ​​​​​​​        ​​​​​​​         得到 ​​​​​​​        ​​​​​​​        ​​​​​​​         收敛条件 当 的所有分量都为正时说明所有样本都正确分类迭代过程结束如果  中的分量有负说明该问题不可分。 实际问题中将迭代到最小后  中有一部分分量小于0表示分类错误的样本。这时根据计算出  仍是最优解只不过因为原问题不可分一部分样本会被分错。 这部分我认为PPT上的有问题或者我没理解PPT上的方法 三、广义线性判别函数 1、广义线性判别函数理论介绍 线性判别函数假设模式是线性可分的因此可以通过简单的线性分割实现分类。然而在实际应用中许多场合下模式不是线性可分的因此单纯的线性判别函数难以满足需求。广义线性判别函数的解决思路是通过非线性变换将非线性判别问题转化为线性判别问题从而达到分类目的。 基本思想 样本集合  在原始的  维特征空间中是线性不可分的将样本从 维空间映射到  维空间使得样本在这个新的高维空间中模式可以线性可分。 样本集合映射到  维空间后为集合  。 新的模式空间的样本向量 的每个分量是原始向量  的单值实函数可以表示为         ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         在这个新的空间  中可以使用线性判别函数 来进行分类。 2、广义线性判别函数实现方法 1一阶多项式 如果  则 广义线性化后的判别函数形式与原始空间的线性判别一致即         ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​     2二阶多项式 以二维向量  为例二次项、一次项和常数项的变换可以写为 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         设权重向量 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​      则转换后的线性判别函数可以表示为 ​​​​​​​         一般情况下对于  维向量 可以计算  的二次项共 个、一次项共  个和常数项1 个转换后的线性判别函数为 ​​​​​​​        ​ 其中   的一般形式可以写为 ​​​​​​​        其中 3r 阶多项式 对于 维的 可以计算  的  阶多项式项这些项可以表示为 其中 ​ 表示选择的维度 表示该维度的次幂 且 。 此时转换后的线性判别函数可以通过以下方式递归地给出 一直递归到 。 的总项数为 3、高阶多项式带来的计算问题 的项数随着  和  的增加而迅速增加。即使原始模式 的维数不高若采用高次的多项式变换则转换后的模式 的维数会迅速增加导致计算和存储困难。 实际应用中的取值在实际应用中一般选择 或 避免过高的维数。如果 可以只取二次项并忽略一次项以减少 的维数从而在保证效果的同时降低计算复杂度。 4、例子——点击率预估中的因子分解机 1点击率CTR预估问题 点击率CTR预估中的因子分解机FM模型用于解决CTR预估中大规模稀疏数据的问题。CTR预估是一个典型的二分类任务预测用户是否会点击展示的广告。因子分解机通过对离散型特征的组合进行有效表示降低了计算复杂度以下是FM模型的详细分析。 i、CTR预估中的挑战 数据量巨大CTR预估需要处理亿级的特征和样本数据。 样本不均衡正负样本数量不均衡点击的样本占比通常很小。 特征稀疏特征多为独热编码One-Hot Encoding大量特征是稀疏的。 在CTR预估中许多离散型特征如国家、节日需要转换为独热编码。稀疏性的问题在于每个样本的特征向量非常高维且大部分是零。为了减少稀疏特征对模型的影响FM引入了因子分解机制。 ii、CTR预测模型 考虑二阶特征组合基本模型包括了线性部分和二次特征交互部分 ​​​​​​​        ​​​​​​​        ​​​​​​​         其中 ​​​​​​​​ 是全局偏置。 ​​​​​​​         是特征 ​ 的一阶权重。 ​​​​​​​        是特征  的交互权重表示二阶特征交互。 某些特征经过关联之后与标签之间的相关性就会提高。如“化妆品”类商品与“女”性“球类运动配件”的商品与“男”性 “ USA”与“Thanksgiving”“China”与“Chinese New Year”等所以模型中的特征交互项非常必要。 2因子分解机 iii、因子分解与低维隐向量表示 的交互矩阵 其中每个元素 ​ 表示第 个和第 个特征之间的交互关系。FM 使用低秩分解来近似这个矩阵 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中   是一个 的矩阵 是隐空间的维度通常远小于  。 形式为 其中 是一个 的矩阵。是一个 的矩阵其中 表示降维后的隐向量矩阵。 是 的近似表示通过低秩矩阵分解来表示特征之间的交互关系。 交互矩阵是对称矩阵也是对称矩阵。 相当于  的第  行和第  行的点积。 所以有 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中 是特征 的  维隐向量。 ​​​​​​​ 是隐向量的维度通常 这大大减少了参数数量。 因此FM的模型可以简化为 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​ 通过这种分解原本 交叉项个参数将为  个使得模型可以高效地计算特征之间的交互项。 iv、FM的计算优化不懂 FM模型的二阶项可以进一步优化计算 ​​​​​​​         只需要计算一次所有 m  的   这样计算复杂度进一步降低只需要 的时间复杂度完成预测计算。 v、FM模型的训练 FM模型为 计算每个参数的梯度 对偏置项 ​ 的梯度为 1 对一阶特征权重 ​ 的梯度为  ​。 对隐向量 ​ 的梯度为    ​​​​​​​ 通过预计算可以在 的时间复杂度下完成所有梯度的计算进而更新参数。 四、分段线性判别函数 对于分类问题通常希望找到一个判别函数 能够将样本数据分成不同的类。对于线性可分的问题可以用线性判别函数解决 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中 是权重向量 是偏置项。如果 则分类为类 1否则为类 2。 然而实际中常常遇到非线性可分的问题比如数据分布呈现复杂的曲线模式。在这种情况下简单的线性判别函数无法实现有效分类。因此提出了广义线性判别函数和分段线性判别函数的概念以解决此类问题。然而高维映射的代价较高计算复杂性显著增加这时分段线性判别函数成为一种更经济的替代方案。 分段线性判别函数 分段线性判别函数的思想是将特征空间划分为若干部分在每个部分内使用一个线性判别函数。假设空间分为 个分段区域每个区域使用一个线性函数 ​ 表示 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​       每个区域 ​ 内的分类决策由相应的线性判别函数 决定。这种分段的好处在于每个区域的分类可以用较简单的线性函数近似而整体的非线性分类需求则由多个线性片段的组合实现。 分段数量的确定 分段数目过少无法很好地逼近原数据的分布分类效果差。 分段数目过多计算复杂性增加决策过程变得繁琐。 在实际应用中一种合理的方法是根据数据的分布确定分段数目。可以通过聚类分析将数据划分为若干子集每个子集可以视为一个分段区域然后对每个子集拟合线性判别函数。 示例 假设我们有 3 类数据 ​、 和 ​我们可以通过以下三种方式实现分类 二次判别函数直接用一个二次判别函数实现但计算较复杂。 分段线性判别函数在每个分段区域内使用线性判别函数来逼近二次曲线。 如图所示分段线性判别函数通过三个不同的线性区域 I、II 和 III 分别实现分类组合起来逼近了二次曲线从而有效地完成了分类任务。 最小距离分类器 最小距离分类器是一种特殊情况下的分类方法其假设各类别服从正态分布且具有相同的协方差矩阵和相等的先验概率。决策规则为将测试样本归类为距离其最近的类别中心。 假设两类样本的中心分别为 和 ​则决策面为两类中心连线的垂直平分面 ​​​​​​​        ​​​​​​​        ​​​​​​​         分段判别函数的形式定义这种形式确实很符合直觉待感想 i、每个类 ​ 可以分成多个子类  。 ii、对每个子类定义一个线性判别函数   。 iii、每类的判别函数定义为该类所有子类判别函数的最大值 ​​​​​​​        ​​​​​​​        ​​​​​​​            iv、最终的分类决策为 决策规则可以根据相邻的决策面定义例如如果第  类的第  个子类与第  类的第  个子类相邻则可以共享决策面  。 1、基于距离的分段线性函数 该方法将样本划分成多个子类每个子类由其均值即质心代表然后应用最小距离分类器。对于每个类别 定义其判别函数为样本到该类别所有子类中心点的最小距离 ​​​​​​​        ​​​​​​​        ​​​​​​​         最终的分类规则为 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​    这种方法通过多个最小距离分类器的组合形成了分段线性决策面。这种组合的决策面适合非线性可分的数据分布。 局限性 样本划分成多个子类判断样本属于哪个子类时用到了最小距离分类器所以​​​​​​​只在当每个子类是协方差相等高斯分布时才能使用基于距离的分段线性函数。 2、错误修正算法 1算法的核心思想 错误修正法的核心思想是利用多类线性判别函数的感知器算法本文1.3中的第三种方法改进版一对一通过逐步修正权向量来减少分类错误直到分类达到收敛条件。 2问题的已知条件 每个类的子类数量 ​ 已知但子类划分未知。 需要根据训练样本中的错误信息来逐步修正每个子类的线性判别函数。 3算法步骤 初始条件 假设初始的权向量为 ​其中       。 训练过程 i、计算样本的归属子类 对于属于第  类的样本 其中 计算该样本与第  类所有权向量的内积 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         找到最大值对应的子类 即 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         ii、错误检测与修正 检测无误的情况无需修正 如果满足 ​ 对于所有 的 和 则说明样本 ​ 已经被正确分类无需修改。 检测有误的情况迭代参数参数确定的是决策面也就是迭代决策面 如果样本 ​ 被错误分类即存在某个 的 和 ​ 使得 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​      则应对权向量进行修正 找到误分类样本对应的最大内积 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​          更新权向量 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​                    ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​           其中 是学习率。 iii、收敛性 如果样本集能被分段线性判别函数正确划分则该迭代算法是收敛的。当条件不满足时可以考虑逐步减小学习率以实现“近似收敛”但可能增加分类错误率。可以设置最大迭代次数来限制算法执行的步数。 iv、未知子类数目的情况 树状分段线性分类器 该方法用于在子类数量未知的情况下将样本分成多个子类。先设计一个线性分类器将所有样本分成两个子类。若子类中有错误则在子类中再分… 直到所有样本被正确分类。 初始权向量选择 初始权向量的选择对算法结果敏感。通常选择分属两类的欧氏距离最小的样本取其垂直平分面的法向作为权重初始值。 v、直观理解 错误修正算法通过逐步更新权向量根据错误分类的样本 “推动” 分类面一步步得调整分类面到最正确得位置。在收敛条件下所有样本被正确分类在不收敛的条件下通过学习率调节或步数限制可以实现部分分类或近似分类。 3、局部训练法难懂 在分类问题中贝叶斯决策面通常能实现最小的分类错误率。然而当两类样本非线性不可分时直接用线性判别函数难以准确逼近贝叶斯决策面。这时可以通过局部训练法来提升分类性能。局部训练法的核心思想是通过识别并利用样本中的交遇区在这些局部区域上构造逼近的分段线性判别函数从而更好地逼近贝叶斯决策面。 1交遇区的定义 交遇区在贝叶斯决策面附近两类样本通常非线性接近或交叉。这些区域称为交遇区。在这些交遇区内样本分布表现出更复杂的模式不易被简单的线性判别函数划分。局部训练法的目的通过在交遇区内的样本来训练出多个分段的线性判别函数使得组合的分段线性决策面能更准确地逼近贝叶斯决策面。 2局部训练法的核心步骤 i、找到交遇区并生成局部判别函数 在交遇区内选择相对密集的样本构成局部样本集这些样本称为交遇区样本。用这些交遇区样本训练线性判别函数从而生成分段线性决策面。 ii、 局部训练法的执行 对交遇区中的样本构造新的训练集通过这些样本生成分段的线性判别函数。得到的判别面为分段线性分界面可以更好地逼近贝叶斯分界面。 iii、 需要解决的关键问题 如何从样本集中找到交遇区通过样本的分布密度或相互距离来确定交遇区样本。如何利用交遇区中的样本设计线性分类器对交遇区内的样本进行局部线性分类训练。如何进行分类决策通过多个局部的线性判别函数的组合来对测试样本分类。 3紧互对原型与交遇区 在实际操作中通过对样本聚类将其划分为多个簇原型区然后选取每个簇的中心点作为原型。紧互对原型的生成是局部训练法中重要的一步。 紧互对原型的定义与寻找方法 划分原型区对每个类别的样本进行聚类得到多个原型每个原型可以用其中心点或最具代表性的样本表示。寻找紧互对原型对于不同类的样本计算它们之间的欧氏距离找到两类样本中距离最近的原型对即紧互对原型。紧互对原型定义了两个类之间的“接触点”是交遇区的代表性样本。 通过紧互对原型的集合可以形成交遇区的样本集后续的分类判别将在这些区域内展开。 4生成初始分离超平面 通过紧互对原型生成初始的分类决策面 初始分离超平面公式假设最紧互对的两个原型分别为 ​ 和 ​则初始的分类超平面 ​ 的方程可以写作         ​​​​​​​        ​​​​​​​        ​​​​​​​        该平面以紧互对原型对的中点为平面中心以这两个原型的方向向量为法向量。 分离超平面的作用生成的初始分离超平面 ​ 可以在交遇区内准确分隔两类样本。对所有样本进行检测确定哪些样本被初始超平面正确分类。 5生成新的分离超平面 生成新的分离超平面 在生成初始超平面 ​ 后逐步生成更多的分离超平面以形成完整的分段决策面。 移除已正确分类的样本对将被 ​ 正确分类的紧互对原型对从样本集中移除。生成新的超平面在剩下的样本中找到下一个最紧互对原型对生成新的分离超平面 ​。重复该过程继续寻找新的紧互对原型对并生成超平面直到所有交遇区的样本对都得到处理。 最终得到一系列超平面 构成完整的分段线性分类器。 6决策规则 在完成所有分段超平面的生成后定义样本的分类决策规则。决策规则通过超平面来分割样本空间从而实现分类。 计算每个超平面与样本的关系对每个测试样本 计算其与各个超平面 ​ 的内积得到判别函数  ​。定义决策变量对 进行符号判定定义二值决策变量 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​ 这样每个样本  可以通过决策变量 表示其分类状态。 7具体的决策规则 根据决策变量的取值对测试样本进行分类。设 的取值范围为 统计各类样本在各个 ​ 取值下的出现次数分别记为  和  。 定义比值函数 ​ 表示取值 ​ 中第一类样本所占比例 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         根据比值 ​ 来确定样本的类别 若 则该样本属于第1类若 则该样本属于第2类若 且 和 都较小则无法做出决定若 且 和 都较大则对该区域继续应用局部训练法进行细分。 4、决策树 1决策树的基本概念 决策树是多级分类器尤其适合多类别任务和多峰分布数据。分级思想将复杂问题分解为多个简单的子问题通过一系列二元或多元决策逐步划分数据空间。决策树的路径互斥且完备确保从根节点到叶子节点的每条路径都表示一种决策规则。 2决策树的结构 根节点包含所有样本的数据点表示决策树的起点。中间节点表示划分后的不同决策分支。叶子节点对应每个分类结果样本数占比最高的类别被赋予最终预测值。 3粗略概括决策树的构建过程 i、初始步骤 构建根节点将所有训练样本数据分配到根节点。将根节点加入叶子节点列表。设定终止条件如样本纯净度、树深度等。 ii、核心算法流程 判断终止条件 若当前节点的样本集已经“足够纯净”即几乎所有样本都属于同一类别则停止划分将该节点转为叶子节点并从叶子节点列表中删除不再划分。 划分样本集 若样本集不纯净尝试用特征进行划分。每次尝试不同的特征和特征值分割点计算分割后的 纯净度如基尼指数、信息增益等。选择最优分割特征及分割点并将样本分成两个或多个子集。创建子节点将子节点加入叶子节点列表同时将当前节点从叶子节点列表中移除。 递归划分 对每个新的叶子节点重复上述过程直到满足终止条件。 iii、决策树构建中的关键问题 选择特征及划分点 目标找到能使得数据集划分后纯净度提升最多的特征及其划分点。评价指标信息增益、基尼指数、增益率、带正则的基尼指数等。 终止条件 纯净度阈值当某个节点样本的纯净度达到设定值如熵接近0时停止分割。树的最大深度限制决策树的最大层数避免过拟合。叶子节点最小样本数限制每个叶子节点包含的最小样本数避免树结构过于复杂。 iv、决策树优化剪枝 预剪枝 在构建过程中对每次分割进行评估若分割不能显著提升泛化性能则提前终止分割。优点降低计算复杂度。缺点可能过早终止分割导致模型欠拟合。 后剪枝 先构建完整的决策树然后通过遍历去除冗余分支。方法 交叉验证去除分支后验证模型性能选择最优子树。误差复杂度剪枝通过增加惩罚项优化叶子节点数量。 4关键问题——熵和经验熵 i、熵 在概率分布 下熵的公式为 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         熵反映了一个系统中所有可能状态的不确定性如果系统状态分布完全均匀熵达到最大值表示不确定性最高。如果系统状态是完全确定的熵为 0表示没有不确定性。 熵的本质是对 平均信息量 的刻画信息量是随机事件发生后带来的“惊讶度”。罕见事件低概率携带更多信息因此其信息量更大。 ii、经验熵 用在实际样本数据估计出的经验概率在王木头视频  “从最大熵推导softmax”  中多次提到经验概率代替概率计算出来的熵即是经验熵。经验熵是熵在数据样本上的一种具体化反映的是 样本分布的不确定性。 定义为 给定一个数据集  其中类别   是 ​ 类在  中出现的频率即最大似然估计出的概率经验熵定义为 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中 ​ 是 ​ 类样本的经验概率。 5关键问题——条件熵和经验条件熵 i、条件熵 条件熵 表示在已知  的情况下 的不确定性。 条件熵的定义为 ​​​​​​​        ​​​​​​​         如果  完全决定 则 无不确定性。 如果 和  独立则  无助于减少  的不确定性。 所以有  的熵  一定大于等于  已知的情况下  的条件熵  即  ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         条件熵的本质 衡量 给定条件变量后剩余的不确定性。 的值刻画了 对 提供的信息量有多大即条件信息对系统不确定性减少的程度。 几何上可以将条件熵理解为 信息空间中在已知某些条件后的剩余分布的不均匀性。 ii、经验条件熵 同上面的经验熵经验条件熵是基于数据的经验熵即通过从实际样本数据中最大似然估计出的经验概率计算出来的条件熵为经验条件熵。 6关键问题——信息增益 从条件熵的本质可知原来的熵为给定条件  后熵变为条件熵   即系统的不确定性变低了。所以给定条件  的过程相当于给系统填充了信息即系统的不确定性变小了。所以给定条件  的过程使得信息发生了增益即 信息增益    : 数据集  的 经验熵表示未划分数据前的整体不确定性。: 特征  的 经验条件熵表示按照  划分数据后剩余的不确定性。 信息增益是用来衡量某个特征  对数据集  的分类效果的指标。 信息增益衡量的是 特征  带来的不确定性减少的程度。信息增益越大说明特征  对分类的贡献越大分类效果越好。 i、本质 划分前的整体类别分布高混乱度。划分后各子集的类别分布低混乱度。通过特征  划分数据使类别的分布变得更“纯”从而减少了类别的不确定性表示分类效果的提升指标。 ii、划分质量的衡量 如果特征  能很好地将数据划分使得每个子集的类别分布尽可能单一则信息增益较大。信息增益衡量特征  划分数据后“信息纯度”的提升程度。 iii、信息增益的几何直观 从几何角度信息增益可以理解为 原数据集中类别分布的熵  对应于空间中点分布的复杂度。划分后每个子集内点的分布复杂度降低类别更加集中熵减少。 通过特征  划分数据可以看作将复杂的空间划分为多个更加“整齐”的区域。 iv、信息增益的优缺点 优点 直观直接衡量划分前后的不确定性变化。易于计算公式简单可直接应用在决策树等模型中。 缺点 偏向多值特征 如果特征  有很多取值如唯一标识符它会将数据划分为很多小子集使得   很低从而信息增益很高。解决办法引入信息增益率。 v、信息增益率 定义 信息增益率是在信息增益的基础上修正了信息增益对特征取值数目即特征分裂值较多可能产生的偏向。信息增益率的定义为 ​​​​​​​         其中 固有值 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         ​特征  的某个取值对应的数据子集。数据集总样本数。特征  的取值个数。 固有值衡量了特征  的取值带来的分裂复杂度。如果  有较多的不同取值则固有值会较大。 信息增益率的意义 信息增益率反映了信息增益的“有效性”通过对信息增益进行归一化削弱了信息增益对取值多的特征的偏好。固有值越大表示特征的分裂越复杂信息增益率会被减小。信息增益率有效地平衡了信息增益的大小与特征取值的复杂度之间的关系。 7关键问题——Gini指数 Gini指数是衡量数据集纯度的重要工具其本质在于评估类别分布的混乱程度。 Gini指数的公式 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         数据集。类别的总数。​类别 的样本比例即类别 的样本数量除以数据集的总样本数量。表示所有类别的占比平方的总和反映了数据集的纯度。 如果数据集中样本均分布于  个类别即类别分布很混乱则 ​ 较小 较大。        如果数据集中所有样本均属于一个类别即数据集非常纯则  。 i、Gini指数和熵的区别 相同点         Gini指数和熵都是衡量数据纯度的指标且他们的方向性一致即数据越混乱数值越大数据越纯净数值越小。如果一个特征有较多类别值可能会因为划分更细而显得 Gini指数或熵较低但这些特征未必有实际分类意义。 不同点 与熵相比Gini指数的计算没有对数运算计算复杂度较低。Gini指数更关注主要类别的分布对小概率事件的关注不够更关注于少数几个类别。熵相对于Gini指数更关注小类别的分布下面从数学角度解释为什么 熵对于较小的类别概率如 取值趋近于0但此时它的斜率趋近于无穷大所以当增大少许熵就可以显著增加从而使模型更关注小类别的分布。 由于平方运算对大概率值​ 较大更加敏感而对小概率值的变化不敏感因此 Gini 指数更关注主导类别的分布。 下图展现了Gini指数和熵随混乱度的变换可见熵的变换更剧烈。 ii、Gini指数在划分中的应用 定义 数据集 用某个特征  将其划分成 个子集  。划分后数据集的加权 Gini 指数为 ​​​​​​​        ​​​​​​​        ​​​​​​​         这个公式与条件熵的公式想对应。 ​​​​​​​划分前的总数据集。​按特征 划分后的第 个子集。第 个子集的样本数。划分前总数据集的样本数。子集 ​ 的 Gini 指数。 例子 假设数据集  包含 10 个样本分属于 2 个类别 ​ 和 ​类别分布如下 ​4 个样本。    ​6 个样本。 我们有一个特征 取值范围为 。基于特征  将数据集  划分为两个子集 ​ 和 ​ 子集 ​包含 5 个样本其中 ​ 有 3 个​ 有 2 个。子集 ​包含 5 个样本其中 ​ 有 1 个​ 有 4 个。 步骤 1计算原始数据集的 Gini 指数 ​​​​​​​        ​​​​​​​         步骤 2计算划分后每个子集的 Gini 指数 子集 ​ 的 Gini 指数 ​​​​​​​        ​​​​​​​         子集 ​ 的 Gini 指数 ​​​​​​​        ​​​​​​​          步骤 3计算划分后的加权 Gini 指数 ​​​​​​​        ​​​​​​​         步骤 4比较划分前后的 Gini 指数 划分前的 Gini 指数。 划分后的加权 Gini 指数。 由于划分后的 Gini 指数降低说明特征  的这一划分提高了数据的纯度。 8例子——分类回归树 CART树一种二分递归划分的决策树每次将样本集划分为两个子集最终生成二叉树。 分为两种类型 离散型特征处理 将所有可能取值组合为两部分测试划分的纯净度如Gini指数选取最优划分。连续型特征处理 根据特征值的排序选择所有可能的分割点如两相邻值的中点进行测试选取分割后Gini指数最低的点。 i、分类回归树离散型特征建模的例子 见附录2 ii、分类回归树连续型特征建模的例子 连续型特征的划分是决策树建模的一个关键环节。针对连续型特征 必须找到一个分割点阈值将连续特征的值分成两个子区域左分支和右分支。为了找到最优分割点通常需要遍历所有可能的分割点并计算每个分割点的 Gini 指数 或其他衡量标准选择 Gini 指数最小的分割点作为最终的划分。 找到分割点后问题就变成了离散型特征建模。 9停止划分条件 建树过程是一个自顶向下的递归过程。 递归的停止条件 划分带来的损失的减小太小 树的深度超过了最大深度 叶子结点数目超过了最大数目 左右分支的样本分布足够纯净 左右分支中样本数目足够少 10关键问题——剪枝 剪枝是决策树构建中的一种重要技术用于控制模型复杂度防止过拟合。剪枝可以分为预剪枝和后剪枝 i、预剪枝 核心思想在构建决策树的过程中提前终止分裂避免过于复杂的结构。 操作步骤 设定停止分裂条件 最大深度限制树的深度例如不超过某个固定值。最小样本数如果当前节点的样本数低于设定的最小样本数则停止分裂。信息增益阈值如果某一划分的增益信息增益、Gini 指数减少量等小于设定阈值则停止分裂。 在每次分裂时检查停止条件 如果分裂满足停止条件则不再继续分裂将当前节点视为叶子节点。如果不满足条件则继续分裂并递归执行下一步。 优缺点 优点直接限制树的生长计算速度快避免过拟合。缺点可能过早终止分裂导致模型拟合不足欠拟合。 ii、后剪枝 核心思想先完全生成一棵树然后从叶子节点逐步向上合并或移除子树简化模型结构。 操作步骤 生成完全决策树 构建一棵不剪枝的完全决策树使其充分拟合训练数据。 定义剪枝准则 误差率计算剪枝前后验证集或交叉验证集的分类误差率。损失函数定义损失函数 误差T      复杂度T 其中 是正则化参数。 从下至上剪枝 依次遍历子树从叶节点开始计算 剪枝前的误差使用当前子树预测验证集的误差。剪枝后的误差将当前子树替换为叶子节点后的误差。如果剪枝后的误差小于剪枝前则执行剪枝操作。 重复剪枝 直到剪枝操作不再降低验证误差或者达到设定的复杂度阈值。 优缺点 优点利用验证集或交叉验证剪枝效果更准确可以有效降低过拟合。缺点需要构建完整的决策树计算量较大。 后剪枝是将最后一个节点和两个叶子用一个叶子代替这个叶子的标签用代替那两个叶子的标签分别试验计算损失函数看看变小了没没变小的话就放弃此次剪枝操作变小的话就成功剪枝。 11决策树模型的优缺点 优点 缺点 五、⭐⭐全文总结⭐⭐ 1、对于线性判别函数 本文第一部分主要介绍了线性判别函数使用线性判别函数进行二分类时只需要一个判别函数使用线性判别函数进行多分类时介绍了两种方法一种是每两个之间就会有一个判别函数所以判别函数总数为 个判断完后进行投票最终决定样本的归属类但这种方法可能会有无法判断的区域出现。所以又介绍了改进版的多分类改进版多分类给每个类一个判别函数所以判别函数共有C个说是判别函数不如说是特征函数形式和判别函数形式一样为样本带入每个类的特征函数再比较各个映射值的大小最后决定样本得归属类。 2、对于线性分类器的构造 这个部分主要介绍了线性分类器得构造。 详细介绍了Fisher线性分类器Fisher线性分类器得核心是找到一个最优投影向量将高维的样本分类降维在低维进行分类。最优投影向量为其满足两个条件投影后的类间散度最大类内总散度最小。 详细介绍了感知器分类器这个模型比较简单分类准则是对于样本 当 时样本分类正确若  则分类错误。其准则函数也就是损失函数为所以目标是求 通过梯度下降法进行求解。 详细介绍了最小平方误差分类器我对这部分的思想仍有漏洞暂停 3、对于广义线性判别函数 核心是在原来 “基” 的基础上加入新的一组 “ 基 ” 原来的一组基的维度与向量的维度一样但无法在原空间进行分类所以加入了高次的基从而实现升维进而样本变得可分。但同样也带来了计算复杂的问题。 4、对于分段线性判别函数 它的引入是为了克服广义线性判别函数计算复杂度过大的问题。最简单是分段判别函数是本文《一》中的线性判别函数实现多分类这种方法是基于距离的分类即样本距离哪个类的核心最近那么该样本就属于哪个类。这样可以实现分类的前提的不同类的协方差要相同即不同类的离散程度要一致。要不然误差就会很大。 对于不符合协方差相等的两个类要想把他们分开可以先把每个类都分成若个子类那么子类之间的协方差就比较接近了再使用基于距离的分类这里要分开的两个类是一个类的某个子类与在另一个类中与它距离最近的子类这样一来就会出现很多的分类面结合到一起就形成了两个大类的分段的分类面。 分类完成后还可以对分类面进行修正修正的过程是找到任意一个样本找到他所属类找到他在大类中所属的子类看看他与这个子类的距离是否是他距离所有大类的所有子类最近的。如果是最近的那么就不需要修正如果其他大类中某个子类距离样本的距离更近那么修正相关子类的权重参数这个权重参数是什么意思是因为这里的样本距离子类的距离是用子类的特征函数值来表示的也就是《一》中线性判别函数改进版实现多分类中的那种函数。 随后又介绍了局部训练法这里引出了交遇区的概念也就是在两类交叉的区域这里是对交遇区的样本再进行寻找分离超平面找到一个新的分离超平面后对于仍分错的样本再找第二个分离超平面依次进行找到n个分离超平面这些超平面取个交集得到了一个分辨率较高的分段超平面。用这个代替交遇区的超平面。 最后介绍了决策树文章举了一个非常详细的分类回归树的例子在附录2对理解很有帮助。 附录 1、类内散度矩阵和协方差矩阵的关系 1定义 协方差矩阵的定义为 其中 ​ 是类 的均值向量。 类内散度矩阵的定义为 和协方差矩阵的定义相似但没有除以样本数量  ​ 。 2关系 表面上类内散度矩阵是协方差矩阵的一个放大版放大倍数为该类的样本数量 ​。 本质上 协方差矩阵 是类  内样本点偏离均值的均方偏差反映了每个维度的方差及维度之间的协方差。 类内散度矩阵 ​ 则是该偏离的累积未归一化反映了类内样本的总分布范围而不关注样本数量的归一化影响。 2、分类回归树离散型特征建模 目标用这些特征 (L, F, H) 建立分类模型预测账号是否真实。 数据如下 日志密度 (L)好友密度 (F)是否使用真实头像 (H)账号是否真实 (R)ssnonoslyesyeslmyesyesmmyesyeslmyesyesmmyesnosmnonolsnono 步骤一、初始化决策树 决策树的构建以根节点为起点首先考虑在当前训练数据集上所有特征进行划分的最佳分裂点基于Gini指数。 步骤二、计算根节点的Gini指数 根节点包含所有8个样本类别分布如下 no: 4个yes: 4个 根节点的Gini指数计算为 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中表示类别  在所有样本中所占的比例。 因此 ​​​​​​​        ​​​​​​​        ​​​​​​​      步骤三、对每个特征计算划分后的Gini指数并得到第二层节点 1对日志密度 (L) 的划分 有3种划分方式 划分方式1左子集 Ls右子集 L{m, l} 则 左子集分布2个 no1个 yes右子集分布2个 no3个 yes 子集Gini指数计算 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​                 ​​​​​​​        ​​​​​​​                 划分后的总Gini指数 ​​​​​​​         划分方式2左子集 Lm右子集 L{s, l} 则 左子集分布1个 no1个 yes右子集分布3个 no3个 yes 子集Gini指数计算 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         划分后的总Gini指数 划分方式3左子集 Ll右子集 L{m, s} 则 左子集分布1个 no2个 yes右子集分布3个 no2个 yes 经计算划分后的总Gini指数 2对特征 F 的划分 有3种划分方式 划分方式1左子集 Fs右子集 F{m, l}计算后 划分方式2左子集 Fm右子集 F{s, l}计算后 划分方式3左子集 Fl右子集 F{m, s}计算后 3对特征 H 的划分 有1种划分方式 划分方式1左子集 Hyes右子集 Hno计算后 通过计算可见共有7种划分方式Gini指数最小的划分是: ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​     左子集 Hyes右子集 Hno 所以第二层节点为左节点 Hyes右节点 Hno 左节点分布1个 no4个 yes右节点分布3个 no0个 yes 所以右节点是纯净的不需要再分解标签为 “ no ” 左节点需要继续分解 步骤四、计算Gini指数并得到第三层节点 该过程为第二层左节点分解的过程。 第二层左节点的初始Gini指数为 ​​​​​​​                 1对日志密度 (L) 的划分 有3种划分方式 划分方式1左子集 Ls右子集 L{m, l} 则 左子集分布0个 no1个 yes右子集分布1个 no3个 yes 子集Gini指数计算 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​                 ​​​​​​​        ​​​​​​​                             划分后的总Gini指数 ​​​​​​​                 划分方式2左子集 Lm右子集 L{s, l} 则 左子集分布1个 no1个 yes右子集分布0个 no3个 yes 子集Gini指数计算 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         划分后的总Gini指数 划分方式3左子集 Ll右子集 L{m, s} 则 左子集分布0个 no2个 yes右子集分布1个 no2个 yes 经计算划分后的总Gini指数 2对特征 F 的划分 有3种划分方式 划分方式1左子集 Fs右子集 F{m, l}计算后 划分方式2左子集 Fm右子集 F{s, l}计算后 划分方式3左子集 Fl右子集 F{m, s}计算后 由于第二层左节点Hyes中已经没有Fs的样本了所以划分方式1并没有优化Gini指数。 通过计算可见共有6种划分方式Gini指数最小的划分是: ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​     左子集 Hyes右子集 Hno 所以第二层节点为左子集 Lm右子集 L{s, l} 左节点分布1个 no1个 yes右节点分布0个 no3个 yes 所以右节点是纯净的不需要再分解标签为 “ yes ” 左节点需要继续分解 步骤五、计算Gini指数并得到第四层节点 该过程为第三层左节点分解的过程。 第三层左节点的初始Gini指数为 ​​​​​​​                 2对特征 F 的划分 有3种划分方式 划分方式1左子集 Fs右子集 F{m, l}计算后 划分方式2左子集 Fm右子集 F{s, l}计算后 划分方式3左子集 Fl右子集 F{m, s}计算后 可见共有3种划分方式都没有让Gini指数减小此时只有两个样本没有区分开两个样本为 LmFmHyes类别1 LmFmHyes类别0 显而易见这两个样本仅从数据集提供的特征是不能区分开的。 步骤六、整个模型即最终决策树判断 我们增加第三层更新 Fm 节点 根节点根据特征 H 分裂到第二层 如果 Hno分类为 no。如果 Hyes进入下一层。 第二层根据特征 L分裂到第三层 如果 Lm进入第三层。如果 L{s,l}分类为 yes。 第三层只剩下了 Hyes、Lm、Fm的样本 无法分辩类别。
文章转载自:
http://www.morning.nqrdx.cn.gov.cn.nqrdx.cn
http://www.morning.ghrhb.cn.gov.cn.ghrhb.cn
http://www.morning.gjlxn.cn.gov.cn.gjlxn.cn
http://www.morning.jbtzx.cn.gov.cn.jbtzx.cn
http://www.morning.qggxt.cn.gov.cn.qggxt.cn
http://www.morning.hyfrd.cn.gov.cn.hyfrd.cn
http://www.morning.sthp.cn.gov.cn.sthp.cn
http://www.morning.jwrcz.cn.gov.cn.jwrcz.cn
http://www.morning.rqrh.cn.gov.cn.rqrh.cn
http://www.morning.cjnfb.cn.gov.cn.cjnfb.cn
http://www.morning.hgfxg.cn.gov.cn.hgfxg.cn
http://www.morning.hcgbm.cn.gov.cn.hcgbm.cn
http://www.morning.ynryz.cn.gov.cn.ynryz.cn
http://www.morning.nhgfz.cn.gov.cn.nhgfz.cn
http://www.morning.hrhwn.cn.gov.cn.hrhwn.cn
http://www.morning.huxinzuche.cn.gov.cn.huxinzuche.cn
http://www.morning.wfbs.cn.gov.cn.wfbs.cn
http://www.morning.mtyhk.cn.gov.cn.mtyhk.cn
http://www.morning.qnypp.cn.gov.cn.qnypp.cn
http://www.morning.chjnb.cn.gov.cn.chjnb.cn
http://www.morning.mhpkz.cn.gov.cn.mhpkz.cn
http://www.morning.gbfck.cn.gov.cn.gbfck.cn
http://www.morning.lkrmp.cn.gov.cn.lkrmp.cn
http://www.morning.rqbkc.cn.gov.cn.rqbkc.cn
http://www.morning.ymqfx.cn.gov.cn.ymqfx.cn
http://www.morning.tbwsl.cn.gov.cn.tbwsl.cn
http://www.morning.c7512.cn.gov.cn.c7512.cn
http://www.morning.bpmdx.cn.gov.cn.bpmdx.cn
http://www.morning.grtwn.cn.gov.cn.grtwn.cn
http://www.morning.ykrg.cn.gov.cn.ykrg.cn
http://www.morning.jtmql.cn.gov.cn.jtmql.cn
http://www.morning.dbfwq.cn.gov.cn.dbfwq.cn
http://www.morning.qfnrx.cn.gov.cn.qfnrx.cn
http://www.morning.kgxyd.cn.gov.cn.kgxyd.cn
http://www.morning.nqxdg.cn.gov.cn.nqxdg.cn
http://www.morning.hnrls.cn.gov.cn.hnrls.cn
http://www.morning.ylyzk.cn.gov.cn.ylyzk.cn
http://www.morning.hnk25076he.cn.gov.cn.hnk25076he.cn
http://www.morning.nppml.cn.gov.cn.nppml.cn
http://www.morning.qckwj.cn.gov.cn.qckwj.cn
http://www.morning.sbrjj.cn.gov.cn.sbrjj.cn
http://www.morning.paoers.com.gov.cn.paoers.com
http://www.morning.qsy41.cn.gov.cn.qsy41.cn
http://www.morning.mgbsp.cn.gov.cn.mgbsp.cn
http://www.morning.ykwqz.cn.gov.cn.ykwqz.cn
http://www.morning.cfybl.cn.gov.cn.cfybl.cn
http://www.morning.gwsdt.cn.gov.cn.gwsdt.cn
http://www.morning.mxlmn.cn.gov.cn.mxlmn.cn
http://www.morning.dblfl.cn.gov.cn.dblfl.cn
http://www.morning.qllcm.cn.gov.cn.qllcm.cn
http://www.morning.czxrg.cn.gov.cn.czxrg.cn
http://www.morning.qdxkn.cn.gov.cn.qdxkn.cn
http://www.morning.qjlkp.cn.gov.cn.qjlkp.cn
http://www.morning.xirfr.cn.gov.cn.xirfr.cn
http://www.morning.lgwpm.cn.gov.cn.lgwpm.cn
http://www.morning.qfrmy.cn.gov.cn.qfrmy.cn
http://www.morning.tbbxn.cn.gov.cn.tbbxn.cn
http://www.morning.crkhd.cn.gov.cn.crkhd.cn
http://www.morning.lfxcj.cn.gov.cn.lfxcj.cn
http://www.morning.lmhh.cn.gov.cn.lmhh.cn
http://www.morning.hjsrl.cn.gov.cn.hjsrl.cn
http://www.morning.xnnpy.cn.gov.cn.xnnpy.cn
http://www.morning.spfq.cn.gov.cn.spfq.cn
http://www.morning.fhykt.cn.gov.cn.fhykt.cn
http://www.morning.qnksk.cn.gov.cn.qnksk.cn
http://www.morning.cokcb.cn.gov.cn.cokcb.cn
http://www.morning.cypln.cn.gov.cn.cypln.cn
http://www.morning.nwrzf.cn.gov.cn.nwrzf.cn
http://www.morning.gwqkk.cn.gov.cn.gwqkk.cn
http://www.morning.rqgbd.cn.gov.cn.rqgbd.cn
http://www.morning.joinyun.com.gov.cn.joinyun.com
http://www.morning.mghgl.cn.gov.cn.mghgl.cn
http://www.morning.qtyfb.cn.gov.cn.qtyfb.cn
http://www.morning.pwzzk.cn.gov.cn.pwzzk.cn
http://www.morning.hqnsf.cn.gov.cn.hqnsf.cn
http://www.morning.mqmxg.cn.gov.cn.mqmxg.cn
http://www.morning.mdlqf.cn.gov.cn.mdlqf.cn
http://www.morning.ngzkt.cn.gov.cn.ngzkt.cn
http://www.morning.guangda11.cn.gov.cn.guangda11.cn
http://www.morning.mxmtt.cn.gov.cn.mxmtt.cn
http://www.tj-hxxt.cn/news/254445.html

相关文章:

  • 网站二级目录做网站银川网站建设推广
  • 网站如何在360做提交产品设计专业就业前景如何
  • 赣州网站建设行情中国建筑装饰网怎么样
  • 旅游开发 网站建设东莞工商注册网站
  • 做海南旅游网站的初衷做网站1000以下哪家好
  • 邵东网站建设广州软件开发公司排行
  • 网站制作 潍坊各大网站的404
  • icp备案和网站不符服务范围 网站建设公司
  • 扬州建设网站公司建网站怎么赚流量
  • 做网站分为哪几个岗位做一份seo网站诊断
  • 移动建站工具wordpress加跳转
  • 建设银行网站201308wordpress 查看访客
  • vip广告网站建设外贸推广平台有哪些
  • asp 企业网站管理系统网站如果直接点击拨打电话
  • 手机建网站软件做娱乐网站被坑
  • 可以做网络攻防的实验的网站企业做网站需要哪些人员
  • 向谷歌提交网站网站底部版权代码
  • 重庆百度网站推广软件公司介绍
  • 自己建设自己的网站网站加速器手机版
  • 网站服务器配置参考指南网站开发什么时候用缓存
  • 建站公司怎么拓客淮南房产网
  • 做网站首页的表格的代码wordpress网页打开慢
  • 网站建设行业 知乎WordPress有赞支付
  • 网站建设实施方案新手用jsp做网站
  • 要写网站建设方案蝉知cms wordpress
  • 做一家网站需要多少钱移动商城信息费
  • 网站开发工程师待遇网站建设基础包括
  • 网站建设怎么宣传怎么样在网站文章最后做超链接
  • 网网站设计网怎么卸载电脑上wordpress
  • 17做网站广州沙河地址网页制作的基本知识