网站建设个人主页图,网站开发所需开发环境,不提供花架子网站 我,阿里巴巴网站建设免费相关文章
K近邻算法和KD树详细介绍及其原理详解朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解决策树算法和CART决策树算法详细介绍及其原理详解线性回归算法和逻辑斯谛回归算法详细介绍及其原理详解 文章目录相关文章前言一、线性回归二、逻辑斯谛回归总结前言 今天给大家…相关文章
K近邻算法和KD树详细介绍及其原理详解朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解决策树算法和CART决策树算法详细介绍及其原理详解线性回归算法和逻辑斯谛回归算法详细介绍及其原理详解 文章目录相关文章前言一、线性回归二、逻辑斯谛回归总结前言 今天给大家带来的主要内容包括线性回归算法、逻辑斯谛回归算法。废话不多说下面就是本文的全部内容了 一、线性回归 假设小明现在有一个游戏战队我们称其为蓝色战队这支战队队员的游戏手感都比较慢热在整个游戏比赛期间不同阶段的两个战队的得分情况如下所示 图1蓝色战队和橙色战队的得分情况 第5min蓝色战队和橙色战队零十开第10min蓝色战队和橙色战队一九开第20min蓝色战队和橙色战队五五开第35min蓝色战队和橙色战队九一开第40min蓝色战队和橙色战队十零开 由于游戏赛场上的情况变化莫测作为游戏战队老板的小明想知道在比赛的第26min的时候蓝色战队和橙色战队几几开呢或者在比赛的其他时间蓝色战队和橙色战队又是几几开呢如果可以得到这样的数据就可以帮助小明发掘他战队队员的最大潜力了。 图2游戏比赛第26min蓝色战队和橙色战队的得分情况如何 为了得到以上信息我们需要进行计算在进行计算之前首先我们要明确几几开就代表着事情发生的几率也就是蓝色战队赢下对局和输掉对局可能性的比值。我们把这些几率值列出来 图3在游戏比赛不同时间段的蓝色战队获胜的概率 为了方便观察我们把它转化为小数 图4将在游戏比赛不同时间段的蓝色战队获胜的概率转换为小数 根据以上计算结果可以发现当队伍十分可能输给对面的时候赢的几率接近于零当战队非常可能赢的时候赢得几率接近于正无穷 图5将在游戏比赛不同时间段的蓝色战队获胜的概率刻画在数轴上 虽然我们现在可以得到不同比赛时间的蓝色队伍获胜的概率分布情况但是这种在正半轴十分不对称的分布不太好分析问题所以我们使用几率的对数来分析数据 图6将在游戏比赛不同时间段的蓝色战队获胜的概率转换为对数概率 可以看到这样就可以把数据从正半轴重新映射回整条数轴上了 图7将在游戏比赛不同时间段的蓝色战队获胜的概率转换重新刻画在数轴上 如果我们以对数几率作为yyy轴比赛时间作为xxx轴就可以把所有比赛的数据映射到x⋅yx \cdot yx⋅y平面上了 图8将在整场比赛中的数据映射到x·y平面上 可以发现上图就是我们耳熟能详的线性回归。我们都知道通过每一个点到直线的距离差然后做一个最小二乘法的优化 e(w,b)12∑i1N∣∣ei∣∣2e(w,b)\frac{1}{2}\sum_{i1}^{N}||e_{i}||^{2} e(w,b)21i1∑N∣∣ei∣∣2 利用上式进行最小二乘法的优化后就可以得到一条最完美的直线来拟合这些数据得到这条直线之后我们只需要查询xxx轴所对应的时间就可以求出赢下这场比赛的可能性了 图9使用最小二乘法得到对于整场比赛数据的最佳拟合直线 以上就是对于线性回归的介绍。
二、逻辑斯谛回归 虽然看起来我们可以得到比赛中不同时间段的蓝色队伍获胜的可能性但是其中有许多数据点的yyy值是正负无穷这种情况可是没有办法计算数据和直线的距离误差的 图10使用直线拟合数据无法计算正负无穷时数据和直线距离误差 为了解决这个问题我们可以考虑把这条直线重新映射回概率空间我们是以对数几率作为yyy轴的所以yyy的值为 ylog(p1−p)y \log(\frac{p}{1-p}) ylog(1−pp) 我们现在要把概率ppp写成yyy的函数所以等式两边做一个自然对数的幂 eyp1−pe^{y}\frac{p}{1-p} ey1−pp 然后等式两边同时乘以1−p1-p1−p (1−p)eyp(1-p)e^{y}p (1−p)eyp 把括号展开 ey−peype^{y}-pe^{y}p ey−peyp 然后等式两边交换peype^{y}pey eyppeye^{y}ppe^{y} eyppey 这样等式的右面就可以提出公共项ppp ey(1ey)pe^{y}(1e^{y})p ey(1ey)p 此时我们就可以得到ppp的表达式 pey1eyp\frac{e^{y}}{1e^{y}} p1eyey 上式就是逻辑斯谛函数当我们把直线ywxbywxbywxb的表达式代入到公式中就得到了概率空间的表达 pewxb1ewxbp\frac{e^{wxb}}{1e^{wxb}} p1ewxbewxb 上式就是逻辑斯谛回归的概率函数因此我们可以这样理解概率空间内的逻辑斯谛回归其实就是对数几率空间内的线性回归 图11线性回归和逻辑斯谛回归 此时我们已经可以在概率空间中讨论不同比赛时间的蓝色队伍获胜的可能性了 图12在概率空间讨论不同比赛时间的蓝色队伍获胜的可能性 既然回到了概率空间我们就可以使用概率论中的极大似然估计来得到拟合情况最好的逻辑斯谛曲线。首先我们假设对于在时间xxx时蓝色队伍赢下比赛的概率为ppp p(y1∣x)pp(y1|x)p p(y1∣x)p 那么蓝色队伍在时间xxx时输掉比赛的概率就是1−p1-p1−p p(y0∣x)1−pp(y0|x)1-p p(y0∣x)1−p 因为yyy的值只能取零或一所以我们可以按照下式来表达任意样本xix_{i}xi的概率 p(y?∣xi)piyi(1−pi)1−yip(y?|x_{i})p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}} p(y?∣xi)piyi(1−pi)1−yi 使用最大似然估计法得到的似然值就是这些样本概率的乘积 L∏i1Np(y?∣xi)L\prod_{i1}^{N}p(y?|x_{i}) Li1∏Np(y?∣xi) 我们可以把p(y?∣xi)piyi(1−pi)1−yip(y?|x_{i})p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}p(y?∣xi)piyi(1−pi)1−yi代入到上式中 L∏i1Npiyi(1−pi)1−yiL\prod_{i1}^{N}p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}} Li1∏Npiyi(1−pi)1−yi 一系列式子的乘积是一个不太容易优化的表达所以我们取它的对数形式把乘法转化为加法 log(L)∑i1Nyilog(pi)(1−yi)log(1−pi)\log (L)\sum_{i1}^{N} y_{i} \log \left(p_{i}\right)\left(1-y_{i}\right) \log \left(1-p_{i}\right) log(L)i1∑Nyilog(pi)(1−yi)log(1−pi) 然后把括号展开整理一下 log(L)∑i1Nyilogpi1−pilog(1−pi)\log (L)\sum_{i1}^{N} y_{i} \log \frac{p_{i}}{1-p_{i}}\log \left(1-p_{i}\right) log(L)i1∑Nyilog1−pipilog(1−pi) 可以看到在上式中等号右面的式子中出现了logpi1−pi\log \frac{p_{i}}{1-p_{i}}log1−pipi这个熟悉的身影这就是之前我们介绍的对数几率因为逻辑斯谛回归就是对数几率空间内的线性回归所以我们可以将logpi1−pi\log \frac{p_{i}}{1-p_{i}}log1−pipi替换成直线的方程 log(L)∑i1Nyi(wxib)log(1−pi)\log (L)\sum_{i1}^{N} y_{i} (wx_{i}b)\log \left(1-p_{i}\right) log(L)i1∑Nyi(wxib)log(1−pi) 需要注意的是上式最后面的pip_{i}pi值就是逻辑斯谛函数所以我们将逻辑斯谛函数piewxib1ewxibp_{i}\frac{e^{wx_{i}b}}{1e^{wx_{i}b}}pi1ewxibewxib代入上式即可 log(L)∑i1Nyi(wxib)−log(1ewxib)\log (L)\sum_{i1}^{N} y_{i} (wx_{i}b)-\log \left(1e^{wx_{i}b}\right) log(L)i1∑Nyi(wxib)−log(1ewxib) 上式就是我们最终得到的式子这个式子之和www和bbb这两个参数相关我们可以使用最大似然估计优化方法得到最好的www和bbb这两个参数 w^,b^argmaxw,b∑i1Nyi(wxib)−log(1ewxib)\widehat{w}, \widehat{b}argmax_{w,b}\sum_{i1}^{N}y_{i}(wx_{i}b)-\log(1e^{wx_{i}b}) w,bargmaxw,bi1∑Nyi(wxib)−log(1ewxib) 当我们得到最优的参数www和bbb的值后就可以将x26x26x26代入 p(26)ew^×26b^1ew^×26b^p(26)\frac{e^{\widehat{w}\times 26 \widehat{b}}}{1e^{\widehat{w}\times 26 \widehat{b}}} p(26)1ew×26bew×26b 这样就可以得到在比赛的第26分钟时蓝色战队获胜的概率了 图13通过逻辑斯谛回归计算在比赛的第26min时蓝色队伍获胜的概率 以上就是逻辑斯谛回归的全部过程。 总结 以上就是本文的全部内容了这个系列还会继续更新给大家带来更多的关于机器学习方面的算法和知识下篇博客见