当前位置: 首页 > news >正文

企业网站内容建筑网校培训机构排名

企业网站内容,建筑网校培训机构排名,黄页网站系统,企业简介内容文章目录 2.1 贝叶斯定理2.1.1 贝叶斯公式推导条件概率变式 贝叶斯公式 2.1.2 贝叶斯定理2.1.3 贝叶斯决策基本思想 2.2 朴素贝叶斯2.2.1 朴素贝叶斯分类器思想2.2.2 条件独立性对似然概率计算的影响2.2.3 基本方法2.2.4 模型后验概率最大化损失函数期望风险最小化策略 2.2.5 朴… 文章目录 2.1 贝叶斯定理2.1.1 贝叶斯公式推导条件概率变式 贝叶斯公式 2.1.2 贝叶斯定理2.1.3 贝叶斯决策基本思想 2.2 朴素贝叶斯2.2.1 朴素贝叶斯分类器思想2.2.2 条件独立性对似然概率计算的影响2.2.3 基本方法2.2.4 模型后验概率最大化损失函数期望风险最小化策略 2.2.5 朴素贝叶斯估计离散特征学习算法 2.3 朴素贝叶斯分类器分析2.3.1 条件独立性假设分析2.3.2 期望风险最小化2.3.3 拉普拉斯平滑 2.4 应用比赛结果预测垃圾邮件过滤 2.5 半朴素贝叶斯分类器 用于解决分类问题将连续取值输入映射为离散取值的输出 解决分类问题的依据是数据的属性 利用后验概率选择最佳分类后验概率通过贝叶斯定理求解朴素贝叶斯假定所有属性相互独立基于这一假设将类条件概率转化为属性条件概率的乘积朴素贝叶斯方法可以使期望风险最小化影响朴素贝叶斯分类的是所有属性之间的依赖关系在不同类别上的分布 2.1 贝叶斯定理 2.1.1 贝叶斯公式推导 条件概率 引例 3张抽奖券1个中奖券最后一名与第一名抽中奖概率相同 Y Y Y 抽中 N N N 未抽中 , Ω { Y N N , N Y N , N N Y } \Omega\{YNN,NYN,NNY\} Ω{YNN,NYN,NNY} A i A_i Ai​ 事件表示第 i i i 名抽中 P ( A 3 ) ∣ A 3 ∣ ∣ Ω ∣ 1 3 P(A_3)\frac{\vert A_3\vert}{\vert \Omega\vert}\frac{1}{3} P(A3​)∣Ω∣∣A3​∣​31​ P ( A 1 ) ∣ A 1 ∣ ∣ Ω ∣ 1 3 P(A_1)\frac{\vert A_1\vert}{\vert \Omega\vert}\frac{1}{3} P(A1​)∣Ω∣∣A1​∣​31​ 上例中若已知第一名未抽中求第三名抽中概率则 第一名未抽中 B { N Y N , N N Y } B\{NYN,NNY\} B{NYN,NNY} 第二名抽中 A 2 { N N Y } A_2\{NNY\} A2​{NNY} P ( A 2 ∣ B ) 1 2 P(A_2\vert B)\frac{1}{2} P(A2​∣B)21​ 分析样本空间变了目标样本数量不变 事件B发生条件下有事件A发生 ⟺ \iff ⟺ 事件AB同时发生样本空间为B 求解 P ( A ∣ B ) P ( A B ) P ( B ) ⟺ n ( A B ) / n ( Ω ) n ( B ) / n ( Ω ) P ( A B ) P ( B ) P(A\vert B)\frac{P(AB)}{P(B)}\iff\frac{n(AB)/n(\Omega)}{n(B)/n(\Omega)}\frac{P(AB)}{P(B)} P(A∣B)P(B)P(AB)​⟺n(B)/n(Ω)n(AB)/n(Ω)​P(B)P(AB)​ eg 掷硬币100个中有99个正常HT一个HH。投出去是正面该硬币是异常硬币的概率 A表示异常硬币的概率B表示掷出正面的概率 P ( A ∣ B ) 异常硬币正面 n ( 硬币正面 ) 2 101 P(A\vert B)\frac{异常硬币正面}{n(硬币正面)}\frac{2}{101} P(A∣B)n(硬币正面)异常硬币正面​1012​ P ( A ∣ B ) P ( A B ) P ( B ) P ( A ∣ B ) P ( B ) P ( A ∣ B ) P ( B ) P ( A ∣ B ‾ ) P ( B ‾ ) 2 101 P(A\vert B)\frac{P(AB)}{P(B)}\frac{P(A\vert B)P(B)}{P(A\vert B)P(B)P(A\vert \overline{B})P(\overline{B})}\frac{2}{101} P(A∣B)P(B)P(AB)​P(A∣B)P(B)P(A∣B)P(B)P(A∣B)P(B)​1012​ 变式 乘法原理 P ( A B ) P ( A ) P ( B ) P(AB)P(A)P(B) P(AB)P(A)P(B) 全概率公式 P ( B ) P ( A 1 ⋂ B ) ⋯ P ( A n ⋂ B ) P ( A 1 ) P ( B ∣ A 1 ) ⋯ P ( A n ) P ( B ∣ A n ) P(B)P(A_1\bigcap B)\cdotsP(A_n\bigcap B)P(A_1)P(B\vert A_1)\cdotsP(A_n)P(B\vert A_n) P(B)P(A1​⋂B)⋯P(An​⋂B)P(A1​)P(B∣A1​)⋯P(An​)P(B∣An​) 贝叶斯公式 对于条件概率 P ( A i ∣ B ) P(A_i\vert B) P(Ai​∣B) 有 P ( A i ∣ B ) P ( A i B ) P ( B ) P ( B ∣ A i ) P ( A i ) P ( B ) P ( B ∣ A i ) P ( A i ) ∑ j 1 n P ( B ∣ A j ) P ( A j ) P(A_i\vert B)\frac{P(A_iB)}{P(B)}\frac{P(B\vert A_i)P(A_i)}{P(B)}\frac{P(B\vert A_i)P(A_i)}{\sum\limits_{j1}^nP(B\vert A_j)P(A_j)} P(Ai​∣B)P(B)P(Ai​B)​P(B)P(B∣Ai​)P(Ai​)​j1∑n​P(B∣Aj​)P(Aj​)P(B∣Ai​)P(Ai​)​ 2.1.2 贝叶斯定理 P ( Y ∣ X ) P ( X ∣ Y ) P ( Y ) P ( X ) P(Y\vert X)\frac{P(X\vert Y)P(Y)}{P(X)} P(Y∣X)P(X)P(X∣Y)P(Y)​ P ( Y ∣ X ) P(Y\vert X) P(Y∣X) 后验概率 P ( Y ) P(Y) P(Y) 先验概率 P ( X ∣ Y ) P(X\vert Y) P(X∣Y) 似然概率 2.1.3 贝叶斯决策 在不完全的情报下对部分未知状态 P ( Y ∣ X ) P(Y\vert X) P(Y∣X) 用主观概率 P ( Y ) P(Y) P(Y) 估计然后用贝叶斯公式对发生概率修正 利用期望风险与修正概率做出最优决策 基本思想 已知的样本密度 P ( X ) P(X) P(X) 和先验概率 P ( Y ) P(Y) P(Y) 样本密度可由全概率公式求得 P ( X ) ∑ i P ( X ∣ Y i ) P ( Y i ) P(X)\sum\limits_{i} P(X\vert Y_i)P(Y_i) P(X)i∑​P(X∣Yi​)P(Yi​) 利用贝叶斯公式转化为似然概率 P ( Y ∣ X ) P ( X ∣ Y ) P ( Y ) P ( X ) P(Y\vert X)\frac{P(X\vert Y)P(Y)}{P(X)} P(Y∣X)P(X)P(X∣Y)P(Y)​ 根据后验概率的大小进行决策分类 eg 由统计大约 0.1 % 0.1\% 0.1% 感染AIDS所有感染者检测为阳性有 1 % 1\% 1% 未感染者误检测为阳性若某人检测结果为阳性求检测阳性确定感染的概率 用 Y 1 Y1 Y1 表示感染 X 1 X1 X1 表示检测阳性 由于 0.1 % 0.1\% 0.1% 的人感染在已知感染情况下检测必为阳性 P ( X 1 ∣ Y 1 ) P(X1\vert Y1) P(X1∣Y1) P ( Y 1 ∣ X 1 ) P ( X 1 ∣ Y 1 ) P ( Y 1 ) P ( X 1 ) 1 × 0.001 1 × 0.001 0.01 × 0.999 P(Y1\vert X1)\frac{P(X1\vert Y1)P(Y1)}{P(X1)}\frac{1\times 0.001}{1\times 0.0010.01\times 0.999} P(Y1∣X1)P(X1)P(X1∣Y1)P(Y1)​1×0.0010.01×0.9991×0.001​ 第二轮检测中 90 % 90\% 90% 感染者为阳性 5 % 5\% 5% 未感染者为阳性求误诊率 P ( X 1 1 ) P(X_11) P(X1​1) 表示第一轮检测为阳性的概率 P ( X 2 1 ) P(X_21) P(X2​1) 表示第二轮检测为阳性的概率 由补充题设可知 P ( X 2 ∣ Y 1 ) 0.9 , P ( X 2 ∣ Y 0 ) 0.05 P(X_2\vert Y1)0.9,P(X_2\vert Y0)0.05 P(X2​∣Y1)0.9,P(X2​∣Y0)0.05 P ( Y 0 ∣ X 1 1 , X 2 1 ) P ( X 1 1 , X 2 1 ∣ Y 0 ) ⋅ P ( Y 0 ) P ( X 1 1 , X 2 1 ) 表示误诊率 P(Y0\vert X_11,X_21)\frac{P(X_11,X_21\vert Y0)\cdot P(Y0)}{P(X_11,X_21)} 表示误诊率 P(Y0∣X1​1,X2​1)P(X1​1,X2​1)P(X1​1,X2​1∣Y0)⋅P(Y0)​表示误诊率 其中先验概率 P ( Y 0 ) 0.999 P(Y0)0.999 P(Y0)0.999 由全概率公式 P ( X 1 1 , X 2 1 ) P ( X 1 1 , X 2 1 ∣ Y 0 ) ⋅ P ( Y 0 ) P ( X 1 1 , X 2 1 ∣ Y 1 ) ⋅ P ( Y 1 ) \begin{aligned} P(X_11,X_21)P(X_11,X_21\vert Y0)\cdot P(Y0)\\ P(X_11,X_21\vert Y1)\cdot P(Y1) \end{aligned} P(X1​1,X2​1)​P(X1​1,X2​1∣Y0)⋅P(Y0)P(X1​1,X2​1∣Y1)⋅P(Y1)​ P ( X 1 1 , X 2 1 ∣ Y 0 ) 条件独立性假设 P ( X 1 1 ∣ Y 0 ) ⋅ P ( X 2 1 ∣ Y 0 ) 0.01 × 0.05 P ( X 1 1 , X 2 1 ∣ Y 1 ) 条件独立性假设 P ( X 1 1 ∣ Y 1 ) ⋅ P ( X 2 1 ∣ Y 1 ) 1 × 0.9 P(X_11,X_21\vert Y0)\xlongequal{条件独立性假设}P(X_11\vert Y0)\cdot P(X_21\vert Y0)0.01\times 0.05\\ P(X_11,X_21\vert Y1)\xlongequal{条件独立性假设}P(X_11\vert Y1)\cdot P(X_21\vert Y1)1\times 0.9 P(X1​1,X2​1∣Y0)条件独立性假设 P(X1​1∣Y0)⋅P(X2​1∣Y0)0.01×0.05P(X1​1,X2​1∣Y1)条件独立性假设 P(X1​1∣Y1)⋅P(X2​1∣Y1)1×0.9 2.2 朴素贝叶斯 2.2.1 朴素贝叶斯分类器思想 朴素贝叶斯分类器假定样本的不同属性满足条件独立性假设 其基本思想分析待分类样本出现在每个输出类别的后验概率 P ( Y ∣ X ) P(Y\vert X) P(Y∣X) 并将取得最大后验概率的类别作为输出 假设训练数据的属性由 n n n 维随机变量 X X X 表示其分类结果用随机变量 Y Y Y 表示那么 X X X 和 Y Y Y 的统计规律就可以用联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) 表示每一个具体的样本 ( x i , y i ) (x_i,y_i) (xi​,yi​) 都可以由 P ( X , Y ) P(X,Y) P(X,Y) 独立同分布生成——生成学习 P ( Y ∣ X ) P ( X , Y ) P ( X ) P ( Y ) ⋅ P ( X ∣ Y ) P ( X ) P(Y\vert X)\frac{P(X,Y)}{P(X)}\frac{P(Y)\cdot P(X\vert Y)}{P(X)} P(Y∣X)P(X)P(X,Y)​P(X)P(Y)⋅P(X∣Y)​ P ( Y ) P(Y) P(Y) 表示每个类别出现的概率也就是类 先验概率 先验概率容易根据训练数据计算出来只需要分别统计不同类别样本的数量即可 P ( X ∣ Y ) P(X\vert Y) P(X∣Y) 表示在给定的类别下不同属性出现的概率即类似然概率 似然概率受属性值的影响 2.2.2 条件独立性对似然概率计算的影响 如果每个样本包含 100 个属性每个属性取值可能有 100 种那么对分类的每个结果要计算的条件概率数目就是 10 0 100 100^{100} 100100 对似然概率的精确估计就需要庞大的计算量 在条件独立性假设的前提下保证了所有属性相互独立互不影响。每个属性独立地对分类结果发生作用即 P ( X x ∣ Y c k ) P ( X ( 1 ) x ( 1 ) , X ( 2 ) x ( 2 ) , ⋯ , X ( m ) x ( m ) ∣ Y c k ) 所有属性相互独立 ∏ j 1 m P ( X ( j ) x ( j ) ∣ Y c k ) P(Xx\vert Yc_k)P\left(X^{(1)}x^{(1)},X^{(2)}x^{(2)},\cdots,X^{(m)}x^{(m)}\vert Yc_k\right)\\ \xlongequal{所有属性相互独立}\prod\limits_{j1}^mP(X^{(j)}x^{(j)}\vert Yc_k) P(Xx∣Yck​)P(X(1)x(1),X(2)x(2),⋯,X(m)x(m)∣Yck​)所有属性相互独立 j1∏m​P(X(j)x(j)∣Yck​) 在条件独立性假设下将类条件概率转化为属性条件概率的乘积 在没有条件独立性假设的情况下每个样本分类结果 y y y 只能刻画所有属性 X ( 1 ) , X ( 2 ) , ⋯ , X ( m ) X^{(1)},X^{(2)},\cdots,X^{(m)} X(1),X(2),⋯,X(m) 形成的整体且只有具有相同属性的样本才能放在一起评价 当属性数目较多而样本数目较少时要让 m m m 个属性取到相同特征就有些牵强 有了条件独立性假设后分类结果 y y y 就相当于实现了 m m m 重复用。每个样本既可以用于刻画 X ( 1 ) X^{(1)} X(1) 又可以刻画 X ( n ) X^{(n)} X(n) 无形中将训练样本的数量扩大为原先的 m m m 倍 分析每个属性取值对分类结果的影响时也有更多的数据作为支撑 条件独立性假设是一个很强的假设导致对数据的过度简化因而对性能带来些许影响。但由于其极大简化分类问题计算复杂度的能力性能上做部分折衷也并非不能接受 2.2.3 基本方法 求先验概率分布 P ( Y c k ) , k 1 , 2 , ⋯ , K P(Yc_k),k1,2,\cdots,K P(Yck​),k1,2,⋯,K 求似然概率分布 P ( X ∣ Y c k ) P ( X ( 1 ) x ( 1 ) , X ( 2 ) x ( 2 ) , ⋯ , X ( m ) x ( m ) ∣ Y c k ) 实际 P ( X ( 2 ) x ( 2 ) , ⋯ , X ( m ) x ( m ) ∣ X ( 1 ) x ( 1 ) , Y c k ) P ( X ( 1 ) x ( 1 ) ) P ( X ( 3 ) x ( 3 ) , ⋯ , X ( m ) x ( m ) ∣ X ( 1 ) x ( 1 ) , X ( 2 ) x ( 2 ) , Y c k ) P ( X ( 1 ) x ( 1 ) ) P ( X ( 2 ) x ( 2 ) ) 朴素贝叶斯 i i d P ( X ( 1 ) x ( 1 ) ∣ Y c k ) P ( X ( 2 ) x ( 2 ) ∣ Y c k ) ⋯ P ( X ( m ) x ( m ) ∣ Y c k ) ∏ j 1 m P ( X ( j ) x ( j ) ∣ Y c k ) \begin{aligned} P(X\vert Yc_k)P(X^{(1)}x^{(1)},X^{(2)}x^{(2)},\cdots,X^{(m)}x^{(m)}\vert Yc_k)\\ \xlongequal{实际}P(X^{(2)}x^{(2)},\cdots,X^{(m)}x^{(m)}\vert X^{(1)}x^{(1)},Yc_k)P(X^{(1)}x^{(1)})\\ P(X^{(3)}x^{(3)},\cdots,X^{(m)}x^{(m)}\vert X^{(1)}x^{(1)},X^{(2)}x^{(2)},Yc_k)P(X^{(1)}x^{(1)})P(X^{(2)}x^{(2)})\\ \xlongequal{朴素贝叶斯iid}P(X^{(1)}x^{(1)}\vert Yc_k)P(X^{(2)}x^{(2)}\vert Yc_k)\cdots P(X^{(m)}x^{(m)}\vert Yc_k)\\ \prod\limits_{j1}^mP(X^{(j)}x^{(j)}\vert Yc_k) \end{aligned} P(X∣Yck​)​P(X(1)x(1),X(2)x(2),⋯,X(m)x(m)∣Yck​)实际 P(X(2)x(2),⋯,X(m)x(m)∣X(1)x(1),Yck​)P(X(1)x(1))P(X(3)x(3),⋯,X(m)x(m)∣X(1)x(1),X(2)x(2),Yck​)P(X(1)x(1))P(X(2)x(2))朴素贝叶斯iid P(X(1)x(1)∣Yck​)P(X(2)x(2)∣Yck​)⋯P(X(m)x(m)∣Yck​)j1∏m​P(X(j)x(j)∣Yck​)​ 由贝叶斯定理计算 P ( Y c k ∣ X ) P ( X ∣ Y c k ) P ( Y c k ) P ( X ) P ( X ∣ Y c k ) P ( Y c k ) ∑ k 1 K P ( X ∣ Y c k ) P ( Y c k ) P ( Y c k ) ∏ j 1 m P ( X ( j ) x ( j ) ∣ Y c k ) ∑ k 1 K P ( Y c k ) ∏ j 1 m P ( X ( j ) x ( j ) ∣ Y c k ) \begin{aligned} P(Yc_k\vert X)\frac{P(X\vert Yc_k)P(Yc_k)}{P(X)}\frac{P(X\vert Yc_k)P(Yc_k)}{\sum\limits_{k1}^KP(X\vert Yc_k)P(Yc_k)}\\ \frac{P(Yc_k)\prod\limits_{j1}^mP(X^{(j)}x^{(j)}\vert Yc_k)}{\sum\limits_{k1}^KP(Yc_k)\prod\limits_{j1}^mP(X^{(j)}x^{(j)}\vert Yc_k)} \end{aligned} P(Yck​∣X)​P(X)P(X∣Yck​)P(Yck​)​k1∑K​P(X∣Yck​)P(Yck​)P(X∣Yck​)P(Yck​)​k1∑K​P(Yck​)j1∏m​P(X(j)x(j)∣Yck​)P(Yck​)j1∏m​P(X(j)x(j)∣Yck​)​​ 2.2.4 模型 y f ^ ( X ) a r g max ⁡ c k P ( Y c k ∣ X ) a r g max ⁡ c k P ( Y c k ) ∏ j 1 m P ( X ( j ) x ( j ) ∣ Y c k ) P ( X ) ∝ a r g max ⁡ c k P ( Y c k ) ∏ j 1 m P ( X ( j ) x ( j ) ∣ Y c k ) \begin{aligned} y\hat{f}(X)arg\max\limits_{c_k}P(Yc_k\vert X)\\ arg\max\limits_{c_k}\frac{P(Yc_k)\prod\limits_{j1}^mP(X^{(j)}x^{(j)}\vert Yc_k)}{P(X)}\\ \propto arg\max\limits_{c_k}P(Yc_k)\prod\limits_{j1}^mP(X^{(j)}x^{(j)}\vert Yc_k) \end{aligned} yf^​(X)​argck​max​P(Yck​∣X)argck​max​P(X)P(Yck​)j1∏m​P(X(j)x(j)∣Yck​)​∝argck​max​P(Yck​)j1∏m​P(X(j)x(j)∣Yck​)​ 有了训练数据先验概率 P ( Y ) P(Y) P(Y) 和似然概率 P ( X ∣ Y ) P(X\vert Y) P(X∣Y) 就可被视为已知条件进而可用于求解后验概率 P ( Y ∣ X ) P(Y\vert X) P(Y∣X) 。 对于给定的输入 X X X 朴素贝叶斯分类器就可以利用贝叶斯定理求解后验概率并将后验概率最大的类作为输出 由于所有的后验概率求解中边界概率 P ( X ) P(X) P(X) 都是相同的因而其影响可忽略有朴素贝叶斯分类器的数学表达式 y ∝ a r g max ⁡ c k P ( Y c k ) ⋅ ∏ j m P ( X ( j ) x ( j ) ∣ Y c k ) y\propto arg\max\limits_{c_k}P(Yc_k)\cdot \prod\limits_{j}^mP(X^{(j)}x^{(j)}\vert Yc_k) y∝argck​max​P(Yck​)⋅j∏m​P(X(j)x(j)∣Yck​) 后验概率最大化 朴素贝叶斯将实例分到后验概率最大的类中等价于 期望风险最小化策略 损失函数 L ( Y , f ( X ) ) { 1 , Y ≠ f ^ ( X ) 0 , Y f ^ ( X ) L(Y,f(X))\begin{cases} 1,Y\neq \hat{f}(X)\\ 0,Y\hat{f}(X) \end{cases} L(Y,f(X)){10​,Yf^​(X),Yf^​(X)​ 期望风险 R e x p ( f ) E [ L ( Y , f ( X ) ) ] ∫ X Y L ( y , f ^ ( x ) ) ⋅ P ( x , y ) d x d y ∑ k 1 K [ L ( y , f ^ ( x ) ) ⋅ P ( y ∣ x ) ] \begin{aligned} R_{exp}(f)E[L(Y,f(X))]\\ \int_{\mathcal{XY}}L(y,\hat{f}(x))\cdot P(x,y)dxdy\\ \sum\limits_{k1}^{^K}[L(y,\hat{f}(x))\cdot P(y\vert x)] \end{aligned} Rexp​(f)​E[L(Y,f(X))]∫XY​L(y,f^​(x))⋅P(x,y)dxdyk1∑K​[L(y,f^​(x))⋅P(y∣x)]​ 期望风险最小化策略 f ( X ) a r g min ⁡ y ∈ Y ∑ k 1 K [ L ( y c k , f ^ ( x ) ) ⋅ P ( y ∣ x ) ] a r g min ⁡ y ∈ Y ∑ k 1 K P ( y ≠ c k ∣ x ) a r g min ⁡ y ∈ Y ∑ k 1 K [ 1 − P ( y c k ∣ x ) ] a r g max ⁡ y ∈ Y ∑ k 1 K P ( y c k ∣ x ) \begin{aligned} f(X)arg\min\limits_{y\in \mathcal{Y}}\sum\limits_{k1}^{^K}[L(yc_k,\hat{f}(x))\cdot P(y\vert x)]\\ arg\min\limits_{y\in \mathcal{Y}}\sum\limits_{k1}^{K}P(y\neq c_k\vert x)\\ arg\min\limits_{y\in \mathcal{Y}}\sum\limits_{k1}^{K}[1-P(y c_k\vert x)]\\ arg\max\limits_{y\in \mathcal{Y}}\sum\limits_{k1}^{K}P(y c_k\vert x) \end{aligned} f(X)​argy∈Ymin​k1∑K​[L(yck​,f^​(x))⋅P(y∣x)]argy∈Ymin​k1∑K​P(yck​∣x)argy∈Ymin​k1∑K​[1−P(yck​∣x)]argy∈Ymax​k1∑K​P(yck​∣x)​ 由 期望风险最小化策略 变为 后验概率最大化策略 2.2.5 朴素贝叶斯估计离散特征 意味着用频率对 先验概率 P ( Y c k ) P(Yc_k) P(Yck​) 似然概率 P ( X ( j ) x ( j ) ∣ Y c k ) P(X^{(j)}x^{(j)}\vert Yc_k) P(X(j)x(j)∣Yck​) 做出估计 其中 先验概率 P ( Y c k ) ∑ i 1 n I ( y i c k ) n , k 1 , ⋯ , K P(Yc_k)\frac{\sum\limits_{i1}^nI(y_ic_k)}{n},k1,\cdots,K P(Yck​)ni1∑n​I(yi​ck​)​,k1,⋯,K 似然概率 P ( X ( j ) x ( j ) ∣ Y c k ) P(X^{(j)}x^{(j)}\vert Yc_k) P(X(j)x(j)∣Yck​) 可用极大似然估计 P ( X ( j ) x ( j ) ∣ Y c k ) P ( X ( j ) x ( j ) , Y c k ) P ( Y c k ) ∑ i 1 n I ( X i ( j ) x ( j ) , y i c k ) n ∑ i 1 n I ( y i c k ) n I ( X i ( j ) x ( j ) , y i c k ) ∑ i 1 n I ( y i c k ) , 特征 j 1 , 2 ⋯ , m ; k 1 , ⋯ , K \begin{aligned} P(X^{(j)}x^{(j)}\vert Yc_k)\frac{P(X^{(j)}x^{(j)},Yc_k)}{P(Yc_k)}\\ \frac{\frac{\sum\limits_{i1}^nI(X_i^{(j)}x^{(j)},y_ic_k)}{n}}{\frac{\sum\limits_{i1}^nI(y_ic_k)}{n}}\\ \frac{I(X_i^{(j)}x^{(j)},y_ic_k)}{\sum\limits_{i1}^nI(y_ic_k)}\quad,特征j1,2\cdots,m;\quad k1,\cdots,K \end{aligned} P(X(j)x(j)∣Yck​)​P(Yck​)P(X(j)x(j),Yck​)​ni1∑n​I(yi​ck​)​ni1∑n​I(Xi(j)​x(j),yi​ck​)​​i1∑n​I(yi​ck​)I(Xi(j)​x(j),yi​ck​)​,特征j1,2⋯,m;k1,⋯,K​ 学习算法 输入训练数据 T { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x n , y n ) } T\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\} T{(x1​,y1​),(x2​,y2​),⋯,(xn​,yn​)} 其中 假设 P ( X , Y ) P(X,Y) P(X,Y) 是XY的联合概率分布样本 ( x i , y i ) (x_i,y_i) (xi​,yi​) 由 P ( X , Y ) P(X,Y) P(X,Y) 独立同分布产生 x i ( x i ( 1 ) x i ( 2 ) ⋮ x i ( j ) ⋮ x i ( m ) ) ∈ X ⊆ R m , y i ∈ Y { c 1 , c 2 , ⋯ , c k } i 1 , 2 , ⋯ , n ; j 1 , 2 , ⋯ , m x i ( j ) ∈ { a j 1 , a j 2 , ⋯ , a j s j } , a j l 为第 j 个特征的可能取值 l 1 , 2 , ⋯ , s j x_i\left( \begin{aligned} x_i^{(1)}\\ x_i^{(2)}\\ \vdots\\ x_i^{(j)}\\ \vdots\\ x_i^{(m)} \end{aligned} \right)\in \mathcal{X}\subseteq R^m,y_i\in\mathcal{Y} \{c_1,c_2,\cdots,c_k\}\\ i1,2,\cdots,n;j1,2,\cdots,m\\ x_i^{(j)}\in \{a_{j1},a_{j2},\cdots,a_{js_j}\},a_{jl}为第j个特征的可能取值l1,2,\cdots,s_j xi​ ​​xi(1)​xi(2)​⋮xi(j)​⋮xi(m)​​ ​∈X⊆Rm,yi​∈Y{c1​,c2​,⋯,ck​}i1,2,⋯,n;j1,2,⋯,mxi(j)​∈{aj1​,aj2​,⋯,ajsj​​},ajl​为第j个特征的可能取值l1,2,⋯,sj​ 输出 x x x 的分类 c k c_k ck​ 步骤 计算先验与似然概率 先验概率 P ( Y c k ) ∑ i 1 n I ( y i c k ) n , k 1 , ⋯ , K P(Yc_k)\frac{\sum\limits_{i1}^nI(y_ic_k)}{n},k1,\cdots,K P(Yck​)ni1∑n​I(yi​ck​)​,k1,⋯,K 似然概率 P ( X ( j ) a j l ∣ Y c k ) P ( X ( j ) a j l , Y c k ) P ( Y c k ) I ( X i ( j ) a j l , y i c k ) ∑ i 1 n I ( y i c k ) j 1 , 2 , ⋯ , n l 1 , 2 , ⋯ , s j k 1 , 2 , ⋯ , K \begin{aligned} 似然概率\quad P(X^{(j)}a_{jl}\vert Yc_k)\frac{P(X^{(j)}a_{jl},Yc_k)}{P(Yc_k)}\\ \frac{I(X_i^{(j)}a_{jl},y_ic_k)}{\sum\limits_{i1}^nI(y_ic_k)}\\ j1,2,\cdots,n\qquad l1,2,\cdots,s_j\qquad k1,2,\cdots,K \end{aligned} 似然概率P(X(j)ajl​∣Yck​)​P(Yck​)P(X(j)ajl​,Yck​)​i1∑n​I(yi​ck​)I(Xi(j)​ajl​,yi​ck​)​j1,2,⋯,nl1,2,⋯,sj​k1,2,⋯,K​ 给定样本 x x x 计算 P ( Y c k ∣ X ) ∝ P ( Y c k ) ⋅ ∏ j m P ( X ( j ) x ( j ) ∣ Y c k ) , k 1 , 2 , ⋯ , K P(Yc_k\vert X)\propto P(Yc_k)\cdot \prod\limits_{j}^mP(X^{(j)}x^{(j)}\vert Yc_k)\quad ,k1,2,\cdots,K P(Yck​∣X)∝P(Yck​)⋅j∏m​P(X(j)x(j)∣Yck​),k1,2,⋯,K 确定实例 x x x 的类 y a r g max ⁡ c k P ( Y c k ) ⋅ ∏ j m P ( X ( j ) x ( j ) ∣ Y c k ) , k 1 , 2 , ⋯ , K a r g max ⁡ c k ∑ i 1 n I ( y i c k ) n ∏ j 1 m I ( X i ( j ) a j l , y i c k ) ∑ i 1 n I ( y i c k ) \begin{aligned} yarg\max\limits_{c_k}P(Yc_k)\cdot \prod\limits_{j}^mP(X^{(j)}x^{(j)}\vert Yc_k)\quad ,k1,2,\cdots,K\\ arg\max\limits_{c_k}\frac{\sum\limits_{i1}^nI(y_ic_k)}{n}\prod\limits_{j1}^m\frac{I(X_i^{(j)}a_{jl},y_ic_k)}{\sum\limits_{i1}^nI(y_ic_k)} \end{aligned} y​argck​max​P(Yck​)⋅j∏m​P(X(j)x(j)∣Yck​),k1,2,⋯,Kargck​max​ni1∑n​I(yi​ck​)​j1∏m​i1∑n​I(yi​ck​)I(Xi(j)​ajl​,yi​ck​)​​ 2.3 朴素贝叶斯分类器分析 朴素贝叶斯是一种非常高效的方法。当以分类的正确与否作为误差指标时只要朴素贝叶斯分类器能够把最大的后验概率找到就意味着分类正确。至于最大后验概率的估计值是否精确就不重要了 对于一个2分类问题在一个实例上两个类别的最大后验概率分别是 0.9和0.1朴素贝叶斯分类器估计出的后验概率就可能是0.6和0.4。由于大小相对关系没有改变按照估计的后验概率分类仍然能得到正确的结果 2.3.1 条件独立性假设分析 如何解释独立性假设在几乎不成立的情况下朴素贝叶斯分类器在大多数分类任务中体现出优良特性 影响朴素贝叶斯的分类的是所有属性之间的依赖关系在不同类别上的分布而不是依赖关系本身 在给定训练数据集上两个属性之间可能具有相关性但在每个类别上都以相同的程度体现这种情况下不会破坏贝叶斯分类器的最优性即使这种分布式不均匀的当所有属性之间的依赖关系一起发挥作用时他们就可能相互抵消不再次影响分类 2.3.2 期望风险最小化 在应用朴素贝叶斯分类器处理连续性属性数据时通常假定属性数据满足正态分布再根据每个类别下的训练数据计算出正态分布的均值和方差 从模型最优化角度观察朴素贝叶斯分类器是平均意义上预测能力最优的模型也就是使得 期望风险最小化 期望风险风险函数的数学期望度量平均意义下模型预测的误差特性。 可视为单次预测误差在联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) 上的数学期望 期望风险最小化 ⟺ \iff ⟺ 后验概率最大化 朴素贝叶斯分类器通过将实例分配到后验概率最大的类中也就是让 1 − P ( Y ∣ X ) 1-P(Y\vert X) 1−P(Y∣X) 最小。 在以分类错误的是 实例数作为误差时期望风险就等于 1 − P ( Y ∣ X ) 1-P(Y\vert X) 1−P(Y∣X) 2.3.3 拉普拉斯平滑 为了避免属性携带的信息被训练过程中未出现的属性值所干扰在计算属性条件概率时添加一个 拉普拉斯平滑 的步骤 受到训练集规模的限制某些属性的取值训练集中可能从未与某个类同时出现导致属性的条件概率为0进而使似然概率为0使分类产生偏差 先验概率 P λ ( Y c k ) ∑ i 1 n I ( y i c k ) λ n K λ , k 1 , ⋯ , K P_{\lambda}(Yc_k)\frac{\sum\limits_{i1}^nI(y_ic_k)\lambda}{nK\lambda},k1,\cdots,K Pλ​(Yck​)nKλi1∑n​I(yi​ck​)λ​,k1,⋯,K 似然概率 P ( X ( j ) a j l ∣ Y c k ) I ( X i ( j ) a j l , y i c k ) λ ∑ i 1 n I ( y i c k ) s j λ P(X^{(j)}a_{jl}\vert Yc_k) \frac{I(X_i^{(j)}a_{jl},y_ic_k)\lambda}{\sum\limits_{i1}^nI(y_ic_k)s_j\lambda} P(X(j)ajl​∣Yck​)i1∑n​I(yi​ck​)sj​λI(Xi(j)​ajl​,yi​ck​)λ​ ∑ l 1 s j P ( X ( j ) a j l ∣ Y c k ) ∑ l 1 s j I ( X i ( j ) a j l , y i c k ) λ ∑ i 1 n I ( y i c k ) s j λ 1 \sum\limits_{l1}^{s_j}P(X^{(j)}a_{jl}\vert Yc_k) \sum\limits_{l1}^{s_j}\frac{I(X_i^{(j)}a_{jl},y_ic_k)\lambda}{\sum\limits_{i1}^nI(y_ic_k)s_j\lambda}1 l1∑sj​​P(X(j)ajl​∣Yck​)l1∑sj​​i1∑n​I(yi​ck​)sj​λI(Xi(j)​ajl​,yi​ck​)λ​1 2.4 应用 比赛结果预测 垃圾邮件过滤 分类 y ∈ { 0 , 1 } y\in \{0,1\} y∈{0,1} 表示是否为垃圾邮件1表示垃圾邮件0表示正常邮件 用词汇表向量 x ∈ { 0 , 1 } 50000 x\in \{0,1\}^{50000} x∈{0,1}50000 表示词汇表中的50000个词是否出现在邮件中 先验概率 P ( y 1 ) ∑ i 1 n I ( y i 1 ) n P(y1)\frac{\sum\limits_{i1}^nI(y_i1)}{n} P(y1)ni1∑n​I(yi​1)​ P ( Y ∣ X ′ ) P ( X ′ ∣ Y ) P ( Y ) ∑ i P ( X ′ ∣ Y ) P ( Y ) P ( y 1 ∣ x ′ ) P ( x ′ ∣ y 1 ) P ( y 1 ) P ( x ′ ∣ y 1 ) P ( y 1 ) P ( x ′ ∣ y 0 ) P ( y 0 ) ∝ P ( x ′ ∣ y 1 ) P ( y 1 ) P ( x ′ ∣ y 1 ) P ( x ( 1 ) , x ( 2 ) , ⋯ , x ( 50000 ) ∣ y 1 ) 朴素贝叶斯条件独立性假设 ∏ i 1 50000 P ( x ( i ) ∣ y 1 ) \begin{aligned} P(Y\vert X)\frac{P(X\vert Y)P(Y)}{\sum\limits_{i}P(X\vert Y)P(Y)}\\ P(y1\vert x)\frac{P(x\vert y1)P(y1)}{P(x\vert y1)P(y1)P(x\vert y0)P(y0)}\propto P(x\vert y1)P(y1)\\ P(x\vert y1)P(x^{(1)},x^{(2)},\cdots,x^{(50000)}\vert y1) \xlongequal{朴素贝叶斯条件独立性假设}\prod\limits_{i1}^{50000}P(x^{(i)}\vert y1)\\ \end{aligned} P(Y∣X′)P(y1∣x′)P(x′∣y1)​i∑​P(X′∣Y)P(Y)P(X′∣Y)P(Y)​P(x′∣y1)P(y1)P(x′∣y0)P(y0)P(x′∣y1)P(y1)​∝P(x′∣y1)P(y1)P(x(1),x(2),⋯,x(50000)∣y1)朴素贝叶斯条件独立性假设 i1∏50000​P(x(i)∣y1)​ 对于似然概率 P ( x ( i ) ∣ y 1 ) ∑ j 1 n I ( y j 1 ∧ x ( i ) 1 ) ∑ k 1 n I ( y k 1 ) P(x^{(i)}\vert y1)\frac{\sum\limits_{j1}^nI(y_j1 \land x^{(i)}1)}{\sum\limits_{k1}^nI(y_k1)} P(x(i)∣y1)k1∑n​I(yk​1)j1∑n​I(yj​1∧x(i)1)​ ∴ P ( y 1 ∣ x ′ ) ∝ P ( x ′ ∣ y 1 ) P ( y 1 ) [ ∏ i 1 50000 ∑ j 1 n I ( y j 1 ∧ x ( i ) 1 ) ∑ j 1 n I ( y j 1 ) ] ⋅ ∑ i 1 n I ( y i 1 ) n p 1 P ( y 0 ∣ x ′ ) ∝ P ( x ′ ∣ y 0 ) P ( y 0 ) [ ∏ i 1 50000 ∑ j 1 n I ( y j 0 ∧ x ( i ) 1 ) ∑ j 1 n I ( y j 0 ) ] ⋅ ∑ i 1 n I ( y i 0 ) n p 0 \therefore P(y1\vert x)\propto P(x\vert y1)P(y1)\left[\prod\limits_{i1}^{50000}\frac{\sum\limits_{j1}^nI(y_j1\land x^{(i)}1)}{\sum\limits_{j1}^nI(y_j1)}\right]\cdot \frac{\sum\limits_{i1}^nI(y_{i}1)}{n}p_1\\ P(y0\vert x)\propto P(x\vert y0)P(y0)\left[\prod\limits_{i1}^{50000}\frac{\sum\limits_{j1}^nI(y_j0\land x^{(i)}1)}{\sum\limits_{j1}^nI(y_j0)}\right]\cdot \frac{\sum\limits_{i1}^nI(y_{i}0)}{n}p_0\\ ∴P(y1∣x′)∝P(x′∣y1)P(y1) ​i1∏50000​j1∑n​I(yj​1)j1∑n​I(yj​1∧x(i)1)​ ​⋅ni1∑n​I(yi​1)​p1​P(y0∣x′)∝P(x′∣y0)P(y0) ​i1∏50000​j1∑n​I(yj​0)j1∑n​I(yj​0∧x(i)1)​ ​⋅ni1∑n​I(yi​0)​p0​ 2.5 半朴素贝叶斯分类器 考虑了部分属性之间的依赖关系既保留了属性之间较强的相关性又不需要完全计算复杂的联合概率分布 常用的方法是建立独依赖关系假设每个属性除了类别之外最多只依赖一个其他属性
http://www.tj-hxxt.cn/news/231700.html

相关文章:

  • 计生网站生育文明建设蓝色经典网站
  • 棋牌网站建设源码什么是网站设计与建设
  • 东莞网络建站别人盗用我的网站备案号怎么办
  • 聊城建设银行网站微信网站入口
  • 网站制作工作室制作平台中国机械加工行业的现状
  • 南宁网站建设索q.479185700网站手机自动跳转
  • 如何推广自己的个人网站呢企业网站是如何做的
  • 淘宝客推广网站建设网络营销外包公司招聘
  • 建立一个网站用英语怎么说老板网人才招聘
  • 临沧网站建设c3sales大型网站建设用什么系统好
  • 浙江网站建设公司电话集团网站建设基础方案
  • 奢侈品商城网站建设wordpress整合dplayer插件
  • 网站后台全能模板wordpress文章页面没有格式调整
  • 新媒体与网站建设徐州建立网站
  • 医院设计网站建设阿里云服务器做网站安全吗
  • 学院网站建设实例什么网站可以做投资
  • 国内手机网站建设企业安全文化的建设方案
  • 电商网站简单html模板下载百度推广手机版
  • 如何做律所网站沙元埔做网站的公司
  • 诗人做的网站wordpress 观点评价插件
  • 网站设计 珠海南浔做网站
  • 青岛电子商务的网站建设做僾免费观看网站
  • 合肥建站软件网站的建站方案
  • 海南省建设注册中心网站有必要 在线 网页 代理
  • 营销网站有哪些工程建设是什么
  • 义乌网站制作是什么怎么描述网站主页做的好
  • 衡水做网站报价兰州企业网络优化服务
  • 大连企业招聘网站徐州百度搜索网站排名
  • 网站开发建设价格曲周县建设局网站
  • 孝感网站建设做网站哪个服务器好