响应式环保网站,wordpress分类随机文章,长沙做网站一般要多少钱,软件开发工时费一般是多少数据挖掘——朴素贝叶斯分类 朴素贝叶斯分类极大后验假设独立性假设贝叶斯分类器总结 朴素贝叶斯分类
什么是分类#xff1f;
找出描述和区分数据类或概念的模型#xff0c;以便能够使用模型预测未知的对象的类标号
概念区分
分类与回归 分类是预测分类#xff08;离散、… 数据挖掘——朴素贝叶斯分类 朴素贝叶斯分类极大后验假设独立性假设贝叶斯分类器总结 朴素贝叶斯分类
什么是分类
找出描述和区分数据类或概念的模型以便能够使用模型预测未知的对象的类标号
概念区分
分类与回归 分类是预测分类离散、无序标号回归建立连续值函数模型
分类与聚类
分类是有监督学习提供了训练元组的类标号聚类是无监督学习不依赖有类标号的训练实例
极大后验假设 极大后验假设定义学习器在候选假设集合H中寻找给定数据D时可能性最大的假设hh被称为极大后验假设Maximumaposteriori:MAP 确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率计算式如下 h M A P max h ∈ H P ( h ∣ D ) max h ∈ H P ( D ∣ h ) P ( h ) / P ( D ) max h ∈ H P ( D ∣ h ) P ( h ) h_{M A P}\max _{h \in H} P(h \mid D) \max _{h \in H} \mathrm{P}(D \mid h) \mathrm{P}(h) / P(D)\max _{h \in H} \mathrm{P}(D \mid h) \mathbf{P}(\mathrm{h}) hMAPh∈HmaxP(h∣D)h∈HmaxP(D∣h)P(h)/P(D)h∈HmaxP(D∣h)P(h) 计算 P a 1 , a 2 , … , a n ∣ h ) Pa_1,a_2,…,a_n | ℎ) Pa1,a2,…,an∣h) 时当维度过高时可用数据变得很稀疏难以获得结果。
独立性假设
假设D的属性之间相互独立 优点
获得估计的 P ( a i ∣ h ) P(a_i | h ) P(ai∣h)比 P ( a 1 , a 2 , … , a n ∣ h ) P(a_1,a_2,…,a_n | h ) P(a1,a2,…,an∣h)容易很多如果D的属性之间不满足相互独立朴素贝叶斯分类的结果是贝叶斯分类的近似
例题 链接https://www.nowcoder.com/questionTerminal/f25c433b9b0d42659d2cf3b39a8367ae
假定某同学使用Naive BayesianNB分类模型时不小心将训练数据的两个维度搞重复了那么关于NB的说法中正确的是
A.这个被重复的特征在模型中的决定作用会被加强
B.模型效果相比无重复特征的情况下精确度会降低
C.如果所有特征都被重复一遍得到的模型预测结果相对于不重复的情况下的模型预测结果一样。
D.当两列特征高度相关时无法用两列特征相同时所得到的结论来分析问题
E.NB可以用来做最小二乘回归
F.以上说法都不正确答案BD 解析总结就是对于特征独立型的模型当存在高度相关特征的时候由于冗余特征并没有增加数据的信息但是它却对模型分类的 置信度产生了影响冗余特征产生的效果也会叠加在模型中从而使得模型效果变差。 根据公式假如特征重复那么p(x1/y)就会双倍对于小于1得数相乘后概率会变小所以特征会变弱因此这个重复的特征在模型中的决定作用会减弱。
贝叶斯分类器总结
本质上是同时考虑了先验概率和似然概率的重要性
特点
属性可以离散、也可以连续数学基础坚实、分类效率稳定对缺失和噪声数据不太敏感属性如果不相关分类效果很好