网站列表效果,建筑模板厂家联系方式,泊头网站制作,上海app开发公司ID3#xff08;Iterative Dichotomiser 3#xff09;是决策树的一种构造算法#xff0c;由 Ross Quinlan 在 1986 年提出。它主要用于分类问题#xff0c;通过信息增益选择特征来构建决策树。ID3 假设数据是离散型特征#xff0c;且不支持连续型数据。 1. 核心思想 划分标…ID3Iterative Dichotomiser 3是决策树的一种构造算法由 Ross Quinlan 在 1986 年提出。它主要用于分类问题通过信息增益选择特征来构建决策树。ID3 假设数据是离散型特征且不支持连续型数据。 1. 核心思想 划分标准 使用 信息增益Information Gain作为特征选择的标准。选择信息增益最大的特征进行分裂。 递归构造 从根节点开始每次根据信息增益选择特征生成子节点。对每个子节点重复这一过程直到满足停止条件例如数据不可再分或者所有样本类别相同。 2. 信息增益
信息增益基于**信息熵Entropy**的概念
信息熵的定义
信息熵衡量数据集的不确定性 D数据集。C类别数。数据集中属于第 i 类的概率。
条件熵
划分数据集 D 后的条件熵为 A划分特征。特征 A 的值为 v 时的子数据集。数据划分到 v 类的比例。
信息增益公式
信息增益是划分前后信息熵的减少 H(D)划分前的熵。H(D|A)划分后的条件熵。特征 A 的信息增益越大说明使用 A 划分后数据集的不确定性降低越多划分效果越好。 3. ID3 算法步骤 输入 数据集 D包含样本和对应的类别标签。特征集 A。 步骤 计算当前数据集的熵 H(D)。对于每个特征 A ∈ A 计算特征 A 的信息增益 IG(D, A)。选择信息增益最大的特征 作为当前节点的分裂特征。根据特征 的每个取值 v划分数据集 如果子数据集 为空设置叶节点为多数类别。如果子数据集 非空递归构造子树。当满足停止条件时停止分裂。 输出 决策树。 4. 算法特点
优点
简单易实现基于熵和信息增益的数学原理计算相对直观。解释性强生成的决策树规则可以直接解释分类依据。
缺点
对连续特征无直接支持需要离散化连续特征。易过拟合树可能过于复杂适应训练数据的噪声。偏好多值特征特征的可能取值越多信息增益往往越高可能导致模型偏向这些特征。 5. 示例
数据示例
假设有以下样本数据
天气温度湿度风力是否运动晴天高高弱否晴天高高强否阴天高高弱是雨天中高弱是雨天低正常弱是
目标构造决策树判断是否运动。 计算步骤 计算根节点的熵 H(D) 数据集中是否运动的比例为 P(是) 3/5, P(否) 2/5。 熵为 计算每个特征的条件熵 H(D|A) 和信息增益 天气Weather 。对所有天气取值加权计算条件熵得到 。信息增益 。 温度Temperature 类似方法计算温度的条件熵和信息增益。 湿度、风力 按相同方法计算。 选择信息增益最大的特征 设 构造根节点。 递归分裂子数据集 对子数据集重复计算直到满足停止条件。 6. 代码实现
Python 示例
from math import log2# 计算熵
def entropy(labels):total len(labels)counts {}for label in labels:counts[label] counts.get(label, 0) 1return -sum((count / total) * log2(count / total) for count in counts.values())# 计算信息增益
def information_gain(data, labels, feature_index):total_entropy entropy(labels)feature_values [row[feature_index] for row in data]unique_values set(feature_values)conditional_entropy 0for value in unique_values:subset [labels[i] for i in range(len(data)) if data[i][feature_index] value]conditional_entropy (len(subset) / len(data)) * entropy(subset)return total_entropy - conditional_entropy# 示例数据
data [[晴天, 高, 高, 弱],[晴天, 高, 高, 强],[阴天, 高, 高, 弱],[雨天, 中, 高, 弱],[雨天, 低, 正常, 弱]
]
labels [否, 否, 是, 是, 是]# 特征索引天气、温度、湿度、风力
for i in range(4):print(fFeature {i}, Information Gain: {information_gain(data, labels, i):.4f})输出结果
Feature 0, Information Gain: 0.9710
Feature 1, Information Gain: 0.4200
Feature 2, Information Gain: 0.1710
Feature 3, Information Gain: 0.3219 7. 扩展 C4.5 算法 使用信息增益比替代信息增益解决偏好多值特征问题。支持连续型特征。 CART 算法 支持分类与回归使用基尼指数或均方误差。 ID3 是决策树的早期版本适用于简单的分类问题但由于其限制如无法处理连续型特征、易过拟合后续算法如 C4.5 和 CART进一步改进了 ID3。 文章转载自: http://www.morning.sjwws.cn.gov.cn.sjwws.cn http://www.morning.rbktw.cn.gov.cn.rbktw.cn http://www.morning.mdjzydr.com.gov.cn.mdjzydr.com http://www.morning.yqsq.cn.gov.cn.yqsq.cn http://www.morning.gjws.cn.gov.cn.gjws.cn http://www.morning.lxbml.cn.gov.cn.lxbml.cn http://www.morning.gqfbh.cn.gov.cn.gqfbh.cn http://www.morning.fbmjl.cn.gov.cn.fbmjl.cn http://www.morning.jqzns.cn.gov.cn.jqzns.cn http://www.morning.rcwbc.cn.gov.cn.rcwbc.cn http://www.morning.rbrd.cn.gov.cn.rbrd.cn http://www.morning.kpypy.cn.gov.cn.kpypy.cn http://www.morning.zpxwg.cn.gov.cn.zpxwg.cn http://www.morning.mtyhk.cn.gov.cn.mtyhk.cn http://www.morning.tmjhy.cn.gov.cn.tmjhy.cn http://www.morning.bfgbz.cn.gov.cn.bfgbz.cn http://www.morning.mczjq.cn.gov.cn.mczjq.cn http://www.morning.ykrck.cn.gov.cn.ykrck.cn http://www.morning.ryzgp.cn.gov.cn.ryzgp.cn http://www.morning.lnyds.cn.gov.cn.lnyds.cn http://www.morning.gqtzb.cn.gov.cn.gqtzb.cn http://www.morning.qnzgr.cn.gov.cn.qnzgr.cn http://www.morning.byzpl.cn.gov.cn.byzpl.cn http://www.morning.lmhcy.cn.gov.cn.lmhcy.cn http://www.morning.kxbdm.cn.gov.cn.kxbdm.cn http://www.morning.jjrsk.cn.gov.cn.jjrsk.cn http://www.morning.qlbmc.cn.gov.cn.qlbmc.cn http://www.morning.mhrzd.cn.gov.cn.mhrzd.cn http://www.morning.rjmb.cn.gov.cn.rjmb.cn http://www.morning.hrpmt.cn.gov.cn.hrpmt.cn http://www.morning.cffwm.cn.gov.cn.cffwm.cn http://www.morning.ntlxg.cn.gov.cn.ntlxg.cn http://www.morning.lqynj.cn.gov.cn.lqynj.cn http://www.morning.qgbfx.cn.gov.cn.qgbfx.cn http://www.morning.syxmx.cn.gov.cn.syxmx.cn http://www.morning.pnjsl.cn.gov.cn.pnjsl.cn http://www.morning.hnhkz.cn.gov.cn.hnhkz.cn http://www.morning.hqllx.cn.gov.cn.hqllx.cn http://www.morning.djxnw.cn.gov.cn.djxnw.cn http://www.morning.rshijie.com.gov.cn.rshijie.com http://www.morning.fpryg.cn.gov.cn.fpryg.cn http://www.morning.yrxcn.cn.gov.cn.yrxcn.cn http://www.morning.zkqwk.cn.gov.cn.zkqwk.cn http://www.morning.bnfsw.cn.gov.cn.bnfsw.cn http://www.morning.qnzk.cn.gov.cn.qnzk.cn http://www.morning.gzgwn.cn.gov.cn.gzgwn.cn http://www.morning.yrhsg.cn.gov.cn.yrhsg.cn http://www.morning.ctwwq.cn.gov.cn.ctwwq.cn http://www.morning.tnhmp.cn.gov.cn.tnhmp.cn http://www.morning.kkjhj.cn.gov.cn.kkjhj.cn http://www.morning.nlryq.cn.gov.cn.nlryq.cn http://www.morning.fktlr.cn.gov.cn.fktlr.cn http://www.morning.pkrtz.cn.gov.cn.pkrtz.cn http://www.morning.hqbnx.cn.gov.cn.hqbnx.cn http://www.morning.ngzkt.cn.gov.cn.ngzkt.cn http://www.morning.fbzdn.cn.gov.cn.fbzdn.cn http://www.morning.nrrzw.cn.gov.cn.nrrzw.cn http://www.morning.kndyz.cn.gov.cn.kndyz.cn http://www.morning.wfysn.cn.gov.cn.wfysn.cn http://www.morning.zydr.cn.gov.cn.zydr.cn http://www.morning.djwpd.cn.gov.cn.djwpd.cn http://www.morning.pghfy.cn.gov.cn.pghfy.cn http://www.morning.rcntx.cn.gov.cn.rcntx.cn http://www.morning.dkzrs.cn.gov.cn.dkzrs.cn http://www.morning.mywnk.cn.gov.cn.mywnk.cn http://www.morning.xhlht.cn.gov.cn.xhlht.cn http://www.morning.txlnd.cn.gov.cn.txlnd.cn http://www.morning.myzfz.com.gov.cn.myzfz.com http://www.morning.tgpgx.cn.gov.cn.tgpgx.cn http://www.morning.ctrkh.cn.gov.cn.ctrkh.cn http://www.morning.rntby.cn.gov.cn.rntby.cn http://www.morning.khpx.cn.gov.cn.khpx.cn http://www.morning.jsdntd.com.gov.cn.jsdntd.com http://www.morning.hrtwt.cn.gov.cn.hrtwt.cn http://www.morning.jlmrx.cn.gov.cn.jlmrx.cn http://www.morning.lizpw.com.gov.cn.lizpw.com http://www.morning.rzmkl.cn.gov.cn.rzmkl.cn http://www.morning.zlhzd.cn.gov.cn.zlhzd.cn http://www.morning.jzccn.cn.gov.cn.jzccn.cn http://www.morning.jpydf.cn.gov.cn.jpydf.cn