当前位置: 首页 > news >正文

曲阜市古建设计院网站百度电脑版入口

曲阜市古建设计院网站,百度电脑版入口,无锡网络公司找哪家,wordpress插件不加载概念 决策树是一种树形结构 树中每个内部节点表示一个特征上的判断#xff0c;每个分支代表一个判断结果的输出#xff0c;每个叶子节点代表一种分类结果 决策树的建立过程 1.特征选择#xff1a;选取有较强分类能力的特征。 2.决策树生成#xff1a;根据选择的特征生… 概念 决策树是一种树形结构 树中每个内部节点表示一个特征上的判断每个分支代表一个判断结果的输出每个叶子节点代表一种分类结果 决策树的建立过程 1.特征选择选取有较强分类能力的特征。 2.决策树生成根据选择的特征生成决策树。 3. 决策树也易过拟合采用剪枝的方法缓解过拟合 决策树的分类 ID3 决策树 如何挑选出区分度最强的特征: 遍历所有特征, 尝试进行分类, 计算所有特征的信息增益 选择信息增益最大的特征作为当前轮选出来的特征 信息熵/信息增益 在信息论中代表随机变量不确定度的度量 其中 P(xi) 表示数据中类别出现的概率H(x) 表示信息的信息熵值 信息增益 信息熵 - 条件熵 条件熵 ∑ 当前类别特征取值在所有样本中的比例 * 当前类别特征取值的信息熵 ID3 决策树生长停止的条件 所有的叶子结点信息熵为0 所有的特征都用完了 案例 下面以常用的贷款申请样本数据表为样本集通过数学计算来介绍信息增益计算过程。 Step1 计算经验熵 类别一共是两个拒绝/同意数量分别是6和9根据熵定义可得 Step2 各特征的条件熵 将各特征分别记为 $A_1,A_2,A_3,A_4$ 分别代表年龄、有无工作、有无房子和信贷情况那么 Step3 计算增益 根据计算所得的信息增益选取最大的$A_3$ 作为根节点的特征。它将训练集 $D$ 划分为两个子集$D_1$取值为“是”和$D_2$取值为“否”。由于$D_1$只有同一类的样本点所以成为一个叶节点节点标记为“是”。 对于$D_2$需从特征$A_1,A_2,A_4$中选择新的特征。计算各个特征的信息增益 选择信息增益最大的特征$A_2$作为节点的特征。由于$A_2$有两个可能取值一个是“是”的子节点有三个样本且为同一类所以是一个叶节点类标记为“是”另一个是“否”的子节点包含6个样本也属同一类所以也是一个叶节点类别标记为“否”。 最终构建的决策树如下 ID3算法步骤 计算每个特征的信息增益 使用信息增益最大的特征将数据集 S 拆分为子集 使用该特征信息增益最大的特征作为决策树的一个节点 使用剩余特征对子集重复上述123过程 C 4.5 决策树 ID3 决策树的缺陷: 倾向于选择类别取值比较多的特征, (ID3 计算信息增益带来的缺陷) C4.5 做特征选择的时候, 计算的是信息增益率, 而不是信息增益 信息增益率 信息增益/ 特征自己的信息熵 相当于对信息增益进行修正增加一个惩罚系数 Cart树 Cart模型是一种决策树模型它即可以用于分类也可以用于回归。 Cart回归树使用平方误差最小化策略 Cart分类生成树采用的基尼指数最小化策略。 Cart分类生成树 基尼值GiniD从数据集D中随机抽取两个样本其类别标记不一致的概率。故GiniD值越小数据集D的纯度越高。 基尼指数Gini_indexD选择使划分后基尼系数最小的属性作为最优化分属性。 注意 信息增益ID3、信息增益率值越大C4.5则说明优先选择该特征。 基尼指数值越小 cart则说明优先选择该特征。 Cart回归决策树 CART 回归树和 CART 分类树的不同之处在于:  CART 分类树预测输出的是一个离散值CART 回归树预测输出的是一个连续值 CART 分类树使 用基尼指数作为划分、构建树的依据CART 回归树使用平方损失 分类树使用叶子节点多数类别 作为预测类别回归树则采用叶子节点里均值作为预测输出 CART 回归树的平方损失 决策枝剪枝 为什么要剪枝: 决策树剪枝是一种防止决策树过拟合的一种正则化方法提高其泛化能力 把子树的节点全部删掉使用用叶子节点来替换 剪枝的方式 预剪枝指在决策树生成过程中对每个节点在划分前先进行估计若当前节点的划分不能带来决 策树泛化性能提升则停止划分并将当前节点标记为叶节点; 优点: 预剪枝使决策树的很多分支没有展开不单降低了过拟合风险还显著减少了决策树的 训练、测试时间开销 缺点: 有些分支的当前划分虽不能提升泛化性能但后续划分却有可能导致性能的显著提高  预剪枝决策树也带来了欠拟合的风险 后剪枝是先从训练集生成一棵完整的决策树然后自底向上地对非叶节点进行考察若将该节点 对应的子树替换为叶节点能带来决策树泛化性能提升则将该子树替换为叶节点。 优点: 比预剪枝保留了更多的分支。一般情况下后剪枝决策树的欠拟合风险很小泛化性能 往往优于预剪枝 缺点: 后剪枝先生成后剪枝。自底向上地对树中所有非叶子节点进行逐一考察训练时间开 销比未剪枝的决策树和预剪枝的决策树都要大得多。
http://www.tj-hxxt.cn/news/233231.html

相关文章:

  • 淘宝客做网站需要那些条件wordpress点击量设置
  • 站酷网站的比赛网页谁做的网站帮助中心设计
  • jquery个人网站开发钢材技术支持东莞网站建设
  • 网站建设算研发费用吗商城类网站用什么做
  • 张家港网站建设模板用Wordpress建的网站有
  • 济南网站建设需要多少钱微信开发者模式在哪
  • 响应式相册网站模板界面设计包括哪三个方面
  • 滁州市建设工程质量检测协会网站企业网站建设的主要步骤
  • 诸暨 外贸网站建设wordpress自适应主题制作
  • 干果坚果网站建设劳务公司logo设计图片
  • 做企业网站需要注意哪些上海做哪些行业赚钱
  • 深圳查询建设项目规划的网站网站更新了文章看不到
  • 哪些公司经常做网站网站统计分析工具的主要功能
  • 做百度手机网站做网站违法
  • 北京 建公司网站要多少钱重庆为什么导航用不了
  • 网站的制作方案厦门做英文网站
  • 可以做免费的网站吗苏州市建设局网站集群统一登录
  • 做网站的前景二次元wordpress博客
  • 网站页头是什么为什么建设银行网站打不开
  • 网站开发美工的任务导航网站教程
  • 西安户县建设厅网站吾爱源码
  • 经常投诉网站快照泰安房地产信息网官网
  • 商城网站免费建设成都那家网站建设好
  • Wordpress 分表分库大连百度关键词优化
  • 蚌埠做网站公司做网站要学一些什么
  • vue做的网站百度抓取外贸建站用什么平台好
  • 邢台网站制作公司网站建设好后怎么更新内容
  • 怎么看网站是哪个系统做的企业网站托管一个月多少钱
  • 做网站都有那些步骤成都网站推广营销设计
  • 方正悠黑使用网站建设侵权么企业如何建站