当前位置: 首页 > news >正文

广西seo南京广告宣传公司seo

广西seo,南京广告宣传公司seo,线上销售怎么做,wordpress移动端顶部菜单目录 决策树是:Why:How:基本概念决策树生成举例决策树缺点参考 Demo 随机森林1.是:2.Why:3.How:参考 Demo 决策树 是: 1.一种有监督的分类(或预测)算法。 2.利用属性、…

目录

  • 决策树
    • 是:
    • Why:
    • How:
      • 基本概念
      • 决策树生成
        • 举例
        • 决策树缺点
          • 参考
      • Demo
  • 随机森林
    • 1.是:
    • 2.Why:
    • 3.How:
        • 参考
    • Demo

决策树

是:

1.一种有监督的分类(或预测)算法。
2.利用属性、属性值构造一个决策的路径,可类比程序的if_else的多层判断。
如:利用贷款人信息预测是否会拖延还贷的一个简单决策树。
在这里插入图片描述

Why:

  1. 易于理解和解释。树可以被可视化。
  2. 几乎不需要数据准备。其他算法通常需要数据标准化,需要创建虚拟变量并删除缺失值。但是,请注意,此模块不支持缺失值。
  3. 使用树的成本(即预测数据)是用于训练树的数据点数的对数。 能够处理数值型和分类型数据。其他技术通常专门分析只有一种类型变量的数据集。
  4. 能够处理多输出问题。
  5. 使用白盒模型。如果给定的情况在模型中是可以观察到的,那么对条件的解释就很容易用布尔逻辑来解释。相反,在黑箱模型中(例如,在人工神经网络中),结果可能很难解释。
  6. 可以使用统计测试验证模型。这样就有可能对模型的可靠性作出解释。 即使它的假设在某种程度上被生成数据的真实模型所违背,它也表现得很好。

How:

基本概念

  1. 训练数据:用于训练模型的数据,英文是train。

  2. 测试数据:用于测试(验证)模型准确度的数据,英文是test。训练数据、测试数据都是来自已知的数据集,然后划分为2部分,一部分训练、一部分测试(验证),也就是在已知的数据集内完成训练和验证,才能去预测实战。

  3. 纯度、不纯度:根据某个属性分割数据集,样本类型的集中度,纯度越高越高。如按是否恒温划分是否哺乳动物,10个里9个是哺乳动物,纯度高;如按是否有毛发划分,则10个里有6个是哺乳动物,则纯度降低。是否恒温是更好的划分属性。常用的测算纯度的函数有基尼gini、熵entropy。、
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

  4. 信息增益(information gain):对父节点,按属性再次划分后,纯度的增加量。

决策树生成

举例

  1. 数据集
    样本个数10个,属性3个:有房者、婚姻、年收入;标签:是否拖欠贷款。
    可以凭感觉,用if-else构造一个决策树。属性排序:有房者、婚姻、年收入。
    问题:因为属性、属性性值、先后顺序,决策树有指数个肯能,哪个是最优?
    在这里插入图片描述

  2. 属性测算
    在这里插入图片描述

婚姻属性的信息纯度最高。
3. 属性选择
在这里插入图片描述

类似,生成完整的树。与感性的分配有差异,属性排序:婚姻、有房者、年收入。
关键问题:如何选择属性、生成节点?
选择属性、按属性值分类、局部最优、信息增益最大。
后序以此类推。

决策树缺点

  1. 决策树学习器可以创建过于复杂的树,不能很好地概括数据。这就是所谓的过拟合。为了避免这个问题,必须设置剪枝、设置叶节点所需的最小样本数或设置树的最大深度等机制。
  2. 决策树可能是不稳定的,因为数据中的小变化可能导致生成完全不同的树。通过集成决策树来缓解这个问题。
  3. 学习最优决策树的问题在最优性的几个方面都是NP-complete的,甚至对于简单的概念也是如此。因此,实际的决策树学习算法是基于启发式算法,如贪婪算法,在每个节点上进行局部最优决策。这种算法不能保证返回全局最优决策树。这可以通过训练多棵树再集成一个学习器来缓解,其中特征和样本被随机抽取并替换。
  4. 有些概念很难学习,因为决策树不能很容易地表达它们,例如异或、奇偶校验或多路复用器问题。
  5. 如果某些类占主导地位,则决策树学习者会创建有偏见的树。因此,建议在拟合决策树之前平衡数据集。
参考

https://www.bilibili.com/video/BV1T7411b7DG/?spm_id_from=333.337.search-card.all.click&vd_source=1e37904a72db86b329d6b5320c86a013

Demo

酒分类预测:
https://github.com/heroicpoem/MachineLearningInAction/blob/master/decisionTree.ipynb

随机森林

1.是:

基于决策树的、集成算法。
森林,指包含多个决策树;
随机,指构造单棵决策树时,随机的选择样本,使得决策树是不同,或者侧重不同的能力。最后是整合多棵树的预测结果:均值或者众数。

2.Why:

  1. 随机决策森林纠正了决策树的过度拟合
  2. 随机森林通常优于决策树,但它们的准确性低于梯度提升树
  3. 更多的树会提高性能并使预测更稳定
  4. 抗噪

3.How:

构造多棵决策树,分别决策,整合结果。
2个超参:决策树个数、分几层、如何采样、结果整合方法。
在这里插入图片描述

参考

https://www.bilibili.com/video/BV1H5411e73F/?spm_id_from=333.337.search-card.all.click&vd_source=1e37904a72db86b329d6b5320c86a013

Demo

https://blog.csdn.net/Graow/article/details/106749351

http://www.tj-hxxt.cn/news/71597.html

相关文章:

  • 外包做网站公司plc培训机构哪家最好
  • 帮企业做网站赚钱吗域名是什么意思呢
  • 武汉网站制作开发网络宣传怎么做
  • 看国外网站如何做科普百度搜索怎么优化
  • 石狮网站建设哪家好seo链接优化
  • 浙江国泰建设集团有限公司网站巨量算数数据分析
  • 杭州做网站外包公司上海品牌推广公司
  • 杭州做网站制作百度指数可以查询到哪些内容
  • 江南大学做网站百度2022年版本下载
  • 英德市建设及城乡管理局网站微营销官网
  • 百度给企业做网站吗免费发外链
  • 如何做带后台的网站软文平台有哪些
  • 河南外贸网站建设百度怎么精准搜关键词
  • 郑州快速建站价格武汉seo和网络推广
  • 外链设置方案爱站网seo工具
  • 打开自己的网站是别人的域网站推广软件免费
  • 做书籍的网站营销网络是什么
  • 政府机关网站建设的依据晋城今日头条新闻
  • 东莞企业建设网站官网有限公司seo手机关键词排行推广
  • dw做网站一般是多大的尺寸百度app下载安装普通下载
  • 非标自动化外包平台天津seo博客
  • 政府网站建设方案 ppt移动端优化
  • 常州专门做网站的公司有哪些百度预测大数据官网
  • 深圳市门户网站建设企业如何使用网络营销策略
  • 网站运营分析竞争对手珠海百度关键词优化
  • 男女做暖暖不要钱的试看网站网销怎么做
  • 查看网站是否备案外包公司的优势和劣势
  • 如何做企业套模网站整站优化和关键词优化的区别
  • 青海旅游的网站建设江西优化中心
  • 小程序开发需要多少钱江苏seo和网络推广