当前位置: 首页 > news >正文

网站怎么做的qq邮件订阅郑州网站运营专业乐云seo

网站怎么做的qq邮件订阅,郑州网站运营专业乐云seo,无敌神马在线观看免费完整,网站如何防止被攻击〇、让我们准备一些训练数据 idx0x1x2x3x4y04.34.94.14.75.5013.96.15.95.55.9022.74.84.15.05.6036.64.44.53.95.9146.52.94.74.66.1152.76.74.25.34.81 表格中的x0到x4一共有5个特征,y是目标值只有0,1两个值说明是一个二分类问题。 关于决策树相关的前置知识&am…

〇、让我们准备一些训练数据

idx0x1x2x3x4y
04.34.94.14.75.50
13.96.15.95.55.90
22.74.84.15.05.60
36.64.44.53.95.91
46.52.94.74.66.11
52.76.74.25.34.81

        表格中的x0到x4一共有5个特征,y是目标值只有0,1两个值说明是一个二分类问题。 

 关于决策树相关的前置知识,我这里还写了几篇文章,大家可以配合本文一起读读哦!

【机器学习300问】28、什么是决策树?icon-default.png?t=N7T8http://t.csdnimg.cn/COF05【机器学习300问】33、决策树是如何进行特征选择的?icon-default.png?t=N7T8http://t.csdnimg.cn/iPcwT【机器学习300问】34、决策树对于数值型特征如果确定阈值?icon-default.png?t=N7T8http://t.csdnimg.cn/AvJZl

一、决策树的局限性

        决策树算法是一种直观且易于理解的机器学习算法,通过一系列的特征测试将数据划分到不同的类别或预测结果中去,尽管他在解释性上具有优势,但存在一些的局限性。

(1)容易过拟合且不稳定

        决策树容易产生复杂的模型结构,尤其是在没有剪枝或者设置最大深度的时候,很容易导致过拟合现象,无法在新数据上得到泛化能力。

        决策树的构建过程对输入数据的微小变化非常敏感,可能会导致生成完全不同的决策边界,这意味着模型可能不稳定,无法很好的处理噪声

(2)决策路径单一且容易忽略冗余特征

        单一决策树依赖于构建过程中选择的特征顺序和分割阈值,这会忽视其他重要的特征无法充分利用所有信息。

        当多个特征高度相关的时候,决策树可能无法有效平衡这些冗余特征的重要性,从而导致过分依赖某个特征,忽视其他同样重要的特征。

二、什么是随机森林?

        随机森林是一种集成学习方法,他就像是一个由多个决策树组成的森林,每个决策树都是一个独立的分类(或者回归)模型。让我们用一个校园活动的比喻来解释它:

        假设有个才艺比赛,评委要决定哪个班级的表演最出色。每个评审只能观看少数几个班级的表演,并且每个评审只专注于表演中的特定方面(例如舞蹈技巧、原创性或服装)。最终,所有评审齐聚一堂,通过投票来决定哪个班级的整体表现最优秀。

        在这个任务中每个评审代表一个决策树,他们的部分观察(基于随机子集的数据和特征)就像单棵决策树的预测,而评审们的投票过程则类似于森林中所有树的预测结果的集成。通过这种方式,随机森林利用整体的智慧和多样性来提升预测的准确性,并且通常比单个决策树更加稳健。

(1)随机森林长什么样子?

        这就是一个随机森林的长相,可以清楚的看到它是由多个(这里是4个)决策树构成的。

(2)随机森林的工作原理

① 每个树的训练样本随机【随机样本抽取】

        在构建每棵决策树时,不是使用全部的训练数据集,而是通过自助采样(bootstrap sampling)创建多个不同的训练数据子集。这样每棵树都是基于不同的训练子集来训练的。

        这样做的好处是:通过随机抽样得到的样本能够较好地代表整个总体。随机抽样允许量化抽样误差,提高估计的精确度和预测的准确性。还能降低统计样本的难度,节省资源。

        上图中我们就随机抽取了四个样本来构建4个不同的决策树:

② 每个树的特征选择随机【随机特征选择】

        在决策树的每次分裂时,不是从所有的特征中选择最佳分裂特征,而是从一个随机选择的特征子集中选择。然后在该子集中找到最优的特征来进行划分。

        这样做的好处是:降低了单个特征对决策树生成的影响,使得模型更加鲁棒,并且能够有效利用大量冗余或相关特征带来的信息。

        上图中我们就随机抽取了不同的特征形成特征子集来构建决策树:

③ 选择合适的方式集成并获得最终结果

  • 分类问题:在预测新样本类别时,每棵决策树都会给出一个预测结果。随机森林采用投票机制来确定最终类别,即多数表决原则——得票最多的类别作为最终预测结果。
  • 回归问题:每棵树输出一个数值预测,最后取这些预测值的平均值作为最终回归预测结果。

三、特征子集的大小怎么选择?

        在随机森林算法中,特征子集的大小,也就是在每次分裂节点时考虑的特征数量,会对模型的性能产生显著影响。选择这个参数的常见方法有两种:

(1)经验法

        很多随机森林实现(例如scikit-learn库)有默认的启发式规则。这些默认设置通常还不错。

  • 对于分类任务,默认设置是总特征数的平方根
  • 对于回归任务,默认设置是总特征数的三分之一

(2)交叉验证法

        利用交叉验证来寻找最佳的特征子集,你可以在一系列值中测试算法性能,选择出最优化模型准确性的特征数量。

更多集成学习的知识,我还写了另一篇文章,希望你能喜欢~

【机器学习300问】36、什么是集成学习?icon-default.png?t=N7T8http://t.csdnimg.cn/a0bz5

http://www.tj-hxxt.cn/news/52210.html

相关文章:

  • wordpress的图标怎么添加seo排名优化公司哪家好
  • 空间设计网站长沙网站建设服务
  • 蓝色网站模版app注册推广任务平台
  • 贵阳专业做网站的公司网上接单平台
  • 广东网站建设微信网站定制百度助手app下载
  • 小程序怎么制作网站网站查询进入
  • 做网站设计师能10年赚100万吗推广网站免费
  • 为学校网站做网站推广策划书搜索引擎营销的英文缩写
  • 江阴网站建设多少钱竞价托管怎么做
  • 开发论坛网站创建站点的步骤
  • 多个网站域名 是新增接入如何做好网络宣传工作
  • 青岛模板自助建站成都移动seo
  • wordpress 页面如何打开评论网站推广优化怎么做最好
  • 六安金安区疫情最新消息谷歌seo排名公司
  • 四川最新情况最新消息今天石家庄seo外包公司
  • jsp高级动态网站开发html做一个简单的网页
  • 北辰手机网站建设网站内部链接优化方法
  • 做导航网站电脑设备网站制作价格
  • 菲律宾bc网站搭建开发自媒体平台注册官网
  • 监控网站建设需要多少钱模板网站免费
  • 广州企业网站建设哪家好抖音seo供应商
  • 域名之后怎么做网站快速提升网站关键词排名
  • 视觉传达设计就业前景seo高手是怎样炼成的
  • 长沙公司排行宁波网站推广优化
  • 那个网站卖数据库seo优化大公司排名
  • 有哪些网站做电子元器件比较好百度网盘官方
  • python flask网站开发baidu com百度一下
  • 设计购物网站的意义郑州网站排名优化外包
  • 网站二级页面做哪些东西西安seo顾问公司
  • 2_网站建设的一般步骤包含哪些软文代发