如何建设电影网站,商丘市做网站,高明顺德网站建设,大型门户网站建设定制目录 决策树是#xff1a;Why#xff1a;How#xff1a;基本概念决策树生成举例决策树缺点参考 Demo 随机森林1.是#xff1a;2.Why#xff1a;3.How#xff1a;参考 Demo 决策树
是#xff1a;
1.一种有监督的分类#xff08;或预测#xff09;算法。 2.利用属性、… 目录 决策树是WhyHow基本概念决策树生成举例决策树缺点参考 Demo 随机森林1.是2.Why3.How参考 Demo 决策树
是
1.一种有监督的分类或预测算法。 2.利用属性、属性值构造一个决策的路径可类比程序的if_else的多层判断。 如利用贷款人信息预测是否会拖延还贷的一个简单决策树。
Why
易于理解和解释。树可以被可视化。几乎不需要数据准备。其他算法通常需要数据标准化需要创建虚拟变量并删除缺失值。但是请注意此模块不支持缺失值。使用树的成本(即预测数据)是用于训练树的数据点数的对数。 能够处理数值型和分类型数据。其他技术通常专门分析只有一种类型变量的数据集。能够处理多输出问题。使用白盒模型。如果给定的情况在模型中是可以观察到的那么对条件的解释就很容易用布尔逻辑来解释。相反在黑箱模型中(例如在人工神经网络中)结果可能很难解释。可以使用统计测试验证模型。这样就有可能对模型的可靠性作出解释。 即使它的假设在某种程度上被生成数据的真实模型所违背它也表现得很好。
How
基本概念 训练数据用于训练模型的数据英文是train。 测试数据用于测试验证模型准确度的数据英文是test。训练数据、测试数据都是来自已知的数据集然后划分为2部分一部分训练、一部分测试验证也就是在已知的数据集内完成训练和验证才能去预测实战。 纯度、不纯度根据某个属性分割数据集样本类型的集中度纯度越高越高。如按是否恒温划分是否哺乳动物10个里9个是哺乳动物纯度高如按是否有毛发划分则10个里有6个是哺乳动物则纯度降低。是否恒温是更好的划分属性。常用的测算纯度的函数有基尼gini、熵entropy。、 信息增益information gain对父节点按属性再次划分后纯度的增加量。
决策树生成
举例 数据集 样本个数10个属性3个有房者、婚姻、年收入标签是否拖欠贷款。 可以凭感觉用if-else构造一个决策树。属性排序有房者、婚姻、年收入。 问题因为属性、属性性值、先后顺序决策树有指数个肯能哪个是最优 属性测算
婚姻属性的信息纯度最高。 3. 属性选择
类似生成完整的树。与感性的分配有差异属性排序婚姻、有房者、年收入。 关键问题如何选择属性、生成节点 选择属性、按属性值分类、局部最优、信息增益最大。 后序以此类推。
决策树缺点
决策树学习器可以创建过于复杂的树不能很好地概括数据。这就是所谓的过拟合。为了避免这个问题必须设置剪枝、设置叶节点所需的最小样本数或设置树的最大深度等机制。决策树可能是不稳定的因为数据中的小变化可能导致生成完全不同的树。通过集成决策树来缓解这个问题。学习最优决策树的问题在最优性的几个方面都是NP-complete的甚至对于简单的概念也是如此。因此实际的决策树学习算法是基于启发式算法如贪婪算法在每个节点上进行局部最优决策。这种算法不能保证返回全局最优决策树。这可以通过训练多棵树再集成一个学习器来缓解其中特征和样本被随机抽取并替换。有些概念很难学习因为决策树不能很容易地表达它们例如异或、奇偶校验或多路复用器问题。如果某些类占主导地位则决策树学习者会创建有偏见的树。因此建议在拟合决策树之前平衡数据集。
参考
https://www.bilibili.com/video/BV1T7411b7DG/?spm_id_from333.337.search-card.all.clickvd_source1e37904a72db86b329d6b5320c86a013
Demo
酒分类预测 https://github.com/heroicpoem/MachineLearningInAction/blob/master/decisionTree.ipynb
随机森林
1.是
基于决策树的、集成算法。 森林指包含多个决策树 随机指构造单棵决策树时随机的选择样本使得决策树是不同或者侧重不同的能力。最后是整合多棵树的预测结果均值或者众数。
2.Why
随机决策森林纠正了决策树的过度拟合随机森林通常优于决策树但它们的准确性低于梯度提升树更多的树会提高性能并使预测更稳定抗噪
3.How
构造多棵决策树分别决策整合结果。 2个超参决策树个数、分几层、如何采样、结果整合方法。
参考
https://www.bilibili.com/video/BV1H5411e73F/?spm_id_from333.337.search-card.all.clickvd_source1e37904a72db86b329d6b5320c86a013
Demo
https://blog.csdn.net/Graow/article/details/106749351