网站开发按钮图片素材,优秀个人网站,矿大师德建设网站,网站外链有什么用总结
本系列是机器学习课程的系列课程#xff0c;主要介绍机器学习中分类算法#xff0c;本篇为分类算法开篇与决策树部分。
参考
决策树——ID3和C4.5#xff08;理论图解公式推导#xff09; 策略产品经理必读系列—第七讲ID3、C4.5和CART算法详解 决策树#xff08;…总结
本系列是机器学习课程的系列课程主要介绍机器学习中分类算法本篇为分类算法开篇与决策树部分。
参考
决策树——ID3和C4.5理论图解公式推导 策略产品经理必读系列—第七讲ID3、C4.5和CART算法详解 决策树一| 基础决策树 ID3、C4.5、CART 核心概要
本门课程的目标
完成一个特定行业的算法应用全过程
懂业务会选择合适的算法数据处理算法训练算法调优算法融合 算法评估持续调优工程化接口实现
机器学习定义 关于机器学习的定义Tom Michael Mitchell的这段话被广泛引用 对于某类任务T和性能度量P如果一个计算机程序在T上其性能P随着经验E而自我完善那么我们称这个计算机程序从经验E中学习。 分类方法的定义 决策树算法ID3
什么是好瓜 熵的概念来源于热力学。在热力学中熵的定义是系统可能状态数的对数值称为热熵。它是用来表达分子状态杂乱程度的一个物理量。热力学指出对任何已知孤立的物理系统的演化热熵只能增加不能减少。 信息的基本作用就是消除人们对事物了解的不确定性。美国信息论创始人香农发现任何信息都存在冗余冗余的大小与信息的每一个符号出现的概率和理想的形态有关。信息熵表示的是信息的混乱程度。当均匀分布时信息熵最大。当熵除一个值之外其他值均为0信息熵最小。 和热力学中的熵相反的是信息熵只能减少不能增加。 所以热熵和信息熵互为负量。且已证明任何系统要获得信息必须要增加热熵来补偿即两者在数量上是有联系的。
信息熵信息量的量化过程 例如 事件A明天的太阳会从东边升起。 事件B虽然明天的太阳还是从东边升起但是明天要下雪。 信息量没有量化 信息量的表达式应该满足的条件 1信息量和事件发生的概率有关当事件发生的概率越低或者越高传递的信息量越大 2信息量应当是非负的必然发生的信息量为0 3两个事件的信息量可以相加并且两个独立事件的联合信息量应该是他们各自信息量的和 信息熵的量化过程 熵随着概率的变化为
ID3的计算 再举一个例子
如果采用苹果编号为条件会发现此时信息增益最大因为编号1的叶子节点只有yes此时的信息熵为0最后会导致信息增益会选择苹果编号为分割条件。
举例 决策树C4.5算法 决策树CART算法 ID3 C4.5 CART算法比较 确定方向过程
针对完全没有基础的同学们 1.确定机器学习的应用领域有哪些 2.查找机器学习的算法应用有哪些 3.确定想要研究的领域极其对应的算法 4.通过招聘网站和论文等确定具体的技术 5.了解业务流程查找数据 6.复现经典算法 7.持续优化并尝试与对应企业人员沟通心得 8.企业给出反馈