当前位置: 首页 > news >正文

浙江华企网站做的咋样便宜网站建设 优帮云

浙江华企网站做的咋样,便宜网站建设 优帮云,工程建设安全管理,新媒体口碑营销案例目录 决策树C4.5算法概述 决策树C4.5算法简介 决策树C4.5算法发展历史 决策树C4.5算法原理 信息熵#xff08;Information Entropy#xff09; 信息增益#xff08;Information Gain#xff09; 信息增益比#xff08;Gain Ratio#xff09; 决策树C4.5算法改进 …目录 决策树C4.5算法概述 决策树C4.5算法简介 决策树C4.5算法发展历史 决策树C4.5算法原理 信息熵Information Entropy 信息增益Information Gain 信息增益比Gain Ratio 决策树C4.5算法改进 决策树C4.5算法流程 步骤1数据准备 步骤2计算信息熵 步骤3选择最优特征 步骤4递归构建决策树 步骤5决策树剪枝可选 决策树C4.5算法代码实现 决策树C4.5算法的优缺点 优点 缺点 决策树C4.5算法的应用场景 金融领域 医疗领域 电商领域 数据挖掘 机器学习研究 教育领域 环境监测 决策树C4.5算法概述 决策树C4.5算法简介 C4.5算法是由Ross Quinlan开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的因此该算法也可以用于统计分类。 C4.5算法与ID3算法一样使用了信息熵的概念并和ID3一样通过学习数据来建立决策树 C4.5算法是数据挖掘十大算法之一它是对ID3算法的改进相对于ID3算法主要有以下几个改进 用信息增益比来选择属性在决策树的构造过程中对树进行剪枝对非离散数据也能处理能够对不完整数据进行处理 决策树C4.5算法发展历史 最早的决策树算法是由Hunt等人于1966年提出的CLS。当前最有影响的决策树算法是由Quinlan于1986年提出的ID3和1993年提出的C4.5.其他早期算法还包括CART,FACT,CHAID算法。后期的算法主要有SLIQ, SPRINT, PUBLIC等。 传统的决策树分类算法主要是针对小数据集的大都要求训练集常驻内存这使得在处理数据挖掘任务时传统决策树算法在可伸展性精度和效率方面受到了很大的限制。而在实际的数据挖掘应用中我们面临的数据集往往是容量巨大的数据库或者数据仓库在构造决策树时需要将庞大的数据在主存和缓存中不停地导入导出使得运算效率大大降低。针对以上问题许多学者提出了处理大型数据集的决策树算法。 A B C 1 年份 事件 相关论文 2 1993 Ross Quinlan对ID3算法扩展发明了C4.5算法 C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers.ISBN1-55860-238-0 3 2002 讲解了离散类数据挖掘的标杆属性选择技术其中讲解了C4.5在大数据挖掘的应用。 Hall M A, Holmes G. Benchmarking Attribute Selection Techniques for Discrete Class Data Mining[J]. IEEE Transactions on Knowledge Data Engineering, 2002, 15(6):1437-1447. 决策树C4.5算法原理 在深入了解C4.5算法之前有必要明确几个核心概念和度量指标。本节将重点介绍信息熵、信息增益、以及信息增益比这些都是C4.5算法决策树构建中的关键因素。 信息熵Information Entropy 信息熵是用来度量一组数据的不确定性或混乱程度的。它是基于概率论的一个概念通常用以下数学公式来定义 信息增益Information Gain 信息增益表示通过某个特征进行分裂后数据集不确定性即信息熵下降的程度。信息增益通常用以下数学公式来定义 信息增益比Gain Ratio 信息增益比是信息增益与该特征导致的数据集分裂复杂度Split Information的比值。用数学公式表示为 决策树C4.5算法改进 在ID3中 信息增益 按属性A划分数据集S的信息增益Gain(S,A)为样本集S的熵减去按属性A划分S后的样本子集的熵即 在此基础上C4.5计算如下 分裂信息 利用引入属性的分裂信息来调节信息增益 信息增益率 信息增益率将分裂信息作为分母属性取值数目越大分裂信息值越大从而部分抵消了属性取值数目所带来的影响。 相比ID3直接使用信息熵的增益选取最佳属性避免因某属性有较多分类取值因而有较大的信息熵从而更容易被选中作为划分属性的情况。 决策树C4.5算法流程 在这一部分中我们将深入探讨C4.5算法的核心流程。流程通常可以分为几个主要步骤从数据预处理到决策树的生成以及后续的决策树剪枝。下面是更详细的解释 步骤1数据准备 在决策树的构建过程中首先需要准备一个训练数据集。这个数据集应该包含多个特征或属性和一个目标变量或标签。数据准备阶段也可能包括数据清洗和转换。 步骤2计算信息熵 信息熵是一个用于衡量数据不确定性的度量。在C4.5算法中使用信息熵来评估如何分割数据。 步骤3选择最优特征 在决策树的每一个节点算法需要选择一个特征来分割数据。选择哪个特征取决于哪个特征会导致信息熵最大的下降或信息增益最大。 步骤4递归构建决策树 一旦选择了最优特征并根据该特征分割了数据算法将在每个分割后的子集上递归地执行同样的过程直到满足某个停止条件如所有数据都属于同一类别或达到预设的最大深度等。 步骤5决策树剪枝可选 决策树剪枝是一种优化手段用于去除决策树中不必要的节点以防止过拟合。 决策树C4.5算法代码实现 import numpy as npclass Node:def __init__(self, gini, num_samples, num_samples_per_class, predicted_class):self.gini giniself.num_samples num_samplesself.num_samples_per_class num_samples_per_classself.predicted_class predicted_classself.feature_index 0self.threshold 0self.left Noneself.right Nonedef split(nodeX, nodeY, nodeX_col, split_index, split_value):left_indices nodeX[:, nodeX_col] split_valueright_indices nodeX[:, nodeX_col] split_valuenodeY_left nodeY[left_indices]nodeX_left nodeX[left_indices]nodeY_right nodeY[right_indices]nodeX_right nodeX[right_indices]return nodeX_left, nodeY_left, nodeX_right, nodeY_rightdef calculate_gini(groups, classes):gini 0.0n_instances float(sum([len(group) for group in groups]))for group in groups:size float(len(group))if size 0:continuescore 0.0group_classes [row[-1] for row in group]for class_val in classes:p group_classes.count(class_val) / sizescore p * pgini (1.0 - score) * (size / n_instances)return ginidef get_split(dataset, labels):class_values list(set(labels))b_index, b_value, b_score, b_groups 999, 999, 999, Nonefor index in range(len(dataset[0])-1):for row in dataset:groups [row[index] value for value in row[index]]score calculate_gini(groups, class_values)if score b_score:b_index, b_value, b_score, b_groups index, row[index], score, groupsreturn {index: b_index, value: b_value, groups: b_groups}def to_terminal(group):outcomes [row[-1] for row in group]return outcomes.index(max(set(outcomes), keyoutcomes.count))def split_dataset(dataset, labels, index, value):left, right list(), list()for row, label in zip(dataset, labels):if row[index] value:left.append(row)else:right.append(row)return left, rightdef grow_tree(dataset, labels, depth0):labels [label[-1] for label in labels]dataset, labels shuffle(dataset, labels)best问答, groups get_split(dataset, labels)left, right split_dataset(dataset, labels, best问答[index], best问答[value])del (best问答[groups])# 判断是否终止if not left or not right:return to_terminal(dataset)# 递归生成子树node Node(ginibest问答[score], num_sampleslen(dataset), num_samples_per_class[len(l) for l in labels], predicted_classbest问答[value])if len(left) 0:node.left grow_tree(left, labels, depth1)if len(right) 0:node.right grow_tree(right, labels, depth1)return nodedef print_tree(node, depth0):if isinstance(node, tuple):print(\n depth* str(node))else:print(L: str(node.feature_index) str(node.threshold))print(\n depth* Predict: str(node.predicted_class))if node.left:print_tree(node.left, depth1)if node.right:print(L: str(node.feature_index) str(node.threshold))print(\n depth* Predict: str(node.predicted_class))print_tree(node.right, depth1)def predict(node, row):if row[node.feature_index] node.threshold:if node.left:return predict(node.left, row)return node.predicted_classelse:if node.right:return predict(node.right, row)return node.predicted_classdef shuffle(dataset, labels):combined list(zip(dataset, labels))np.random.shuffle(combined)dataset, labels zip(*combined)return list(dataset), list(labels)def decision_tree_classifier(train_file_path):train_data np.loadtxt(train_file_path, delimiter,)train_data np.array(train_data, dtypenp.float)train_dataset train_data[:, :-1]train_labels train_data[:, -1]tree grow_tree(train_dataset, train_labels)print_tree(tree)test_data np.loadtxt(test_data.txt, delimiter,)test_dataset test_data[:, :-1]test_labels test_data[:, -1]predictions list()for row in test_dataset:prediction predict(tree, row)predictions.append(prediction)accuracy sum([predictions[i] test_labels[i] for i in range(len(test_labels))]) / float(len(test_labels))print(Accuracy: str(accuracy))if __name__ __main__:decision_tree_classifier(train_data.txt) 这段代码实现了C4.5算法的基本功能包括数据的读取、决策树的生成、预测和准确率计算。你可以将训练数据和测试数据分别保存在train_data.txt和test_data.txt文件中然后运行代码进行训练和测试。 决策树C4.5算法的优缺点 优点 易于理解和解释决策树是白盒模型每个节点的决策逻辑清晰易于理解和解释。例如银行可以轻易地解释给客户为什么他们的贷款申请被拒绝 。能够处理非线性关系C4.5算法能很好地处理特征与目标变量之间的非线性关系。例如在电子商务网站中用户年龄和购买意愿之间可能存在非线性关系C4.5算法能捕捉到这种关系 。对缺失值有较好的容忍性C4.5算法可以容忍输入数据的缺失值使其在医疗诊断等场景中仍然有效 。处理连续属性C5算法能够处理连续属性通过单点离散化的方法选择最优的划分属性 。剪枝优化C4.5算法通过引入剪枝技术能够有效地提升模型的泛化能力减少过拟合的风险 。 缺点 容易过拟合C4.5算法非常容易产生过拟合尤其是当决策树很深的时候。例如如果一个决策树模型在股票市场预测问题上表现得异常好那很可能是该模型已经过拟合了 。对噪声和异常值敏感由于决策树模型在构建时对数据分布的微小变化非常敏感因此噪声和异常值可能会极大地影响模型性能。例如在识别垃圾邮件的应用中如果训练数据包含由于标注错误而导致的噪声C4.5算法可能会误将合法邮件分类为垃圾邮件 。计算复杂度较高C4.5算法在特征维度非常高时可能会有较高的计算成本。例如在基因表达数据集上由于特征数可能达到数千或更多使用C4.5算法可能会导致计算成本增加 。时间耗费大C5算法在处理连续值时需要计算所有可能的切分点这使得算法的时间复杂度较高 。未解决回归问题C4.5算法主要用于分类问题并未解决回归问题 。 决策树C4.5算法的应用场景 金融领域 信用评分C4.5算法可以用于评估客户的信用风险帮助银行和金融机构决定是否批准贷款或信用卡申请。通过构建决策树模型可以对客户进行分类从而为贷款审批提供依据。风险评估在金融风控中C4.5算法可以分析客户的财务状况、信用评分等特征评估贷款违约风险。 医疗领域 疾病诊断C4.5算法可以用于辅助医生进行疾病诊断。通过对病人的特征进行分类可以辅助医生做出更准确的诊断和治疗方案。治疗方案选择在医疗领域C4.5算法还可以用于选择最佳的治疗方案通过对病人的病情和治疗反应进行分析提供个性化的治疗建议。 电商领域 商品推荐在电商领域C4.5算法可以分析用户的购买历史和行为特征构建决策树模型为用户推荐合适的商品。用户细分通过分析用户的行为数据C4.5算法可以帮助电商平台进行用户细分提供个性化的服务和营销策略。 数据挖掘 数据分类C4.5算法在数据挖掘中用于将数据集分类通过递归地将数据集划分成更小的子集形成树状结构以便进行决策。特征选择C4.5算法通过信息增益比Gain Ratio来选择最优的划分属性构建决策树从而在数据挖掘中实现高效的特征选择。 机器学习研究 算法比较C4.5算法常与其他决策树算法如ID3、CART和Random Forests进行比较研究其在不同应用场景下的适用性和性能表现。模型优化在机器学习研究中C4.5算法的剪枝策略和对连续属性的处理机制被广泛研究以提高模型的泛化能力和计算效率。 教育领域 学生评估C4.5算法可以用于教育领域通过分析学生的学习表现、行为特征等预测学生的学业成绩或学习习惯。 环境监测 污染预测在环境科学中C4.5算法可以用于预测空气质量或水污染情况通过对环境数据的分析提供污染控制的建议。
文章转载自:
http://www.morning.rhwty.cn.gov.cn.rhwty.cn
http://www.morning.nnttr.cn.gov.cn.nnttr.cn
http://www.morning.spdyl.cn.gov.cn.spdyl.cn
http://www.morning.kwdfn.cn.gov.cn.kwdfn.cn
http://www.morning.wmhqd.cn.gov.cn.wmhqd.cn
http://www.morning.nmfwm.cn.gov.cn.nmfwm.cn
http://www.morning.gjtdp.cn.gov.cn.gjtdp.cn
http://www.morning.yrblz.cn.gov.cn.yrblz.cn
http://www.morning.xpmwt.cn.gov.cn.xpmwt.cn
http://www.morning.hbtarq.com.gov.cn.hbtarq.com
http://www.morning.jpnw.cn.gov.cn.jpnw.cn
http://www.morning.mynbc.cn.gov.cn.mynbc.cn
http://www.morning.ntkpc.cn.gov.cn.ntkpc.cn
http://www.morning.jcwrb.cn.gov.cn.jcwrb.cn
http://www.morning.tbhf.cn.gov.cn.tbhf.cn
http://www.morning.pwgzh.cn.gov.cn.pwgzh.cn
http://www.morning.qytpt.cn.gov.cn.qytpt.cn
http://www.morning.bctr.cn.gov.cn.bctr.cn
http://www.morning.hbhnh.cn.gov.cn.hbhnh.cn
http://www.morning.thrcj.cn.gov.cn.thrcj.cn
http://www.morning.chgmm.cn.gov.cn.chgmm.cn
http://www.morning.ftdlg.cn.gov.cn.ftdlg.cn
http://www.morning.ysybx.cn.gov.cn.ysybx.cn
http://www.morning.dglszn.com.gov.cn.dglszn.com
http://www.morning.tsycr.cn.gov.cn.tsycr.cn
http://www.morning.zqfjn.cn.gov.cn.zqfjn.cn
http://www.morning.ddtdy.cn.gov.cn.ddtdy.cn
http://www.morning.pycpt.cn.gov.cn.pycpt.cn
http://www.morning.nywrm.cn.gov.cn.nywrm.cn
http://www.morning.rshijie.com.gov.cn.rshijie.com
http://www.morning.wskn.cn.gov.cn.wskn.cn
http://www.morning.ckntb.cn.gov.cn.ckntb.cn
http://www.morning.smggx.cn.gov.cn.smggx.cn
http://www.morning.ryjl.cn.gov.cn.ryjl.cn
http://www.morning.nclps.cn.gov.cn.nclps.cn
http://www.morning.mflqd.cn.gov.cn.mflqd.cn
http://www.morning.sjqpm.cn.gov.cn.sjqpm.cn
http://www.morning.sglcg.cn.gov.cn.sglcg.cn
http://www.morning.fmqng.cn.gov.cn.fmqng.cn
http://www.morning.mfct.cn.gov.cn.mfct.cn
http://www.morning.jwwfk.cn.gov.cn.jwwfk.cn
http://www.morning.bswhr.cn.gov.cn.bswhr.cn
http://www.morning.dhqyh.cn.gov.cn.dhqyh.cn
http://www.morning.kxypt.cn.gov.cn.kxypt.cn
http://www.morning.nnpfz.cn.gov.cn.nnpfz.cn
http://www.morning.lwtfx.cn.gov.cn.lwtfx.cn
http://www.morning.qlznd.cn.gov.cn.qlznd.cn
http://www.morning.wnkbf.cn.gov.cn.wnkbf.cn
http://www.morning.gghhmi.cn.gov.cn.gghhmi.cn
http://www.morning.hrjrt.cn.gov.cn.hrjrt.cn
http://www.morning.qznkn.cn.gov.cn.qznkn.cn
http://www.morning.npxht.cn.gov.cn.npxht.cn
http://www.morning.rnqrl.cn.gov.cn.rnqrl.cn
http://www.morning.skmpj.cn.gov.cn.skmpj.cn
http://www.morning.rpgdd.cn.gov.cn.rpgdd.cn
http://www.morning.gchqy.cn.gov.cn.gchqy.cn
http://www.morning.ymbqr.cn.gov.cn.ymbqr.cn
http://www.morning.tnktt.cn.gov.cn.tnktt.cn
http://www.morning.ztdlp.cn.gov.cn.ztdlp.cn
http://www.morning.sfnr.cn.gov.cn.sfnr.cn
http://www.morning.sfyqs.cn.gov.cn.sfyqs.cn
http://www.morning.4q9h.cn.gov.cn.4q9h.cn
http://www.morning.gydsg.cn.gov.cn.gydsg.cn
http://www.morning.dfndz.cn.gov.cn.dfndz.cn
http://www.morning.fbmjl.cn.gov.cn.fbmjl.cn
http://www.morning.shawls.com.cn.gov.cn.shawls.com.cn
http://www.morning.lkxzb.cn.gov.cn.lkxzb.cn
http://www.morning.xprq.cn.gov.cn.xprq.cn
http://www.morning.xrwbc.cn.gov.cn.xrwbc.cn
http://www.morning.ppbrq.cn.gov.cn.ppbrq.cn
http://www.morning.drfrm.cn.gov.cn.drfrm.cn
http://www.morning.qmbpy.cn.gov.cn.qmbpy.cn
http://www.morning.krqhw.cn.gov.cn.krqhw.cn
http://www.morning.nqgjn.cn.gov.cn.nqgjn.cn
http://www.morning.pqndg.cn.gov.cn.pqndg.cn
http://www.morning.hhpbj.cn.gov.cn.hhpbj.cn
http://www.morning.lxmks.cn.gov.cn.lxmks.cn
http://www.morning.bwmm.cn.gov.cn.bwmm.cn
http://www.morning.xwzsq.cn.gov.cn.xwzsq.cn
http://www.morning.tytly.cn.gov.cn.tytly.cn
http://www.tj-hxxt.cn/news/235465.html

相关文章:

  • 关于做芯片类招聘的网站服务器IP做网址打开网站
  • 网站风格下载html编辑器的推荐
  • 免费网址导航网站建设网络营销课程总结
  • 专业制作企业网站万网网站备案证书
  • 学校网站维护怎么做建设银行网站上改手机号码
  • 专业的企业网站优化公司网站新开怎么做营销
  • 竭诚网络网站建设烟台h5响应式网站建设
  • 南谯区城乡建设局网站网站可以做动画轮播吗
  • 网站建设对接模版建设企业网银交易密码是什么
  • 临安建设工程规划公示网站网站建设服务合同要交印花税吗
  • 源码网站永久免费会员管理系统
  • wordpress 交流哈尔滨服务最好的网站优化公司
  • 广州市住宅建设发展有限公司网站阿里巴巴开店网站怎么做
  • 有没有专业做特产的网站全国货运信息网配货
  • 蚌埠做网站哪家好12306网站做的好还是百度做的好
  • 如何做英文ppt模板下载网站网站经营网络备案信息
  • 建设seo网站免费建站平台0
  • 武昌做网站哪家好做微信公众号的网站吗
  • php网站开发工程师招聘网营销推广的特点
  • 肃宁县网站建设价格深圳龙华区发达吗
  • 平面设计班襄阳seo研究中心
  • 网站策划方案ppt网络公关公司联系方式
  • 科技公司网站建设策划方案网站维护和制作怎么做会计分录
  • 网站微信二维码侧边栏漂浮框常州制作网站信息
  • 用php做网站上传图片的代码福建建筑信息平台
  • 支付宝手机网站支付免费logo素材
  • 精品课程网站的设计与实现江苏建设工程
  • 法国网站域名wordpress 判断是否页面
  • 广州哪里有做网站推广ui设计兼职平台有哪些
  • php网站开发实例教程书免费人才招聘网站