当前位置: 首页 > news >正文

网站备案背景幕布尺寸基础建设的网站有哪些内容

网站备案背景幕布尺寸,基础建设的网站有哪些内容,廊坊网站建设方案托管,移动互联与网站开发算法#xff1a; 1、决策树 2、随机森林 3、梯度提升树 4、逻辑回归 5、支持向量机SVM 6、K近邻 KNN 7、朴素贝叶斯 8、多层感知机 9、统一分类 10、比较总结 11、完整代码 1、决策树 1.1 Decision Tree Analysis (C4.5,CART,CHAID)决策树 算法树结构特征选择连续值处理缺失…算法 1、决策树 2、随机森林 3、梯度提升树 4、逻辑回归 5、支持向量机SVM 6、K近邻 KNN 7、朴素贝叶斯 8、多层感知机 9、统一分类 10、比较总结 11、完整代码 1、决策树 1.1 Decision Tree Analysis (C4.5,CART,CHAID)决策树 算法树结构特征选择连续值处理缺失值处理剪枝ID3多叉树信息增益不支持不支持不支持C4.5多叉树信息增益比支持支持支持CART二叉树基尼系数支持支持支持CHAID多叉树卡方检验支持支持支持 1.2 决策树核心思想 决策树是一个树结构可以是二叉树或非二叉树其每个非叶节点表示一个特征属性上的测试每个分支代表这个特征属性在某个值域上的输出而每个叶节点存放一个输出类别。使用决策树进行决策的过程就是从根节点开始测试待分类项中相应的特征属性并按照其值选择输出分支直到到达叶子节点将叶子节点存放的类别作为决策结果。         决策树学习通常包含这几个方面特征选择、决策树生成、决策树剪枝、缺失值/异常值处理、决策树集成学习。由于决策树算法非常容易过拟合因此对于生成的决策树必须要进行剪枝。         可把连续取值的数据值域划分为多个区间并将每个区间视为该特征的一个取值如此就完成了从连续性数据到离散性数据的转变。 1.3 决策算法 1.3.1 ID3         ID3算法就是用信息增益大小来判断当前节点应该用什么特征来构建决策树用计算出的信息增益最大的特征来建立决策树的当前节点。 缺点         不能处理连续特征只能处理离散值         在相同条件下取值比较多的特征比取值少的特征信息增益大。使用信息增益作为标准容易偏向于取值较多的特征         对于缺失值的情况没有做考虑         没有考虑过拟合的问题 1.3.2 C4.5         对ID3算法进行改进。将连续的特征离散化、引入信息增益比信息增益和特征熵的比值进行特征选择、缺失值处理一是在样本某些特征缺失的情况下选择划分的属性二是选定了划分属性对于在该属性上缺失特征的样本的处理。引入了正则化系数进行初步剪枝防止过拟合。 缺点         剪枝算法待优化         生成的是多叉树效率没有二叉树优         只能用于分类不能用于回归         使用了熵模型有大量耗时的对数运算,如果是连续值还有大量的排序运算。 1.3.3 CART         无论是ID3还是C4.5,都是基于信息论的熵模型的这里面会涉及大量的对数运算。CART使用基尼系数来代替信息增益比(可以做为熵模型的一个近似替代)。建立二叉树而不是多叉树每次仅仅对某个特征的值进行二分而不是多分。同样将连续的特征离散化。样本输出是离散值就是一颗分类树。如果果样本输出是连续值就是一颗回归树。采用的办法是后剪枝法即先生成决策树然后产生所有可能的剪枝后的CART树然后使用交叉验证来检验各种剪枝的效果选择泛化能力最好的剪枝策略。 缺点         选择最优的一个特征来做分类决策但是大多数分类决策不应该是由某一个特征决定的而是应该由一组特征决定的。         对异常值比较敏感。         构建的树可能会比较复杂容易出现过拟合现象需要进行剪枝处理。 1.3.4 CHAID         基于卡方检验进行特征选择。通常采用预剪枝方法。预剪枝是在树的生长过程中提前停止分裂以防止过拟合。 缺点         计算卡方统计量和进行假设检验相对复杂当数据量较大时计算成本较高。对于连续型变量要先进行离散化才能应用卡方检验。 1.4 剪枝 对于决策树而言当不断向下划分以构建一棵足够大的决策树时直到所有叶子结点熵值均为0理论上就能将近乎所有数据全部区分开。所以决策树的过拟合风险非常大。为此需要对其进行剪枝处理。 常用的剪枝策略主要有两个         预剪枝构建决策树的同时进行剪枝处理更常用。预剪枝策略可以通过限制树的深度、叶子结点个数、叶子结点含样本数以及最低信息增益来完成。         后剪枝构建决策树后再进行剪枝处理。后剪枝法即先生成决策树然后产生所有可能的剪枝后的树然后使用交叉验证来检验各种剪枝的效果选择泛化能力最好的剪枝策略。 # 1 决策树分类 dt DecisionTreeClassifier(criteriongini, # 分裂标准gini基尼系数或 entropy信息熵max_depth5, # 树的最大深度防止过拟合random_state42 # 随机种子确保结果可复现 )2、随机森林 解决决策树泛化能力弱的特点。随机森林是一种基于树模型的Bagging自助聚合的优化版本一棵树的生成肯定还是不如多棵树因此就有了随机森林。 决策过程         1随机选择样本放回抽样,行抽样。从样本集中通过重采样的方式产生n个样本。         2构建决策树假设样本特征数目为a对n个样本选择a中的k个特征用建立决策树的方式获得最佳分割点。         3随机选择特征(列抽样重复m次产生m棵决策树。         4随机森林投票平均多数投票机制来进行预测。 优点         无需修剪决策树         过拟合不是问题         对训练数据中的异常值不太敏感         能够处理很高维度feature很多的数据并且不用做特征选择(因为特征子集是随机选择的)         训练速度快容易做成并行化方法(训练时树与树之间是相互独立的)         对于不平衡的数据集来说它可以平衡误差         如果有很大一部分的特征遗失仍可以维持准确度。 缺点         回归无法预测训练数据范围外的值         在回归中经常无法准确预测极端值–低估了高点高估了低点。 # 2. 随机森林分类 rf RandomForestClassifier(n_estimators100, # 决策树的数量criteriongini, # 分裂标准max_depth5, # 单棵树的最大深度random_state42 # 随机种子 )3、梯度提升树 一种基于集成学习的算法旨在通过组合多个弱学习器来构建一个强学习器。其核心思想是逐步优化模型通过每一步的学习来纠正前一步的错误。弱学习器是指在某一特定任务上表现稍好的模型。通常单个弱学习器的预测能力有限但通过集成多个弱学习器可以显著提高整体模型的性能。最终模型是初始模型与所有弱学习器的加权和。残差反映了模型在当前阶段的预测误差。新树的目标是捕捉当前模型未能解释的部分。 随机森林 VS 梯度提升树 随机森林         并行构建多棵决策树独立构建互不影响适合并行化处理。         随机性每棵树使用不同的随机子样本和随机特征子集增加模型多样性。         目标通过“多数投票”分类或“平均值”回归组合结果降低方差提高泛化能力。         复杂度较低训练过程简单适合并行化训练时间通常较快尤其是在多核处理器上。 梯度提升树         序贯构建每棵树在前一棵树的基础上优化目标是修正前一棵树的残差。         优化目标通过最小化损失函数逐步优化模型降低偏差最终得到强预测模型。         复杂度较高训练过程序贯无法并行化训练时间随树的数量增加而显著增加。 # 3. 梯度提升树分类 gb GradientBoostingClassifier(n_estimators100, # 树的数量learning_rate0.1, # 学习率控制每棵树的贡献max_depth3, # 单棵树的最大深度random_state42 )4、逻辑回归 逻辑回归虽然叫做回归但它却是分类算法。逻辑回归就是解决二分类问题的利器。逻辑回归是广义的线性模型就是在线性回归基础上加了一个非线性映射。         假设有如下图所示的一个数据集使用线性回归算法可以找到大致如黑线的一个线性模型对其进行拟合。对数据集中每一个xi都能通过模型找到一个yi预测值与之对应。获得了预测值就可以做很多事情例如分类。可以对yi进行分段。这就实现了以回归的思路来实现分类。 线性回归有一个很致命的缺陷——对异常值很敏感如果数据集中出现异常值拟合出来的线性模型也将出现很大变化预测出来的结果也将不在那么准确从而到导致分类错误。逻辑回归算法对线性回归对异常数据敏感的不足进行了优化改进。用sigmod函数与线性函数进行复合。         sigmoid函数也叫Logistic函数函数表达式 sigmoid函数可以很好地将-∞∞内的数映射到01上于是可以将g(z)≥0.5时将该条数据标记为1类g(z)0.5时标记为0类。 # 4. 逻辑回归分类 lr LogisticRegression(penaltyl2, # 正则化类型l1Lasso或 l2RidgeC1.0, # 正则化强度的倒数值越小正则化越强solverlbfgs # 优化算法如 lbfgs, saga, liblinear )5、支持向量机SVM 将向量映射到一个高维空间里在这个空间里建立一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大分类器的总误差越小。 线性 最优分类平面的条件是使间隔最大化。通过任一类星形或圆形标志与超平面距离最近的点基于其与超平面距离的最大化来判定最优超平面这个距离称为边距Margin。相比较于A、B超平面C的边距最大且具有鲁棒性也就是说与任一类别的边距都最大而不像A、B泛化性较差。 非线性 需要让空间从原本的线性空间变成一个更高维的空间在这个高维的线性空间下再用一个超平面进行划分。         SVM有一种称为核函数的技术。这些函数采用低维输入空间并将其转换为更高维空间即将不可分离问题转换为可分离问题这些函数称为内核。它主要用于非线性分离问题。 # 5. 支持向量机 (SVM) svm SVC(kernelrbf, # 核函数linear, poly, rbf, sigmoidC1.0, # 正则化参数值越大对误分类容忍度越低gammascale # 核函数的系数scale 或 auto )6、KNN 找出挨着自己最近的K个邻居并且根据邻居的类别来确定自己的类别情况。 比如红色点挨着其最近的5个点K5时如上图如果该5个点中多数均为A类那么红色点就归为A类。k近邻的三个要素①距离度量②k邻居数的选择③分类决策规则。         距离度量可以是一般的L_p距离或Minkowski、闵可夫斯基、闵氏距离。通常情况下K值为奇数通常建议介于3~20之间。分类决策规则一般用多数表决规则。         缺点KNN是一种“懒惰学习”算法Lazy Learning在训练阶段几乎不进行任何计算而是将所有数据存储起来。在预测阶段需要对每个测试样本计算其与所有训练样本之间的距离然后找到最近的K个邻居。因此当数据量较大时计算成本非常高。         影响在大规模数据集上KNN的预测速度会非常慢不适合实时或在线预测场景。         噪声数据KNN对噪声数据和异常值非常敏感因为这些数据点可能会影响最近邻的判断。         数据不平衡在类别不平衡的数据集中KNN的性能可能会受到严重影响。少数类的样本可能被多数类的样本“淹没”导致分类错误。 # 6. K近邻分类 (KNN) knn KNeighborsClassifier(n_neighbors5, # 使用的邻居数量weightsuniform # 权重计算方式uniform 或 distance )7、朴素贝叶斯 利用贝叶斯公式根据某特征的先验概率计算出其后验概率然后选择具有最大后验概率的类作为该特征所属的类。它的优点是简单高效尤其适用于特征维度较高的数据集。         之所以称之为”朴素”是因为贝叶斯分类只做最原始、最简单的假设所有的特征之间是统计独立的。         在scikit-learn中一共有3个朴素贝叶斯的分类算法         GaussianNB先验为高斯分布正态分布的朴素贝叶斯假设每个标签的数据都服从简单的正态分布。         MultinomialNB先验为多项式分布的朴素贝叶斯。它假设特征是由一个简单多项式分布生成的。多项分布可以描述各种类型样本出现次数的概率因此多项式朴素贝叶斯非常适合用于描述出现次数或者出现次数比例的特征。         BernoulliNB先验为伯努利分布的朴素贝叶斯。 # 7. 朴素贝叶斯分类 nb GaussianNB() # 默认使用高斯分布总结         如果样本特征的分布大部分是连续值使用GaussianNB会比较好。         如果样本特征的分布大部分是多元离散值使用MultinomialNB比较合适(常用于文本分类)。         如果样本特征是二元离散值或者很稀疏的多元离散值应该使用BernoulliNB。 8、多层感知机 是一种前馈神经网络模型它由一个输入层、一个输出层以及至少一层隐藏层组成。多层感知器模型即为多个单层感知器的叠加。 # 8. 多层感知机 (MLP) mlp MLPClassifier(hidden_layer_sizes(100,), # 隐藏层结构如 (100, 50) 表示两层activationrelu, # 激活函数relu, tanh, logisticsolveradam, # 优化算法adam, lbfgs, sgdmax_iter1000, # 最大迭代次数random_state42 )工作原理 前向传播输入数据通过网络从输入层传递到输出层在每一层中数据都被转换为新的表示形式。损失计算根据输出层产生的预测值和实际目标值之间的差异来计算损失或误差。反向传播使用梯度下降法或其变体来更新网络中的权重和偏置以便最小化损失函数。 9、Unified Classification统一分类 旨在通过一个统一的模型或框架来解决多种分类问题而不是为每个任务单独设计模型。         百度构建了“任务架构统一、通用能力共享”的通用文本分类技术UTC其实现了良好的零/少样本迁移性能。PaddleNLP结合文心ERNIE基于UTC技术开源了首个面向通用文本分类的产业级技术方案。         对于简单任务通过调用 paddlenlp.Taskflow API仅用三行代码即可实现零样本Zero-shot通用文本分类可支持情感分析、意图识别、语义匹配、蕴含推理等各种可转换为分类问题的NLU任务。对于复杂任务可以标注少量数据Few-shot进行模型训练以进一步提升模型分类效果。         UTC具有低资源迁移能力可以支持通用分类、评论情感分析、语义相似度计算、蕴含推理、多项式阅读理解等多种“泛分类”任务。这使得开发者可以更加轻松高效地实现多任务文本分类数据标注、训练、调优和上线从而降低文本分类技术门槛。 Github https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/taskflow/zero_shot_text_classification.py 参考文章https://aistudio.csdn.net/644b39106beb9e262918b1cb.html 流程 1、数据         安装Label Studio为数据打标签、导出JSON文件。通过label_studio.py脚本可转为UTC的数据格式。生成训练/验证集文件。 2、模型微调与评估         推荐使用PromptTrainer API对模型进行微调该API封装了提示定义功能且继承自Trainer API。只需输入模型、数据集等就可以使用Trainer API高效快速地进行预训练、微调等任务可以一键启动多卡训练、混合精度训练、梯度累积、断点重启、日志显示等功能Trainer API还针对训练过程的通用训练配置做了封装比如优化器、学习率调度等。 3、预测         paddlenlp.Taskflow装载定制模型通过task_path指定模型权重文件的路径路径下需要包含训练好的模型权重文件model_state.pdparams。 from pprint import pprint from paddlenlp import Taskflow schema [病情诊断, 治疗方案, 病因分析, 指标解读, 就医建议, 疾病表述, 后果表述, 注意事项, 功效作用, 医疗费用, 其他] my_cls Taskflow(zero_shot_text_classification, modelutc-base, schemaschema, task_path/home/aistudio/checkpoint/model_best/plm) pprint(my_cls([老年斑为什么都长在面部和手背上,老成都市哪家内痔医院比较好怎么样最好,中性粒细胞比率偏低]))10、比较总结 在选择合适的分类算法时需要综合考虑数据的规模、特征维度、任务复杂度以及计算资源等因素。 场景需求推荐模型线性可分、概率解释逻辑回归高维稀疏、小样本朴素贝叶斯、SVM非线性、可解释性决策树、随机森林复杂非线性、高精度梯度提升树、多层感知机局部模式、小数据集KNN多模态/序列数据、大规模任务统一大模型实时预测、轻量级部署逻辑回归、轻量决策树 11、完整代码 from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC from sklearn.neighbors import KNeighborsClassifier from sklearn.naive_bayes import GaussianNB from sklearn.neural_network import MLPClassifier from sklearn.model_selection import train_test_split from sklearn import datasets from sklearn.metrics import accuracy_score# 导入数据集 iris datasets.load_iris() # 切分数据集,将数据的内容余目标切分成训练集和测试集 Xtrain, Xtest, ytrain, ytest train_test_split(iris.data,iris.target,random_state12)# 1. 决策树分类 dt DecisionTreeClassifier(criteriongini, # 分裂标准gini基尼系数或 entropy信息熵max_depth5, # 树的最大深度防止过拟合random_state42 # 随机种子确保结果可复现 )# 2. 随机森林分类 rf RandomForestClassifier(n_estimators100, # 决策树的数量criteriongini, # 分裂标准max_depth5, # 单棵树的最大深度random_state42 # 随机种子 )# 3. 梯度提升树分类 gb GradientBoostingClassifier(n_estimators100, # 树的数量learning_rate0.1, # 学习率控制每棵树的贡献max_depth3, # 单棵树的最大深度random_state42 )# 4. 逻辑回归分类 lr LogisticRegression(penaltyl2, # 正则化类型l1Lasso或 l2RidgeC1.0, # 正则化强度的倒数值越小正则化越强solverlbfgs # 优化算法如 lbfgs, saga, liblinear )# 5. 支持向量机 (SVM) svm SVC(kernelrbf, # 核函数linear, poly, rbf, sigmoidC1.0, # 正则化参数值越大对误分类容忍度越低gammascale # 核函数的系数scale 或 auto )# 6. K近邻分类 (KNN) knn KNeighborsClassifier(n_neighbors5, # 使用的邻居数量weightsuniform # 权重计算方式uniform 或 distance )# 7. 朴素贝叶斯分类 nb GaussianNB() # 默认使用高斯分布无需特殊参数# 8. 多层感知机 (MLP) mlp MLPClassifier(hidden_layer_sizes(100,), # 隐藏层结构如 (100, 50) 表示两层activationrelu, # 激活函数relu, tanh, logisticsolveradam, # 优化算法adam, lbfgs, sgdmax_iter1000, # 最大迭代次数random_state42 )# 训练模型假设已有 X_train, y_train models [dt, rf, gb, lr, svm, knn, nb, mlp] for model in models:model.fit(Xtrain, ytrain)# 在测试集上执行预测proba导出的是每个样本属于某类的概率pre_result model.predict(Xtest) # 预测结果# 测试准确率accuracy_value accuracy_score(ytest, pre_result)# 打印输出结果print(accuracy_value) # 最后预测准确率
http://www.tj-hxxt.cn/news/133483.html

相关文章:

  • 网站管理员的联系方式建设部举报网站
  • c2c模式的网站个人中心网页设计
  • php抽奖网站源码中国建筑设计研究院官网
  • 网站建设人力资源人员配置广州购物网站建设
  • 做网站跟赚钱嘛不懂代码wordpress
  • 工作室做网站流程国家认可的赚钱游戏无广告
  • 滕州公司做网站做网站哪一家公司好
  • 社区网站建设平台潍坊市建设一体化平台网站
  • 中国大良网站建设沈阳网页制作设计
  • 瀑布流网站有哪些哈尔滨网站建设有哪些
  • 顺德网站制作案例价格江门移动网站建设公司
  • 电商型网站建设莱州网站设计
  • 建设局象山网站专门做网站的公司交什么
  • 彩票网站模版注册商标怎么注册商标
  • 北京商城网站建设费用成立公司有什么好处和坏处
  • 网站要怎么样做排名才上得去wordpress版权所有
  • 做新闻类网站如何盈利网站解析后怎么解决方法
  • 网站数据库是干什么的2021年新闻摘抄
  • 网站制作 杭州公司房地产估价师
  • 哈密网站制作wordpress 搜索目录
  • 做二手平台公益的网站企业邮箱安全吗
  • 网站报价书中国与菲律宾最新事件
  • 太原网站建设价格官网建设报价
  • 银川公司网站建设wordpress宝宝网商城免费模板下载
  • 企业网站建设分为那几个阶段门户网站建站注意事项
  • 网站职位推荐怎么做网站域名 邮箱
  • 低价网站建设策划内容商城小程序公司
  • 网站设计一级网页网站建设阿华seo
  • 重庆网站建设公司那好网站博客自媒体轻松
  • 设计素材网站月收益多渠道营销系统