做响应式网站制作,云南城市建设培训中心网站,手机排行榜2024,临沂网站建设技术托管集成学习面试题 1. 什么是集成学习算法#xff1f;
集成学习算法是一种优化手段或者策略#xff0c;将多个较弱的模型集成模型组#xff0c;一般的弱分类器可以是决策树#xff0c;SVM#xff0c;KNN等构成。其中的模型可以单独进行训练#xff0c;并且它们的预测能以某…集成学习面试题 1. 什么是集成学习算法
集成学习算法是一种优化手段或者策略将多个较弱的模型集成模型组一般的弱分类器可以是决策树SVMKNN等构成。其中的模型可以单独进行训练并且它们的预测能以某种方式结合起来去做出一个总体预测。
2. 集成学习主要有哪几种框架
集成学习从集成思想的架构分为BaggingBoostingStacking三种。
3. 简单介绍一下bagging常用bagging算法有哪些 Bagging 多次采样训练多个分类器集体投票旨在减小方差 基于数据随机重抽样的分类器构建方法。从训练集中进行子抽样组成每个基模型所需要的子训练集对所有基模型预测的结果进行综合产生最终的预测结果。 算法流程 输入为样本集 D ( x 1 y 1 ) ( x 2 y 2 ) … ( x m y m ) D{(x_1y_1)(x_2y_2) \dots (x_my_m)} D(x1y1)(x2y2)…(xmym)弱学习器算法弱分类器迭代次数 T T T。输出为最终的强分类器 f ( x ) f(x) f(x) 对于 t 1 2 … T t12 \dots T t12…T 对训练集进行第t次随机采样共采集 T T T次得到包含 T T T个样本的采样集 D t D_t Dt用采样集 D t D_t Dt训练第 t t t个弱学习器 G t ( x ) G_t(x) Gt(x) 如果是分类算法预测则 T T T个弱学习器投出最多票数的类别或者类别之一为最终类别。如果是回归算法 T T T个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。 常用bagging算法随机森林算法
4. 简单介绍一下boosting常用boosting算法有哪些 Boosting 基分类器层层叠加聚焦分错的样本旨在减小方差 训练过程为阶梯状基模型按次序进行训练实现上可以做到并行基模型的训练集按照某种策略每次都进行一定的转化每次都是提高前一次分错了的数据集的权值最后对所有基模型预测的结果进行线性组合产生最终的预测结果。 算法流程 给定初始训练数据由此训练出第一个基学习器 根据基学习器的表现对样本进行调整在之前学习器做错的样本上投入更多关注 用调整后的样本训练下一个基学习器 重复上述过程T次将T个学习器加权结合。 常用boosting算法 AdaboostGBDTXGBoost
5. boosting思想的数学表达式是什么 f ( x ) w 0 ∑ m 1 M w m ϕ m ( x ) f(x)w_{0}\sum_{m1}^{M} w_{m} \phi_{m}(x) f(x)w0m1∑Mwmϕm(x)
其中 w w w是权重 ϕ \phi ϕ是弱分类器的集合可以看出最终就是基函数的线性组合。
6. 简单介绍一下stacking Stacking 多次采样训练多个分类器将输出作为最后的输入特征 将训练好的所有基模型对训练集进行预测第个 i i i基模型对第 i i i个训练样本的预测值将作为新的训练集中第 i i i个样本的第 i i i个特征值最后基于新的训练集进行训练。同理预测的过程也要先经过所有基模型的预测形成新的测试集最后再对测试集进行预测。 stacking常见的使用方式 由k-NN、随机森林和朴素贝叶斯基础分类器组成它的预测结果由作为元分类器的逻回归组合。
7. 你意识到你的模型受到低偏差和高方差问题的困扰应该使用哪种算法来解决问题呢为什么
低偏差意味着模型的预测值接近实际值。换句话说该模型有足够的灵活性以模仿训练数据的分布。貌似很好但是别忘了一个灵活的模型没有泛化能力。这意味着当这个模型用在对一个未曾见过的数据集进行测试的时候它会令人很失望。 在这种情况下我们可以使用bagging算法如随机森林以解决高方差问题。bagging算法把数据集分成重复随机取样形成的子集。然后这些样本利用单个学习算法生成一组模型。接着利用投票分类或平均回归把模型预测结合在一起。另外为了应对大方差我们可以
使用正则化技术惩罚更高的模型系数从而降低了模型的复杂性。使用可变重要性图表中的前n个特征。可以用于当一个算法在数据集中的所有变量里很难寻找到有意义信号的时候。
8. 常用的基分类器是什么
最常用的基分类器是决策树,原因:
决策树可以较为方便地将样本的权重整合到训练过程中而不需要使用过采样的方法来调整样本权重。决策树的表达能力和泛化能力可以通过调节树的层数来做折中。数据样本的扰动对于决策树的影响较大因此不同子样本集合生成的决策树基分类器随机性较大这样的“不稳定学习器”更适合作为基分类器。此外在决策树节点分裂的时候随机地选择一个特征子集从中找出最优分裂属性很好地引入了随机性。
9. 可否将随机森林中的基分类器由决策树替换为线性分类器或K-近邻请解释为什么
不能 Bagging的主要好处是集成后的分类器的方差比基分类器的方差小。 随机森林属于Bagging类的集成学习对样本分布较为敏感的分类器更适用于Bagging。 线性分类器或者K-近邻都是较为稳定的分类器本身方差就不大。 线性分类器或者K-近邻可能会由于Bagging的采样导致在训练中更难收敛增大偏差。
10. GBDT和RF如何计算特征重要性
RF有两种方法 通过计算Gini系数的减少量VImGI−(GILGIR)判断特征重要性越大越重要。对于一颗树先使用袋外错误率(OOB)样本计算测试误差a再随机打乱OOB样本中第i个特征上下打乱特征矩阵第i列的顺序后计算测试误差ba与b差距越大特征i越重要。 GBDT计算方法 所有回归树中通过特征i分裂后平方损失的减少值的和/回归树数量 得到特征重要性。 在sklearn中GBDT和RF的特征重要性计算方法是相同的都是基于单棵树计算每个特征的重要性探究每个特征在每棵树上做了多少的贡献再取个平均值。 Xgb主要有三种计算方法 importance_typeweight默认值特征重要性使用特征在所有树中作为划分属性的次数。mportance_typegain特征重要性使用特征在作为划分属性时loss平均的降低量。importance_typecover特征重要性使用特征在作为划分属性时对样本的覆盖度。