网站设计公司建设网站,开办网站需要什么资质,有模版之后怎么做网站,网站推广含义目录 一、.随机森林的思想
二、随机森林构建步骤
1.自助采样
2.特征随机选择
3构建决策树
4.集成预测
三. 随机森林的关键优势
**(1) 减少过拟合**
**(2) 高效并行化**
**(3) 特征重要性评估**
**(4) 耐抗噪声**
四. 随机森林的优缺点
优点
缺点
五.…目录 一、.随机森林的思想
二、随机森林构建步骤
1.自助采样
2.特征随机选择
3构建决策树
4.集成预测
三. 随机森林的关键优势
**(1) 减少过拟合**
**(2) 高效并行化**
**(3) 特征重要性评估**
**(4) 耐抗噪声**
四. 随机森林的优缺点
优点
缺点
五. 参数调优以scikit-learn为例
波士顿房价预测 一、.随机森林的思想
1.通过组成多个弱学习器决策树形成一个学习器
2.多样性增强每颗决策树通过特征随机选择和样本随机抽样生成降低模型之间的相关性减少过拟合风险
二、随机森林构建步骤
1.自助采样
从原始数据集中有放回的随机抽样每个子集大小等于原始数据集。
大约30%的数据未被抽中形成“袋外样本”Out-of-Bag, OOB用于模型评估。
2.特征随机选择
每棵决策树在构建时仅从所有特征中随机选择一个子集例如对于分类任务通常选择 msqrt(n_feature) 个特征
增加特征间的独立性避免模型偏向特定特征
3构建决策树
对每个子集和特征组合递归地生成决策树使用与单棵决策树相同的算法如CART。 不进行剪枝Pre-pruning允许树完全生长。
4.集成预测
分类任务所有树的预测结果按多数票决定最终类别
回归任务所有树的预测结果取平均值
三. 随机森林的关键优势
**(1) 减少过拟合**
单棵决策树易过拟合但多棵树的“平均效应”降低了方差。无需复杂的剪枝操作。
**(2) 高效并行化**
树之间相互独立可通过并行计算加速训练。
**(3) 特征重要性评估**
通过统计每棵树中特征被选中的频率量化其对最终预测的贡献度。
**(4) 耐抗噪声**
对缺失值和异常值不敏感需适当处理缺失值。 四. 随机森林的优缺点
优点
高准确率在大多数任务中表现优于单个决策树。可解释性可通过特征重要性分析和可视化部分树结构。适应性强支持分类、回归、特征选择等多种任务。
缺点
计算资源消耗大生成大量树需要更多内存和计算时间。对高维稀疏数据效果不佳特征随机选择可能无法覆盖关键特征。黑箱化风险相比单棵决策树集成模型的解释性略低。
五. 参数调优以scikit-learn为例
参数作用默认值n_estimators树的数量100max_depth树的最大深度None不限制min_samples_split内部节点最少分割样本数2max_features每棵树使用的特征数量auto分类任务为√nbootstrap是否使用自助采样True 波士顿房价预测
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston# 加载数据
boston load_boston()
X, y boston.data, boston.target# 创建随机森林回归模型
model RandomForestRegressor(n_estimators100, random_state42)# 训练模型
model.fit(X, y)# 预测均值绝对误差MAE
y_pred model.predict(X)
print(fMean Absolute Error: {np.mean(np.abs(y - y_pred)):.2f})