做兼职用哪个网站好,年度关键词有哪些,便宜做网站价格,房地产管理系统3.1 数据来源信息
该数据集来源于Kaggle网站#xff0c;数据集中包含了罗平菜籽油的销售数据#xff0c;每行数据对应一条记录#xff0c;记录了罗平菜籽油销售数据。其中#xff0c;菜籽产量、菜籽价格和菜籽油价格是数值型数据#xff0c;共2486条数据。
通过读取Exce…3.1 数据来源信息
该数据集来源于Kaggle网站数据集中包含了罗平菜籽油的销售数据每行数据对应一条记录记录了罗平菜籽油销售数据。其中菜籽产量、菜籽价格和菜籽油价格是数值型数据共2486条数据。
通过读取Excel文件并进行数据预处理本文可以利用这些数据来进行罗平菜籽油销售数据的分析和预测。部分数据如下图3-1所示: 图3-1数据详情
3.2数据预处理
数据预处理的目的是清洗和准备数据使其适用于后续的分析和建模。通过删除缺失值和异常值可以提高数据的质量和准确性避免错误的影响。而标准化则可以消除不同特征之间的尺度差异使得模型能够更好地对特征进行学习和预测。通过这些数据预处理方法本文可以得到更加干净、准确和可靠的罗平菜籽油销售数据集为后续的分析和建模奠定基础。数据预处理阶段使用了以下几个方法来处理罗平菜籽油销售数据。
缺失值处理,通过使用统计空值方法检查每个字段是否存在缺失值并使用dropna()方法删除包含缺失值的行。这样可以确保数据的完整性和准确性避免在后续分析中对缺失值进行处理时引入偏差。异常值处理,首先计算每个字段的均值和标准差然后根据均值加减3倍标准差的范围确定异常值的上下界将超出该范围的数据点删除。这样可以有效去除异常值的影响使得后续分析更加稳定和可靠。数据标准化,使用标准化函数对特征进行标准化处理将菜籽产量和菜籽价格的数据进行归一化消除不同特征之间的尺度差异。同时将菜籽油价格转换为千克单位以便更好地适应实际应用场景。标准化可以使得数据具有零均值和单位方差使得模型训练过程更加稳定且更容易收敛。 3.2.1缺失值处理
使用统计空值方法检测每个字段是否存在缺失值。该方法返回一个布尔型的一维对象其中缺失值对应的位置为True非缺失值对应的位置为False。
使用删除空值方法删除包含缺失值的行。该方法会删除数据集中存在缺失值的所有行并在原数据集上进行修改即对数据集进行了操作。缺失值处理前如下图3-2 图3-2缺失值处理前
通过这些步骤可以实现对数据集中缺失值的处理。首先通过检测每个字段是否存在缺失值可以了解到数据集中哪些字段存在缺失值。然后使用删除空值方法将包含缺失值的行从数据集中删除以保证数据的完整性和准确性。
3.2.2异常值处理
通过循环遍历数据集的每一列获取列名列表。对于每一列首先计算其均值和标准差使用平均值和标准差方法来计算确定异常值的上下界。根据均值加减3倍标准差的范围使用循环遍历数据集中的每一行检查每个字段的取值是否超出了异常值的上下界。如果某个字段的取值超出了上下界则将该行数据从数据集中删除使用删除空值方法进行删除操作。
通过重新设置索引对数据集的索引进行重新排序以保证索引的连续性和正确性。
通过以上步骤可以实现对数据集中异常值的处理。具体地通过计算均值和标准差确定异常值的上下界然后遍历数据集中的每一行检查每个字段的取值是否超过上下界如果超出则删除该行数据。这样可以有效去除异常值的影响使得数据更加可靠和准确。异常值处理结果如下图3-4所示 3.2.3数据标准化
数据标准化的实现包括以下几个步骤
通过定位列分别获取特征和目标列。这里假设特征列位于数据集的前面目标列位于最后一列。使用标准化函数创建一个标准化器对象stand。调用标准化器对象的特征进行标准化处理将其转换为均值为0、方差为1的标准正态分布同时进行拟合和转换操作。将目标列中的数据进行单位转换以便更好地适应实际应用场景。在这个例子中将菜籽油价格从千克转换为吨即将每个值除以1000。 4.1 SVM模型构建
SVM 模型实现流程图如下图4-1所示 图4-1模型实现流程
4.1.1 SVM模型构建原理
SVM 模型构建原理
数据准备准备罗平菜籽油销售数据集包括特征销售量、销售时间等和目标变量销售额等。
特征工程对数据进行特征选择、处理和转换确保特征数据符合 SVM 模型的要求。
SVM 模型训练使用罗平菜籽油销售数据集训练 SVM 模型选择合适的核函数如线性核、多项式核或高斯核。
模型优化调整 SVM 模型的超参数如惩罚系数 C、核函数参数等以获得最佳的模型性能。
模型评估使用交叉验证等方法评估模型的性能确保模型具有较好的泛化能力。
4.1.2 SVM模型评价指标
在 SVM 模型中评价指标包括准确率Accuracy(分类正确的样本数占总样本数的比例。精确率Precision预测为正类别且分类正确的样本数占预测为正类别的样本数的比例。召回率Recall预测为正类别且分类正确的样本数占实际正类别的样本数的比例。F1 分数F1 Score精确率和召回率的调和平均数综合考虑了模型的准确性和召回性能。
其公式如下
1准确率Accuracy 其中TP 表示真正例True Positive、TN 表示真负例True Negative、FP 表示假正例False Positive、FN 表示假负例False Negative。
2精确率Precision 2召回率Recall 4F1 分数F1 Score 这些评价指标可以帮助评估分类模型的性能并提供关于模型在正例和负例分类方面的表现的详细信息。综合考虑精确率和召回率可以更全面地评估模型的性能。
4.2模型评估
对模型进行评估的过程如下所示使用测试集的特征数据进行预测将预测结果存储变量中。然后使用一些评估指标来评估模型的性能。包括均方误差、平均绝对误差和决定系数分别计算了预测结果与实际结果之间的均方误差、平均绝对误差和决定系数。最后根据评估结果可以判断模型的拟合效果和预测准确度。均方误差和平均绝对误差越小表示模型的预测结果与实际结果越接近决定系数越接近1表示模型对观测数据的拟合程度越好。评估结果如下图4-2所示 图4-2评估结果
根据给定的评估结果可以得出以下结论
根据罗平菜籽油销售数据的分析结果显示经过对 SVM 模型进行参数优化后得到最佳参数组合为 C0.1、epsilon0.3、gammascale、kernellinear对应的最佳 R² 得分为 0.9849。这意味着该 SVM 模型能够解释目标变量约 98.49% 的销售数据方差具有较高的预测精度。进一步观察不同参数组合的评估结果发现线性核函数在不同参数下的 R² 得分普遍较高而径向基核函数的 R² 得分相对较低。参数 C 和 epsilon 对模型性能影响较小而参数 gamma 的取值对模型性能有一定影响较小的 gamma 值会导致模型 R² 得分下降。综合来看经过优化的 SVM 模型在分析罗平菜籽油销售数据方面表现出色具有较高的预测准确性和稳定性。最终优化后结果如下图4-3所示 图4-3优化后结果
根据图4-2中罗平菜籽油销售数据的预测值和测试值的折线对比图可以得出以下结论
1模型预测值与实际测试值整体趋势一致说明经过优化的 SVM 模型能够较好地拟合销售数据的变化趋势。
2预测值与测试值之间的偏差较小表明该 SVM 模型在预测罗平菜籽油销售数据时具有较高的准确性和稳定性。
3随着时间的推移预测值与测试值之间的偏差保持在较小的范围内说明该模型对于未来销售数据的预测具有一定的可靠性和稳定性为销售预测和决策提供了可靠的参考依据。