东坑镇网站建设,北京有一个公司打电话做网站认证,百度首页纯净版怎么设置,外贸网站建设模式以下内容为结合李沐老师的课程和教材补充的学习笔记#xff0c;以及对课后练习的一些思考#xff0c;自留回顾#xff0c;也供同学之人交流参考。 
本节课程地址#xff1a;实战 Kaggle 比赛#xff1a;预测房价_哔哩哔哩_bilibili 
本节教材地址#xff1a;4.10. 实战Ka…以下内容为结合李沐老师的课程和教材补充的学习笔记以及对课后练习的一些思考自留回顾也供同学之人交流参考。 
本节课程地址实战 Kaggle 比赛预测房价_哔哩哔哩_bilibili 
本节教材地址4.10. 实战Kaggle比赛预测房价 — 动手学深度学习 2.0.0 documentation (d2l.ai) 
本节开源代码...d2l-zhpytorchchapter_multilayer-perceptronskaggle-house-price.ipynb 实战Kaggle比赛预测房价 
之前几节我们学习了一些训练深度网络的基本工具和网络正则化的技术如权重衰减、暂退法等。 本节我们将通过Kaggle比赛将所学知识付诸实践。 Kaggle的房价预测比赛是一个很好的起点。 此数据集由Bart de Cock于2011年收集 链接Ames, Iowa: Alternative to the Boston Housing Data as an End of Semester Regression Project: Journal of Statistics Education: Vol 19, No 3 (tandfonline.com) 涵盖了2006-2010年期间亚利桑那州埃姆斯市的房价。 这个数据集是相当通用的不会需要使用复杂模型架构。 它比哈里森和鲁宾菲尔德的波士顿房价 数据集要大得多也有更多的特征。 
本节我们将详细介绍数据预处理、模型设计和超参数选择。 通过亲身实践你将获得一手经验这些经验将有益数据科学家的职业成长。 
下载和缓存数据集 
在整本书中我们将下载不同的数据集并训练和测试模型。 这里我们(实现几个函数来方便下载数据)。 首先我们建立字典DATA_HUB 它可以将数据集名称的字符串映射到数据集相关的二元组上 这个二元组包含数据集的url和验证文件完整性的sha-1密钥。 所有类似的数据集都托管在地址为DATA_URL的站点上。 
import hashlib
import os
import tarfile
import zipfile
import requests#save
DATA_HUB  dict()
DATA_URL  http://d2l-data.s3-accelerate.amazonaws.com/ 
下面的download函数用来下载数据集 将数据集缓存在本地目录默认情况下为../data中 并返回下载文件的名称。 如果缓存目录中已经存在此数据集文件并且其sha-1与存储在DATA_HUB中的相匹配 我们将使用缓存的文件以避免重复的下载。 
def download(name, cache_diros.path.join(.., data)):  #save下载一个DATA_HUB中的文件返回本地文件名assert name in DATA_HUB, f{name} 不存在于 {DATA_HUB}url, sha1_hash  DATA_HUB[name]os.makedirs(cache_dir, exist_okTrue)fname  os.path.join(cache_dir, url.split(/)[-1])if os.path.exists(fname):sha1  hashlib.sha1()with open(fname, rb) as f:while True:data  f.read(1048576)if not data:breaksha1.update(data)if sha1.hexdigest()  sha1_hash:return fname  # 命中缓存print(f正在从{url}下载{fname}...)r  requests.get(url, streamTrue, verifyTrue)with open(fname, wb) as f:f.write(r.content)return fname 
我们还需实现两个实用函数 一个将下载并解压缩一个zip或tar文件 另一个是将本书中使用的所有数据集从DATA_HUB下载到缓存目录中。 
def download_extract(name, folderNone):  #save下载并解压zip/tar文件fname  download(name)base_dir  os.path.dirname(fname)data_dir, ext  os.path.splitext(fname)if ext  .zip:fp  zipfile.ZipFile(fname, r)elif ext in (.tar, .gz):fp  tarfile.open(fname, r)else:assert False, 只有zip/tar文件可以被解压缩fp.extractall(base_dir)return os.path.join(base_dir, folder) if folder else data_dirdef download_all():  #save下载DATA_HUB中的所有文件for name in DATA_HUB:download(name) 
Kaggle 
Kaggle是一个当今流行举办机器学习比赛的平台 每场比赛都以至少一个数据集为中心。 许多比赛有赞助方他们为获胜的解决方案提供奖金。 该平台帮助用户通过论坛和共享代码进行互动促进协作和竞争。 虽然排行榜的追逐往往令人失去理智 有些研究人员短视地专注于预处理步骤而不是考虑基础性问题。 但一个客观的平台有巨大的价值该平台促进了竞争方法之间的直接定量比较以及代码共享。 这便于每个人都可以学习哪些方法起作用哪些没有起作用。 如果我们想参加Kaggle比赛首先需要注册一个账户见 下图。 在房价预测比赛页面如 下图 所示的Data选项卡下可以找到数据集。我们可以通过下面的网址提交预测并查看排名 https://www.kaggle.com/c/house-prices-advanced-regression-techniques 访问和读取数据集 
注意竞赛数据分为训练集和测试集。 每条记录都包括房屋的属性值和属性如街道类型、施工年份、屋顶类型、地下室状况等。 这些特征由各种数据类型组成。 例如建筑年份由整数表示屋顶类型由离散类别表示其他特征由浮点数表示。 这就是现实让事情变得复杂的地方例如一些数据完全丢失了缺失值被简单地标记为“NA”。 每套房子的价格只出现在训练集中毕竟这是一场比赛。 我们将希望划分训练集以创建验证集但是在将预测结果上传到Kaggle之后 我们只能在官方测试集中评估我们的模型。 在 上图 中Data选项卡有下载数据的链接。 
开始之前我们将[使用pandas读入并处理数据] 这是我们在 2.2节 中引入的。 因此在继续操作之前我们需要确保已安装pandas。 幸运的是如果我们正在用Jupyter阅读该书可以在不离开笔记本的情况下安装pandas。 
# 如果没有安装pandas请取消下一行的注释
# !pip install pandas%matplotlib inline
import numpy as np
import pandas as pd
import torch
from torch import nn
from d2l import torch as d2l 
为方便起见我们可以使用上面定义的脚本下载并缓存Kaggle房屋数据集。 
DATA_HUB[kaggle_house_train]  (  #saveDATA_URL  kaggle_house_pred_train.csv,585e9cc93e70b39160e7921475f9bcd7d31219ce)DATA_HUB[kaggle_house_test]  (  #saveDATA_URL  kaggle_house_pred_test.csv,fa19780a7b011d9b009e8bff8e99922a8ee2eb90) 
我们使用pandas分别加载包含训练数据和测试数据的两个CSV文件。 
train_data  pd.read_csv(download(kaggle_house_train))
test_data  pd.read_csv(download(kaggle_house_test)) 
输出结果 
正在从http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_train.csv下载../data/kaggle_house_pred_train.csv... 正在从http://d2l-data.s3-accelerate.amazonaws.com/kaggle_house_pred_test.csv下载../data/kaggle_house_pred_test.csv... 
训练数据集包括1460个样本每个样本80个特征和1个标签 而测试数据集包含1459个样本每个样本80个特征。 
print(train_data.shape)
print(test_data.shape) 
输出结果 
(1460, 81) (1459, 80) 
让我们看看[前四个和最后两个特征以及相应标签]房价。 
print(train_data.iloc[0:4, [0, 1, 2, 3, -3, -2, -1]]) 
输出结果 
Id MSSubClass MSZoning LotFrontage SaleType SaleCondition SalePrice 0 1 60 RL 65.0 WD Normal 208500 1 2 20 RL 80.0 WD Normal 181500 2 3 60 RL 68.0 WD Normal 223500 3 4 70 RL 60.0 WD Abnorml 140000 
我们可以看到(在每个样本中第一个特征是ID) 这有助于模型识别每个训练样本。 虽然这很方便但它不携带任何用于预测的信息。 因此在将数据提供给模型之前(我们将其从数据集中删除)。 
# 删除train_data的第一列ID和最后一列房价删除test_data的第一列索引
all_features  pd.concat((train_data.iloc[:, 1:-1], test_data.iloc[:, 1:])) 
数据预处理 
如上所述我们有各种各样的数据类型。 在开始建模之前我们需要对数据进行预处理。 首先我们[将所有缺失的值替换为相应特征的平均值。]然后为了将所有特征放在一个共同的尺度上 我们(通过将特征重新缩放到零均值和单位方差来标准化数据) 其中  和  分别表示均值和标准差。 现在这些特征具有零均值和单位方差即  和  。 直观地说我们标准化数据有两个原因 首先它方便优化。 其次因为我们不知道哪些特征是相关的 所以我们不想让惩罚分配给一个特征的系数比分配给其他任何特征的系数更大。 
# 若无法获得测试数据则可根据训练数据计算均值和标准差
# all_features.dtypes 获取每个特征的数据类型
# all_features.dtypes ! object 返回一个布尔值的 Series其中为 True 的位置表示对应的特征不是对象类型即数值类型
# .index 提取数值类型特征的索引并在numeric_features中存储
numeric_features  all_features.dtypes[all_features.dtypes ! object].index
# 对all_features中所有数值类型特征进行标准化处理
all_features[numeric_features]  all_features[numeric_features].apply(lambda x: (x - x.mean()) / (x.std()))
# 在标准化数据之后所有均值消失因此我们可以将缺失值设置为0
all_features[numeric_features]  all_features[numeric_features].fillna(0) 
接下来我们[处理离散值。] 这包括诸如“MSZoning”之类的特征。 (我们用独热编码替换它们) 方法与前面将多类别标签转换为向量的方式相同 请参见3.4.1节。 例如“MSZoning”包含值“RL”和“Rm”。 我们将创建两个新的指示器特征“MSZoning_RL”和“MSZoning_RM”其值为0或1。 根据独热编码如果“MSZoning”的原始值为“RL” 则“MSZoning_RL”为1“MSZoning_RM”为0。 pandas软件包会自动为我们实现这一点。 
# “Dummy_naTrue”将“na”缺失值视为有效的特征值并为其创建指示符特征
# 未指定column时pd.get_dummies函数默认转换所有的分类列包括MSZoning、SaleType、SaleCondition
all_features  pd.get_dummies(all_features, dummy_naTrue)
all_features.shape 
输出结果 
(2919, 331) 
可以看到此转换会将特征的总数量从79个去掉ID增加到331个。 最后通过values属性我们可以 [从pandas格式中提取NumPy格式并将其转换为张量表示]用于训练。 
n_train  train_data.shape[0]
train_features  torch.tensor(all_features[:n_train].values, dtypetorch.float32)
test_features  torch.tensor(all_features[n_train:].values, dtypetorch.float32)
# 将SalePrice列单独提取为标签
train_labels  torch.tensor(train_data.SalePrice.values.reshape(-1, 1), dtypetorch.float32) 
[训练] 
首先我们训练一个带有损失平方的线性模型。 显然线性模型很难让我们在竞赛中获胜但线性模型提供了一种健全性检查 以查看数据中是否存在有意义的信息。 如果我们在这里不能做得比随机猜测更好那么我们很可能存在数据处理错误。 如果一切顺利线性模型将作为基线baseline模型 让我们直观地知道最好的模型有超出简单的模型多少。 
loss  nn.MSELoss()
in_features  train_features.shape[1]def get_net():net  nn.Sequential(nn.Linear(in_features,1))return net 
房价就像股票价格一样我们关心的是相对数量而不是绝对数量。 因此[我们更关心相对误差  ] 而不是绝对误差 。 例如如果我们在俄亥俄州农村地区估计一栋房子的价格时 假设我们的预测偏差了10万美元 然而那里一栋典型的房子的价值是12.5万美元 那么模型可能做得很糟糕。 另一方面如果我们在加州豪宅区的预测出现同样的10万美元的偏差 在那里房价中位数超过400万美元 这可能是一个不错的预测。 
(解决这个问题的一种方法是用价格预测的对数来衡量差异)。 事实上这也是比赛中官方用来评价提交质量的误差指标。 即将  转换为  。 这使得预测价格的对数与真实标签价格的对数之间出现以下均方根误差 
. 
# rmseRoot Mean Squared Error对数均方根误差
def log_rmse(net, features, labels):# 为了在取对数时进一步稳定该值用torch.clamp()函数将小于1的值设置为1clipped_preds  torch.clamp(net(features), 1, float(inf))rmse  torch.sqrt(loss(torch.log(clipped_preds),torch.log(labels)))# .item() 方法将rmse转换为Python标量返回return rmse.item() 
与前面的部分不同[我们的训练函数将借助Adam优化器] 我们将在后面章节更详细地描述它。 Adam优化器的主要吸引力在于它对初始学习率不那么敏感。 
def train(net, train_features, train_labels, test_features, test_labels,num_epochs, learning_rate, weight_decay, batch_size):train_ls, test_ls  [], []train_iter  d2l.load_array((train_features, train_labels), batch_size)# 这里使用的是Adam优化算法optimizer  torch.optim.Adam(net.parameters(),lr  learning_rate,weight_decay  weight_decay)for epoch in range(num_epochs):for X, y in train_iter:optimizer.zero_grad()l  loss(net(X), y)l.backward()optimizer.step()train_ls.append(log_rmse(net, train_features, train_labels))if test_labels is not None:test_ls.append(log_rmse(net, test_features, test_labels))return train_ls, test_ls 
折交叉验证 
本书在讨论模型选择的部分 4.4节  中介绍了[K折交叉验证] 它有助于模型选择和超参数调整。 我们首先需要定义一个函数在  折交叉验证过程中返回第  折的数据。 具体地说它选择第  个切片作为验证数据其余部分作为训练数据。 注意这并不是处理数据的最有效方法如果我们的数据集大得多会有其他解决办法。 
def get_k_fold_data(k, i, X, y):assert k  1fold_size  X.shape[0] // kX_train, y_train  None, Nonefor j in range(k):# idx将原始数据集的索引切片为 (j * fold_size) 到 ((j  1) * fold_size)获得当前折数据idx  slice(j * fold_size, (j  1) * fold_size)X_part, y_part  X[idx, :], y[idx]# 当前折的索引 j 与指定用于验证的索引 i 匹配将该折的数据分配给验证集X_valid 和 y_validif j  i:X_valid, y_valid  X_part, y_part# 如不匹配且训练集为空则将该折的数据分配给训练集X_train 和 y_trainelif X_train is None:X_train, y_train  X_part, y_part# 如不匹配且训练集不为空则将该折的数据追加到训练集X_train 和 y_train中else:X_train  torch.cat([X_train, X_part], 0)y_train  torch.cat([y_train, y_part], 0)return X_train, y_train, X_valid, y_valid 
当我们在折交叉验证中训练次后[返回训练和验证误差的平均值]。 
def k_fold(k, X_train, y_train, num_epochs, learning_rate, weight_decay,batch_size):train_l_sum, valid_l_sum  0, 0for i in range(k):data  get_k_fold_data(k, i, X_train, y_train)net  get_net()train_ls, valid_ls  train(net, *data, num_epochs, learning_rate,weight_decay, batch_size)# 索引[-1]获取最后一个epoch的损失train_l_sum  train_ls[-1]valid_l_sum  valid_ls[-1]if i  0:d2l.plot(list(range(1, num_epochs  1)), [train_ls, valid_ls],xlabelepoch, ylabelrmse, xlim[1, num_epochs],legend[train, valid], yscalelog)print(f折{i  1}训练log rmse{float(train_ls[-1]):f}, f验证log rmse{float(valid_ls[-1]):f})return train_l_sum / k, valid_l_sum / k 
[模型选择] 
在本例中我们选择了一组未调优的超参数并将其留给读者来改进模型。 找到一组调优的超参数可能需要时间这取决于一个人优化了多少变量。 有了足够大的数据集和合理设置的超参数$K$折交叉验证往往对多次测试具有相当的稳定性。 然而如果我们尝试了不合理的超参数我们可能会发现验证效果不再代表真正的误差。 
k, num_epochs, lr, weight_decay, batch_size  5, 100, 5, 0, 64
train_l, valid_l  k_fold(k, train_features, train_labels, num_epochs, lr,weight_decay, batch_size)
print(f{k}-折验证: 平均训练log rmse: {float(train_l):f}, f平均验证log rmse: {float(valid_l):f}) 
输出结果 
折1训练log rmse0.170504, 验证log rmse0.157253 折2训练log rmse0.162439, 验证log rmse0.190316 折3训练log rmse0.163755, 验证log rmse0.168293 折4训练log rmse0.167951, 验证log rmse0.154497 折5训练log rmse0.163372, 验证log rmse0.182880 5-折验证: 平均训练log rmse: 0.165604, 平均验证log rmse: 0.170648 请注意有时一组超参数的训练误差可能非常低但  折交叉验证的误差要高得多 这表明模型过拟合了。 在整个训练过程中我们希望监控训练误差和验证误差这两个数字。 较少的过拟合可能表明现有数据可以支撑一个更强大的模型 较大的过拟合可能意味着我们可以通过正则化技术来获益。 
[提交Kaggle预测] 
既然我们知道应该选择什么样的超参数 我们不妨使用所有数据对其进行训练 而不是仅使用交叉验证中使用的 1−1/ 的数据。 然后我们通过这种方式获得的模型可以应用于测试集。 将预测保存在CSV文件中可以简化将结果上传到Kaggle的过程。 
def train_and_pred(train_features, test_features, train_labels, test_data,num_epochs, lr, weight_decay, batch_size):net  get_net()train_ls, _  train(net, train_features, train_labels, None, None,num_epochs, lr, weight_decay, batch_size)d2l.plot(np.arange(1, num_epochs  1), [train_ls], xlabelepoch,ylabellog rmse, xlim[1, num_epochs], yscalelog)print(f训练log rmse{float(train_ls[-1]):f})# 将网络应用于测试集。preds  net(test_features).detach().numpy()# 将其重新格式化以导出到Kaggletest_data[SalePrice]  pd.Series(preds.reshape(1, -1)[0])submission  pd.concat([test_data[Id], test_data[SalePrice]], axis1)submission.to_csv(submission.csv, indexFalse) 
如果测试集上的预测与  倍交叉验证过程中的预测相似 那就是时候把它们上传到Kaggle了。 下面的代码将生成一个名为submission.csv的文件。 
train_and_pred(train_features, test_features, train_labels, test_data,num_epochs, lr, weight_decay, batch_size) 
输出结果 
训练log rmse0.162479 接下来如下图中所示 我们可以提交预测到Kaggle上并查看在测试集上的预测与实际房价标签的比较情况。 步骤非常简单。 
登录Kaggle网站访问房价预测竞赛页面。点击“Submit Predictions”按钮在撰写本文时该按钮位于右上侧。点击页面底部虚线框中的“Upload Submission File”按钮选择要上传的预测文件。点击页面底部的“Submission”按钮即可查看结果。 小结 
真实数据通常混合了不同的数据类型需要进行预处理。常用的预处理方法将实值数据重新缩放为零均值和单位方法用均值替换缺失值。将类别特征转化为指标特征可以使我们把这个特征当作一个独热向量来对待。我们可以使用  折交叉验证来选择模型并调整超参数。对数对于相对误差很有用。 独热向量One-Hot Vector 
是指在机器学习和深度学习中用来表示分类数据的一种编码方式。它将每个类别映射为一个向量其中该类别对应的元素为1而其他元素为0。这种表示方式的优势在于能够清晰地表示类别之间的关系而且在一些机器学习算法中常常是必需的。 练习 
1. 把预测提交给Kaggle它有多好 
解 
按教材中的代码提交后Kaggle评估显示log rmse0.16715排名3199。 
2. 能通过直接最小化价格的对数来改进模型吗如果试图预测价格的对数而不是价格会发生什么 
解 
直接最小化价格的对数也即将预测价格改为预测价格的对数等价于将目标函数改为对数MSE。由以下结果可见模型并未改进代码如下 
def train_4_10_2(net, train_features, train_labels, test_features, test_labels,num_epochs, learning_rate, weight_decay, batch_size):train_ls, test_ls  [], []train_iter  d2l.load_array((train_features, train_labels), batch_size)optimizer  torch.optim.Adam(net.parameters(),lr  learning_rate,weight_decay  weight_decay)for epoch in range(num_epochs):for X, y in train_iter:optimizer.zero_grad()clipped_preds  torch.clamp(net(X), 1, float(inf))# 最小化价格的对数l  loss(torch.log(clipped_preds),torch.log(y))l.backward()optimizer.step()train_ls.append(log_rmse(net, train_features, train_labels))if test_labels is not None:test_ls.append(log_rmse(net, test_features, test_labels))return train_ls, test_ls
def k_fold_4_10_2(k, X_train, y_train, num_epochs, learning_rate, weight_decay,batch_size):train_l_sum, valid_l_sum  0, 0for i in range(k):data  get_k_fold_data(k, i, X_train, y_train)net  get_net()train_ls, valid_ls  train_4_10_2(net, *data, num_epochs, learning_rate,weight_decay, batch_size)train_l_sum  train_ls[-1]valid_l_sum  valid_ls[-1]if i  0:d2l.plot(list(range(1, num_epochs  1)), [train_ls, valid_ls],xlabelepoch, ylabelrmse, xlim[1, num_epochs],legend[train, valid], yscalelog)print(f折{i  1}训练log rmse{float(train_ls[-1]):f}, f验证log rmse{float(valid_ls[-1]):f})return train_l_sum / k, valid_l_sum / k
k, num_epochs, lr, weight_decay, batch_size  5, 100, 5, 0, 64
train_l, valid_l  k_fold_4_10_2(k, train_features, train_labels, num_epochs, lr,weight_decay, batch_size)
print(f{k}-折验证: 平均训练log rmse: {float(train_l):f}, f平均验证log rmse: {float(valid_l):f}) 
输出结果 
折1训练log rmse12.028136, 验证log rmse12.040852折2训练log rmse12.029689, 验证log rmse12.034639折3训练log rmse2.386501, 验证log rmse2.405506折4训练log rmse2.169989, 验证log rmse2.130894折5训练log rmse2.368424, 验证log rmse2.3817065-折验证: 平均训练log rmse: 6.196548, 平均验证log rmse: 6.198719 3. 用平均值替换缺失值总是好主意吗提示能构造一个不随机丢失值的情况吗 
解 
用平均值替换缺失值并不总是一个好主意因为这可能会导致数据失真或者模型表现下降。替代缺失值的方法应该根据数据的特点和缺失值产生的原因来选择。 
比如一个数据集中的某个属性代表的是某种物质的浓度这种物质在某个特定温度下会分解因此在这个温度下所有样本的该属性值都是缺失的。在这种情况下如果直接用平均值替换缺失值则可能会导致数据严重失真。 
4. 通过  折交叉验证调整超参数从而提高Kaggle的得分。 
解 
尝试后获得的最优超参数如下Kaggle评估显示log rmse0.14735排名上升到2204。 
k, num_epochs, lr, weight_decay, batch_size  5, 100, 10, 0, 32
train_l, valid_l  k_fold(k, train_features, train_labels, num_epochs, lr,weight_decay, batch_size)
print(f{k}-折验证: 平均训练log rmse: {float(train_l):f}, f平均验证log rmse: {float(valid_l):f}) 
输出结果 
折1训练log rmse0.132736, 验证log rmse0.143478折2训练log rmse0.129818, 验证log rmse0.146386折3训练log rmse0.128411, 验证log rmse0.142692折4训练log rmse0.134006, 验证log rmse0.137395折5训练log rmse0.126637, 验证log rmse0.1667875-折验证: 平均训练log rmse: 0.130322, 平均验证log rmse: 0.147348 train_and_pred(train_features, test_features, train_labels, test_data,num_epochs, lr, weight_decay, batch_size) 
输出结果 
训练log rmse0.128169 5. 通过改进模型例如层、权重衰减和dropout来提高分数。 
解 
改进模型后代码如下Kaggle评估显示log rmse0.11959排名上升到145(Ps调了好久参数dropout效果不好)。 
def init_weights(m):if type(m)  nn.Linear:nn.init.normal_(m.weight, std0.01)def get_net_4_6_5():net  nn.Sequential(nn.Flatten(),nn.Linear(in_features,512),nn.ReLU(),nn.Linear(512, 1))net.apply(init_weights)return net
def k_fold_4_6_5(k, X_train, y_train, num_epochs, learning_rate, weight_decay,batch_size):train_l_sum, valid_l_sum  0, 0for i in range(k):data  get_k_fold_data(k, i, X_train, y_train)net  get_net_4_6_5()train_ls, valid_ls  train(net, *data, num_epochs, learning_rate,weight_decay, batch_size)train_l_sum  train_ls[-1]valid_l_sum  valid_ls[-1]if i  0:d2l.plot(list(range(1, num_epochs  1)), [train_ls, valid_ls],xlabelepoch, ylabelrmse, xlim[1, num_epochs],legend[train, valid], yscalelog)print(f折{i  1}训练log rmse{float(train_ls[-1]):f}, f验证log rmse{float(valid_ls[-1]):f})return train_l_sum / k, valid_l_sum / k
k, num_epochs, lr, weight_decay, batch_size  5, 100, 0.01, 300, 32
train_l, valid_l  k_fold_4_6_5(k, train_features, train_labels, num_epochs, lr,weight_decay, batch_size)
print(f{k}-折验证: 平均训练log rmse: {float(train_l):f}, f平均验证log rmse: {float(valid_l):f}) 
输出结果 
折1训练log rmse0.110022, 验证log rmse0.125379折2训练log rmse0.102276, 验证log rmse0.142099折3训练log rmse0.107157, 验证log rmse0.134367折4训练log rmse0.110210, 验证log rmse0.112558折5训练log rmse0.103599, 验证log rmse0.1496005-折验证: 平均训练log rmse: 0.106653, 平均验证log rmse: 0.132800 def train_and_pred_4_6_5(train_features, test_features, train_labels, test_data,num_epochs, lr, weight_decay, batch_size):net  get_net_4_6_5()train_ls, _  train(net, train_features, train_labels, None, None,num_epochs, lr, weight_decay, batch_size)d2l.plot(np.arange(1, num_epochs  1), [train_ls], xlabelepoch,ylabellog rmse, xlim[1, num_epochs], yscalelog)print(f训练log rmse{float(train_ls[-1]):f})# 将网络应用于测试集。preds  net(test_features).detach().numpy()# 将其重新格式化以导出到Kaggletest_data[SalePrice]  pd.Series(preds.reshape(1, -1)[0])submission  pd.concat([test_data[Id], test_data[SalePrice]], axis1)submission.to_csv(submission.csv, indexFalse)
train_and_pred_4_6_5(train_features, test_features, train_labels, test_data,num_epochs, lr, weight_decay, batch_size) 
训练结果 
训练log rmse0.109655 6. 如果我们没有像本节所做的那样标准化连续的数值特征会发生什么 
解 
可能导致模型训练不稳定、性能下降、泛化能力差未标准化的特征可能具有不同的尺度这可能导致某些特征在模型训练过程中权重过大或过小使得模型的收敛速度变慢甚至无法收敛标准化可以使得以确保所有特征对模型的影响是均衡的从而提高算法的性能、收敛速度以及泛化能力。 
可能导致数值问题如果数据的特征值范围非常广泛可能会导致数值溢出或者精度问题。标准化可以减少这些问题的发生确保计算的稳定性和准确性。 
可能导致特征重要性误判未标准化的特征可能会导致对特征重要性的误判。模型可能会错误地认为某些特征对目标变量的影响更大而实际上这只是因为该特征的值范围较大而已。 文章转载自: http://www.morning.hxcrd.cn.gov.cn.hxcrd.cn http://www.morning.nsppc.cn.gov.cn.nsppc.cn http://www.morning.nlryq.cn.gov.cn.nlryq.cn http://www.morning.ksjmt.cn.gov.cn.ksjmt.cn http://www.morning.qlry.cn.gov.cn.qlry.cn http://www.morning.hwzzq.cn.gov.cn.hwzzq.cn http://www.morning.tdxlj.cn.gov.cn.tdxlj.cn http://www.morning.xrnh.cn.gov.cn.xrnh.cn http://www.morning.mqxrx.cn.gov.cn.mqxrx.cn http://www.morning.ckfqt.cn.gov.cn.ckfqt.cn http://www.morning.slnz.cn.gov.cn.slnz.cn http://www.morning.qqhmg.cn.gov.cn.qqhmg.cn http://www.morning.kydrb.cn.gov.cn.kydrb.cn http://www.morning.dybth.cn.gov.cn.dybth.cn http://www.morning.qxlgt.cn.gov.cn.qxlgt.cn http://www.morning.mdgpp.cn.gov.cn.mdgpp.cn http://www.morning.ltzkk.cn.gov.cn.ltzkk.cn http://www.morning.bchgl.cn.gov.cn.bchgl.cn http://www.morning.gcszn.cn.gov.cn.gcszn.cn http://www.morning.duqianw.com.gov.cn.duqianw.com http://www.morning.jpwmk.cn.gov.cn.jpwmk.cn http://www.morning.qgzmz.cn.gov.cn.qgzmz.cn http://www.morning.zwtp.cn.gov.cn.zwtp.cn http://www.morning.jlktz.cn.gov.cn.jlktz.cn http://www.morning.cbpmq.cn.gov.cn.cbpmq.cn http://www.morning.bpmnj.cn.gov.cn.bpmnj.cn http://www.morning.pqjlp.cn.gov.cn.pqjlp.cn http://www.morning.dbrnl.cn.gov.cn.dbrnl.cn http://www.morning.wtlyr.cn.gov.cn.wtlyr.cn http://www.morning.ypjjh.cn.gov.cn.ypjjh.cn http://www.morning.splkk.cn.gov.cn.splkk.cn http://www.morning.ctpfq.cn.gov.cn.ctpfq.cn http://www.morning.zypnt.cn.gov.cn.zypnt.cn http://www.morning.trrhj.cn.gov.cn.trrhj.cn http://www.morning.wplbs.cn.gov.cn.wplbs.cn http://www.morning.dongyinet.cn.gov.cn.dongyinet.cn http://www.morning.wqfrd.cn.gov.cn.wqfrd.cn http://www.morning.byjwl.cn.gov.cn.byjwl.cn http://www.morning.feites.com.gov.cn.feites.com http://www.morning.lywcd.cn.gov.cn.lywcd.cn http://www.morning.qynnw.cn.gov.cn.qynnw.cn http://www.morning.fjzlh.cn.gov.cn.fjzlh.cn http://www.morning.zzfqn.cn.gov.cn.zzfqn.cn http://www.morning.rtsx.cn.gov.cn.rtsx.cn http://www.morning.sffwz.cn.gov.cn.sffwz.cn http://www.morning.byshd.cn.gov.cn.byshd.cn http://www.morning.kpxzq.cn.gov.cn.kpxzq.cn http://www.morning.rcqyk.cn.gov.cn.rcqyk.cn http://www.morning.cfrz.cn.gov.cn.cfrz.cn http://www.morning.xflwq.cn.gov.cn.xflwq.cn http://www.morning.mdgb.cn.gov.cn.mdgb.cn http://www.morning.gnfkl.cn.gov.cn.gnfkl.cn http://www.morning.yixingshengya.com.gov.cn.yixingshengya.com http://www.morning.zxxys.cn.gov.cn.zxxys.cn http://www.morning.rshkh.cn.gov.cn.rshkh.cn http://www.morning.slqzb.cn.gov.cn.slqzb.cn http://www.morning.bloao.com.gov.cn.bloao.com http://www.morning.nqwkn.cn.gov.cn.nqwkn.cn http://www.morning.txtzr.cn.gov.cn.txtzr.cn http://www.morning.qnpyz.cn.gov.cn.qnpyz.cn http://www.morning.gpsrk.cn.gov.cn.gpsrk.cn http://www.morning.djmdk.cn.gov.cn.djmdk.cn http://www.morning.mwlxk.cn.gov.cn.mwlxk.cn http://www.morning.zglrl.cn.gov.cn.zglrl.cn http://www.morning.smry.cn.gov.cn.smry.cn http://www.morning.mpxbl.cn.gov.cn.mpxbl.cn http://www.morning.bwzzt.cn.gov.cn.bwzzt.cn http://www.morning.rsszk.cn.gov.cn.rsszk.cn http://www.morning.amonr.com.gov.cn.amonr.com http://www.morning.gccrn.cn.gov.cn.gccrn.cn http://www.morning.gsdbg.cn.gov.cn.gsdbg.cn http://www.morning.nxrgl.cn.gov.cn.nxrgl.cn http://www.morning.rwtlj.cn.gov.cn.rwtlj.cn http://www.morning.jrrqs.cn.gov.cn.jrrqs.cn http://www.morning.lzttq.cn.gov.cn.lzttq.cn http://www.morning.hdscx.cn.gov.cn.hdscx.cn http://www.morning.jqbmj.cn.gov.cn.jqbmj.cn http://www.morning.hrpmt.cn.gov.cn.hrpmt.cn http://www.morning.mywmb.cn.gov.cn.mywmb.cn http://www.morning.trzmb.cn.gov.cn.trzmb.cn