沧州wap网站制作,长春网站建设平台,阿里云网站备案拍照点,网站备案期间临时网页文章目录 week33 AirFormer摘要Abstract一、论文的前置知识1. 多头注意力机制#xff08;MSA#xff09;2. 具有潜变量的变分模型 二、文献阅读1. 题目2. abstract3. 问题与模型阐述3.1 问题定义3.2 模型概述3.3 跨空间MSA#xff08;DS-MSA#xff09;3.4 时间相关MSAMSA2. 具有潜变量的变分模型 二、文献阅读1. 题目2. abstract3. 问题与模型阐述3.1 问题定义3.2 模型概述3.3 跨空间MSADS-MSA3.4 时间相关MSACT-MSA3.5 自上而下的随机阶段3.6 预测以及优化 4. 文献解读4.1 Introduction4.2 创新点4.3 实验过程1. 数据集2. 比较的基线模型3. 消融实验 4.4 结论 三、GAN1. 任务要求2. 实验结果3.实验代码3.1数据准备3.2 模型构建3.3 展示函数3.4 训练过程 小结参考文献 week33 AirFormer
摘要
本文主要讨论基于Transformer的空气质量预测。首先本文简要介绍了多头注意力机制MSA、 具有潜变量的变分模型。其次本文展示了题为AirFormer: Predicting Nationwide Air Quality in China with Transformers的论文主要内容。该文提出了一种名为 AirFormer 的新型 Transformer 架构用于集体预测中国全国范围内的空气质量并以前所未有的精细空间粒度覆盖数千个地点。该实验实现GAN网络并使用MNIST数据库训练GANGAN绘制手写数字图片。
Abstract
This article focuses on Transformer-based air quality prediction. First, this paper briefly introduces the multi-head attention mechanism (MSA) and the variational model with latent variables. Secondly, this paper presents the main content of the paper entitled AirFormer: Predicting Nationwide Air Quality in China with Transformers. This paper proposes a novel Transformer architecture called AirFormer for collectively predicting air quality across China and covering thousands of locations with unprecedented spatial granularity. This experiment implements the GAN construct, trains the GAN using the MNIST database, and uses the GAN to draw handwritten digital pictures.
一、论文的前置知识
1. 多头注意力机制MSA
MSA 是 Transformer 学习对齐的关键操作其中序列中的每个令牌学习从其他令牌收集消息。设 X ∈ R S × C X ∈ R^{S×C} X∈RS×C 为长度为 N、特征维度为 C 的输入序列。单头的操作定义为 X h Softmax ( α Q h K h T ) V h (2) X_h\text{Softmax}(\alpha Q_hK_h^T)V_h \tag{2} XhSoftmax(αQhKhT)Vh(2) 其中 X h ∈ R S × C / N h X_h\in R^{S\times C/N_h} Xh∈RS×C/Nh为输出特征 Q h X W q , K h X W k , V h X W v Q_hXW_q,K_hXW_k,V_hXW_v QhXWq,KhXWk,VhXWv为query、key、value W q , W k , W v ∈ R C × C / N h W_q,W_k,W_v\in R^{C\times C/N_h} Wq,Wk,Wv∈RC×C/Nh为线性映射的可学习参数 N h N_h Nh是头的数量 α \alpha α是比例因子。方程的计算复杂度式 (2) 与序列长度 S 成二次方。
2. 具有潜变量的变分模型
变分自动编码器VAE早已被证明是恢复潜在空间上复杂多模态分布的有效建模范例。 VAE 使用未观察到的潜在变量 z 来解决数据分布 p(x) 的问题并由 θ 参数化为 p θ ( x ) ∫ p θ ( x ∣ z ) p θ ( z ) d z (3) p_\theta(x)\int p_{\theta}(x|z)p_\theta (z)dz \tag{3} pθ(x)∫pθ(x∣z)pθ(z)dz(3) 由于积分通常很棘手VAE 引入了近似后验 q φ ( z ∣ x ) q_φ(z|x) qφ(z∣x) 并隐式优化边际对数似然的证据下界 (ELBO) l o g p θ ( x ) ≥ − K L ( q φ ( z ∣ x ) E p θ ( z ) ) E q φ ( z ∣ x ) [ l o g p θ ( x ∣ z ) ] log pθ(x) ≥ −KL (q_φ(z|x) E_{p_θ}(z))E_{q_φ}(z|x) [log pθ(x|z)] logpθ(x)≥−KL(qφ(z∣x)Epθ(z))Eqφ(z∣x)[logpθ(x∣z)] 其中 KL 表示 KL 散度。潜变量的先验 p θ ( z ) p_θ(z) pθ(z) 和后验 q φ ( z ∣ x ) q_φ(z|x) qφ(z∣x) 通常被视为具有对角协方差的高斯分布它本质上编码了输入数据的不确定性。
二、文献阅读
1. 题目
题目AirFormer: Predicting Nationwide Air Quality in China with Transformers
作者Yuxuan Liang, Yutong Xia, Songyu Ke, Yiwei Wang, Qingsong Wen, Junbo Zhang, Yu Zheng, Roger Zimmermann
链接https://arxiv.org/abs/2211.15979
发布AAAI 2022
代码位置https://github.com/yoshall/airformer.
2. abstract
该文提出了一种名为 AirFormer 的新型 Transformer 架构用于集体预测中国全国范围内的空气质量并以前所未有的精细空间粒度覆盖数千个地点。 AirFormer 将学习过程解耦为两个阶段
1自下而上的确定性阶段包含两种新型的自注意力机制可有效学习时空表示
2具有潜在变量的自上而下的随机阶段用于捕获空气质量数据的内在不确定性。
该文利用中国大陆 1,085 个站点的 4 年数据对 AirFormer 进行评估。与最先进的模型相比AirFormer 在 72 小时的未来预测中将预测误差降低了 5%∼8%。
This paper presents a novel Transformer architecture termed AirFormer to collectively predict nationwide air quality in China, with an unprecedented fine spatial granularity covering thousands of locations. AirFormer decouples the learning process into two stages a bottom-up deterministic stage that contains two new types of self-attention mechanisms to efficiently learn spatio-temporal representations; a top-down stochastic stage with latent variables to capture the intrinsic uncertainty of air quality data.
This paper evaluates AirFormer with 4-year data from 1,085 stations in the Chinese Mainland. Compared to the state-of-the-art model, AirFormer reduces prediction errors by 5%∼8% on 72-hour future predictions.
3. 问题与模型阐述
3.1 问题定义
N 个空气质量监测站在给定时间 t 的读数可表示为 X t ∈ R N × D X_t ∈ R^N×D Xt∈RN×D其中 D 为测量次数包括空气污染物如 PM2.5、NO2和外部因素如天气 风速。每个条目 x i j x_{ij} xij 表示第 i 个站点的第 j 个测量值。给定过去 T 个时间步中所有站点的历史读数目标是学习一个函数 F(·) 来预测接下来 τ τ τ 个步中的 D’ 种测量值 X 1 : T ⟶ F ( ⋅ ) Y 1 : τ (1) X_{1:T}\stackrel{\mathcal F(\cdot)}{\longrightarrow}Y_{1:\tau} \tag{1} X1:T⟶F(⋅)Y1:τ(1) 其中 X 1 : T ∈ R T × N × D X_{1:T}\in R^{T\times N\times D} X1:T∈RT×N×D为历史数据 Y 1 : τ ∈ R τ × N × D ′ Y_{1:\tau}\in R^{\tau\times N\times D} Y1:τ∈Rτ×N×D′为未来预测
3.2 模型概述 上图显示了AirFormer全国空气质量预测的框架该框架被解耦为两个阶段 自下而上的确定性阶段首先使用多层感知器MLP将历史读数 X 1 : T X_{1:T} X1:T 转换到特征空间。然后将转换后的特征输入 L AirFormer 模块以学习确定性时空表示。在每个块中沿着时间和空间域分解时空建模从而产生 MSA 的双重级别 DS-MSA 用于学习具有线性复杂性的空间交互CT-MSA 用于捕获每个位置的时间依赖性。 如上图(a)所示第 l 个块的输出状态是一个 3D 张量表示为 H 1 : T l ∈ R T × N × C H^l_{1:T} ∈ R^{T×N×C} H1:Tl∈RT×N×C。 自上而下的随机阶段一旦获得确定性表示则在每个级别产生潜在变量 Z。为了保持 Transformer 的并行性坚持不在不同时间步之间建立显式依赖关系。相反通过将潜在变量 Z t l − 1 Z^{l−1}_t Ztl−1 调节到其高级变量 Z t l Z^l_t Ztl 来隐式构建时间依赖性如上图 (b) 所示其中 Z t i ∈ R N × C Z^i_t ∈ R^{N×C} Zti∈RN×C 且 i {1,… 。 。 L}。这样较低层的潜在变量更关注局部信息而较高层的潜在变量由于其相应的确定性输入而具有更大的感受野。在我们的模型中生成任务是使用先验 p θ ( Z t l ∣ X 1 : t − 1 ) p_θ(Z^l _t|X_{1:t−1}) pθ(Ztl∣X1:t−1) 在给定所有过去步骤的情况下预测下一个时间步骤推理任务是近似后验 $q_φ(Z^l_t|X_{1:t}) $ .由于 AirFormer 属于 VAE 家族我们通过联合优化预测损失和 ELBO 来训练我们的模型。
3.3 跨空间MSADS-MSA
整体设计 一个地方的空气质量除了当地的排放外还会收到相邻地方的影响。提出了DS-MSA去捕获同一时间某地方与其他区域的联系。DS-MSA有更大的感受野但是却只有线性的计算复杂度。DS-MSA以上一个block得到的隐变量H作为输入首先对其进行LayerNorm将其经过Linear层生成该站点的query矩阵并将周围环境投影到Dartboard中得到key和value以该方法减少计算复杂度。最后执行MSA学习空间依赖性利用MLP输出结果H1。
详细设计 对于每个站点都会有一个相应的映射矩阵AM*N其中M表示区域数量N表示站点总个数。A矩阵中的值a[i,j]表示第j个站点属于i区域的可能性A矩阵中一行值的和0类似AVG 对于每个站点区域的划分是以当前站点为中心的同心圆如下面例子中一共有3*8125个区域251000极大地降低计算复杂度 假设进入dartboard映射的输入是P矩阵NC通过A矩阵可以得到每个站点的区域表示R[i] A[i]PMC最终的区域表示是R [R1,R2,R3…Rn]NM*CN个站点的区域表示concat得到。 之后使用得到的query和根据R经过linear得到的key和value进入MSA捕获空间关联。 X h softmax ( α Q h K h T B h ) V h (5) X_h\text{softmax}(\alpha Q_hK_h^TB_h)V_h \tag{5} Xhsoftmax(αQhKhTBh)Vh(5) B是一个可学习的相对位置编码用于增加位置信息。我们可以引入风俗风向等外部信息作为辅助。
DS-MSA模块考虑了空气污染分散的领域知识由于将区域的个数从N个站点降低到M个region计算复杂度降低使用dartboard映射不会再MSA中引入额外的可学习变量固模型是轻量级的。 3.4 时间相关MSACT-MSA 整体设计 一个地方的空气变化不但会受到周围地区的影响还会受到之前空气排量的影响。如果直接使用MSA学习时间依赖会产生平方级的成本因此使用CT-MSA代替标准MSA
详细设计
鉴于时间越接近当前时间相关性越强因此作者使用非重叠的窗口在窗口内执行MSA捕获时间步长之间的局部交互作用。为了尽量不丧失MSA的感受野作者从上到下逐渐增加了窗口的大小。 时间因果关系由于当前时间的空气质量不以其未来为条件所以遵循WaveNet在MSA中引入因果关系确保模型不会违反输入数据的时间顺序。这种顺序关系可以在mask attention map中的区域实现。 为了在MSA中实现位置敏感性在CT-MSA的输入中增加了绝对位置编码。
3.5 自上而下的随机阶段 整体设计
获得确定性表示后构建潜在随机变量来了解空气质量数据的不确定性例如不可预测的因素和噪声观测。
详细设计 生成阶段generation在过去所有的步骤中预测下一步 在编码确定性状态 H t H_t Ht中的位置之间的空间依赖性之后可以将一组随机变量的先验分布 Z t { Z t l , … , Z t L } \mathcal Z_t\{Z_t^l,\dots,Z_t^L\} Zt{Ztl,…,ZtL}分解为 p θ ( Z t ∣ X 1 : t − 1 ) ∏ n 1 N p θ ( { z t , n 1 , … , z t , n L } ∣ X 1 : t − 1 ) ∏ n 1 N p θ ( z t , n L ∣ h t − 1 , n L ) ∏ l 1 L − 1 p θ ( z t , n l ∣ z t , n l 1 , h t − 1 , n l ) (6) p_\theta(\mathcal Z_t|X_{1:t-1})\prod_{n1}^N p_\theta(\{z_{t,n}^1,\dots,z_{t,n}^L\}|X_{1:t-1})\\ \prod_{n1}^N p_\theta(z_{t,n}^L|h_{t-1,n}^L)\prod_{l1}^{L-1}p_\theta(z_{t,n}^l|z_{t,n}^{l1},h_{t-1,n}^l) \tag{6} pθ(Zt∣X1:t−1)n1∏Npθ({zt,n1,…,zt,nL}∣X1:t−1)n1∏Npθ(zt,nL∣ht−1,nL)l1∏L−1pθ(zt,nl∣zt,nl1,ht−1,nl)(6) 其中 z t , n l ε R C h t , n l ε R C z^l_{t,n} ε R^C \ h^l_{t,n} ε R^C zt,nlεRCht,nlεRC 分别是 Z t l Z^l_t Ztl 和 H t l H^l_t Htl 的第 n 行。在6式中按照VAE将每一层的先验分布设置为高斯分布如下 p θ ( z t , n l 1 , h t − 1 , n l ) N ( μ t l , σ t l ) (7) p_\theta(z_{t,n}^{l1},h_{t-1,n}^l)\mathcal N(\mu_t^l,\sigma_t^l) \tag{7} pθ(zt,nl1,ht−1,nl)N(μtl,σtl)(7) 其中均值 µ t l µ^l_t µtl 和对角协方差 σ t l σ^l_t σtl 由所有位置共享的神经网络 f l ( z t , n l 1 , h t − 1 , n l ) f^l(z^{l1}_{t,n}, h^l _{t−1,n}) fl(zt,nl1,ht−1,nl) 参数化。 推理阶段inference推断模型被应用于近似给定当前和先前步骤的 Z 的后验分布。也就是说推断模型的作用是根据当前和之前的数据来预测未知变量 Z 的概率分布。这种方法可以帮助更准确地推断出 Z 的值从而得到更可靠的结果。后验分布 Z t Z_t Zt计算方式如下 q ϕ ( Z t ∣ X 1 : t ) ∏ n 1 N q ϕ ( z t , n l ∣ h t , n L ) ∏ l 1 L − 1 q ϕ ( z t , n l ∣ z t , n l 1 , h t , n l ) , where q ϕ ( z t , n l ∣ z t , n l 1 , h t , n l ) N ( μ ^ t l , σ ^ t l ) (8) q_\phi(\mathcal Z_t|X_{1:t})\prod_{n1}^Nq_\phi (z_{t,n}^l|h_{t,n^L})\prod_{l1}^{L-1}q_\phi (z_{t,n}^{l}|z_{t,n}^{l1},h_{t,n}^l),\\ \text{where}\quad q_\phi(z_{t,n}^l|z_{t,n}^{l1},h_{t,n}^l)\mathcal N(\hat \mu_t^l,\hat \sigma_t^l) \tag{8} qϕ(Zt∣X1:t)n1∏Nqϕ(zt,nl∣ht,nL)l1∏L−1qϕ(zt,nl∣zt,nl1,ht,nl),whereqϕ(zt,nl∣zt,nl1,ht,nl)N(μ^tl,σ^tl)(8) 式8采用与式6相同的因式分解方式。每层高斯分布的参数由神经网络 g l ( z t , n l 1 , h t , n l ) gl(z^{l1}_{t,n} , h^l_{t,n}) gl(zt,nl1,ht,nl) 参数化。与生成模型类似后验分布生成的随机变量也可以有效考虑空气质量的时空依赖性从而提高预测性能。
该阶段分为两个子步骤自上而下采样以及随机化预测
采样阶段模型会以历史观测数据和先前生成的空气质量指数值作为输入并使用Decoder来生成一组可能的未来时刻的候选空气质量序列。每个候选序列都是从“起始”标记开始生成的直到达到预定的预测时间窗口为止。随机化预测阶段模型会对所有候选空气质量指数序列进行评估并选择其中最能符合真实未来空气质量指数的序列作为最终的预测结果。这个评估过程基于一个分数函数它将历史时刻的观测数据、先前生成的空气质量指数值以及每个候选序列的概率分布情况结合起来计算得出。
在Top-Down Stochastic Stage中每个候选空气质量指数序列都是通过随机采样生成的。这种随机性的引入可以使模型更好地处理未知和噪声数据从而提高模型的泛化能力和鲁棒性。同时使用多个候选序列并对它们进行评估也可以增强模型的表现力和预测准确性。
3.6 预测以及优化
该网络使用确定性参数自下而上的确定性阶段以及随机隐性参数自上而下的随机性阶段进行预测使用由两部分组成的损失函数函数的第一部分为真实值与预测值的L1范数第二部分为所有阶段的负ELBO之和。其中ELBO由两部分组成第一部分为重构的似然性第二部分为KL散度。
4. 文献解读
4.1 Introduction
基于注意力的模型特别是 Transformer已成为捕获空气质量数据空间相关性的有力替代方案。与 STGNN 相比它们有两大优点。首先它们共同捕捉每一层不同地方之间的短期和长期相互作用而 STGNN 仅对局部环境进行卷积。其次不同地点之间空气质量的相关性是高度动态的随着时间的推移而变化。使用基于注意力的模型自然可以解决这个问题。 在这项研究中扩大了范围使用变压器以前所未有的精细空间粒度集体预测中国大陆的空气质量覆盖数千个站点。如上图所示预测目标涵盖了中国大陆的所有省份并且密集分布在珠江三角洲等发达地区。如此精细的覆盖范围不仅为公众提供了更多具有较高社会影响力的有用信息而且包含了更多有利于模型训练的数据样本
多头自注意力MSA是变压器空间建模的关键操作它的计算复杂度与站点数量 N 呈二次方关系。随着 N 的增长这种费用可能会变得难以承受特别是对于细粒度数据。
同时由于两个因素未来的空气质量读数本质上是不确定的观测不准确或缺失以及一些不可预测的因素。虽然早期的尝试通过确定性方法在空气质量预测方面表现出了良好的性能但大多数尝试仍然无法捕捉大规模空气质量数据中的这种不确定性。
为了应对这些挑战提出了一种用于中国全国空气质量预测的新型Transformer架构名为 AirFormer。该方法受到空气污染领域知识的启发这使我们能够构建具有更多解释的模型。 AirFormer 将这两个问题的解决方案分为两个阶段确定性阶段和随机阶段。在确定性阶段我们提出了两种新型的 MSA 来分别有效地捕获空间和时间依赖性。在随机阶段我们探索将潜在随机变量包含到变压器中。这些潜在变量是从从确定性隐藏状态学习到的概率分布中采样的从而捕获输入数据的不确定性。
4.2 创新点 考虑到附近位置之间的空间相关性通常比远处位置之间的空间相关性更强设计了 Dartboard Spatial MSA (DS-MSA) 来有效捕获空间关系。顾名思义每个位置都以细粒度关注其较近的环境以粗粒度关注较远的站点见上图。与具有二次成本的标准 MSA 相比DS-MSA 仅采用与站点数量相关的线性复杂度。设计了因果时间 MSA (CT-MSA) 来学习时间依赖性。它确保步骤的输出仅源自先前的步骤即因果关系。还引入了局部性来提高效率每层的感受野像卷积一样逐渐增加。利用变分模型的最新进展通过潜在变量增强了变压器以捕获空气质量数据的不确定性。为了保持变压器的并行性潜在随机变量按照隐式时间依赖性分层排列。这是第一个对数千个地点的空气质量进行集体预测的工作。实证结果表明AirFormer 的预测误差比现有模型低 4.6%-8.2%。
4.3 实验过程
1. 数据集 2. 比较的基线模型
评估指标选择MAE和RMSE
传统方法STGNN变体基于注意力机制的模型空气质量预测模型
运行结果如下 3. 消融实验
DS-MSA的性能
对比了没有DS-MSA标准的MSAMSA(50km)DS-MSA50-200DS-MSA(50)DS-MSA(50-200-500)。灰色行表示最终的模型加粗为最好横线表示性能第二好的。 此外为了验证DS-MSA的性能对以西直门为中心的50-200的dartboard进行研究当没有风的时候权重被分散如果有来自东风或者西南风注意力的权重会集中在相应的方向上这说明DS-MSA不但有效而且对于模型的可解释性也更强。 CT-MSA的性能
对比了没有CT-MSAWaveNet取代CT-MSA标准的MSA。首先可以看到所有具有时间模块变体的模型性能都比没有CT-MSA的性能好这一现象说明根据时间建模的必要性此外两个使用锁头注意力机制的模型性能比WaveNet的性能好说明了MSA在空气质量预测的优越性。此外将英国关系和局部窗口集成到MSA可以持续提高性能 隐变量的性能 因为气体扩散的随机性捕获空气质量数据中的不确定性可以有效的提高性能增强模型的鲁棒性。
位置编码的性能 由于MSA是排列不变的作者将位置编码集成到DS-MSA和CT-MSA中用来考虑顺序信息
4.4 结论
考虑到附近区域的空间对该区域的相关性要大于遥远区域的相关性设计了DS-MSA有效捕获位置空间关系设计了因果时间模块CT-MSA学习时间依赖性确保每一个步骤的输出只来自前面的步骤。引入局部性来提高效率使用VAE模型的思想增强了具有隐变量的transformer以此捕获空气质量数据的不确定性是第一次共同预测数千个地点的空间质量的工作比现有的SOTA误差低4-8个百分点。
三、GAN
1. 任务要求
使用pytorch实现GAN网络并使用MNIST数据库训练GANGAN绘制手写数字图片。其中GAN使用MLP构建
2. 实验结果
GAN进行十九次迭代后的绘制效果 3.实验代码
3.1数据准备
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt
import torchvision
from torchvision import transforms# 数据准备# 对数据做归一化 -1 1
transform transforms.Compose([transforms.ToTensor(), # 将数据转换成Tensor格式channel, high, witch,数据在0 1范围内transforms.Normalize(0.5, 0.5) # 通过均值和方差将数据归一化到-1 1之间
])# 下载数据集
train_ds torchvision.datasets.MNIST(data,trainTrue,transformtransform,downloadTrue)# 设置dataloader
dataloader torch.utils.data.DataLoader(train_ds, batch_size64, shuffleTrue)# 返回一个批次的数据
imgs, _ next(iter(dataloader))# imgs的大小
imgs.shape3.2 模型构建
# 定义生成器# 输入是长度为 100 的 噪声正态分布随机数
# 输出为1 28 28的图片
# linear 1 : 100----256
# linear 2: 256----512
# linear 2: 512----28*28
# reshape: 28*28----(1, 28, 28)class Generator(nn.Module): #创建的 Generator 类继承自 nn.Moduledef __init__(self): # 定义初始化方法super(Generator, self).__init__() #继承父类的属性self.main nn.Sequential( #使用Sequential快速创建模型nn.Linear(100, 256),nn.ReLU(),nn.Linear(256, 512),nn.ReLU(),nn.Linear(512, 28*28),nn.Tanh() # 输出层使用Tanh()激活函数使输出-1, 1之间)def forward(self, x): # 定义前向传播 x 表示长度为100 的noise输入img self.main(x)img img.view(-1, 28, 28) #将img展平转化成图片的形式channel为1可写可不写return img# 定义判别器## 输入为1 28 28的图片 输出为二分类的概率值输出使用sigmoid激活 0-1
# BCEloss计算交叉熵损失# nn.LeakyReLU f(x) : x0 输出 x 如果x0 ,输出 a*x a表示一个很小的斜率比如0.1
# 判别器中一般推荐使用 LeakyReLUclass Discriminator(nn.Module):def __init__(self):super(Discriminator, self).__init__()self.main nn.Sequential(nn.Linear(28*28, 512), #输入是28*28的张量也就是图片nn.LeakyReLU(), # 小于0的时候保存一部分梯度nn.Linear(512, 256),nn.LeakyReLU(),nn.Linear(256, 1), # 二分类问题输出到1上nn.Sigmoid())def forward(self, x):x x.view(-1, 28*28)x self.main(x)return x3.3 展示函数
# 绘图函数def gen_img_plot(model, epoch, test_input):prediction np.squeeze(model(test_input).detach().cpu().numpy())fig plt.figure(figsize(4, 4))for i in range(16):plt.subplot(4, 4, i1)plt.imshow((prediction[i] 1)/2) # 确保prediction[i] 1)/2输出的结果是在0-1之间plt.axis(off)plt.show()test_input torch.randn(16, 100, devicedevice)3.4 训练过程
# GAN的训练# 保存每个epoch所产生的loss值
D_loss []
G_loss []# 训练循环
for epoch in range(20): #训练20个epochd_epoch_loss 0 # 初始损失值为0g_epoch_loss 0# len(dataloader)返回批次数len(dataset)返回样本数count len(dataloader)# 对dataloader进行迭代for step, (img, _) in enumerate(dataloader): # enumerate加序号img img.to(device) #将数据上传到设备size img.size(0) # 获取每一个批次的大小random_noise torch.randn(size, 100, devicedevice) # 随机噪声的大小是size个d_optim.zero_grad() # 将判别器前面的梯度归0real_output dis(img) # 判别器输入真实的图片real_output是对真实图片的预测结果 # 得到判别器在真实图像上的损失# 判别器对于真实的图片希望输出的全1的数组将真实的输出与全1的数组进行比较d_real_loss loss_fn(real_output, torch.ones_like(real_output)) d_real_loss.backward() # 求解梯度gen_img gen(random_noise) # 判别器输入生成的图片fake_output是对生成图片的预测# 优化的目标是判别器对于生成器的参数是不需要做优化的需要进行梯度阶段detach()会截断梯度# 得到一个没有梯度的Tensor这一点很关键fake_output dis(gen_img.detach()) # 得到判别器在生成图像上的损失d_fake_loss loss_fn(fake_output, torch.zeros_like(fake_output)) d_fake_loss.backward() # 求解梯度d_loss d_real_loss d_fake_loss # 判别器总的损失等于两个损失之和d_optim.step() # 进行优化g_optim.zero_grad() # 将生成器的所有梯度归0fake_output dis(gen_img) # 将生成器的图片放到判别器中此时不做截断因为要优化生成器# 生层器希望生成的图片被判定为真g_loss loss_fn(fake_output, torch.ones_like(fake_output)) # 生成器的损失g_loss.backward() # 计算梯度g_optim.step() # 优化# 将损失累加到定义的数组中这个过程不需要计算梯度with torch.no_grad():d_epoch_loss d_lossg_epoch_loss g_loss# 计算每个epoch的平均loss仍然使用这个上下文关联器with torch.no_grad():# 计算平均的loss值d_epoch_loss / countg_epoch_loss / count# 将平均loss放入到loss数组中D_loss.append(d_epoch_loss.item())G_loss.append(g_epoch_loss.item())# 打印当前的epochprint(Epoch:, epoch)# 调用绘图函数gen_img_plot(gen, epoch, test_input)小结
本周阅读的论文提出了一种名为 AirFormer 的新型 Transformer 架构用于集体预测中国全国范围内的空气质量并以前所未有的精细空间粒度覆盖数千个地点。 AirFormer 将学习过程解耦为两个阶段
1自下而上的确定性阶段包含两种新型的自注意力机制可有效学习时空表示
2具有潜在变量的自上而下的随机阶段用于捕获空气质量数据的内在不确定性。
参考文献
[1] Yuxuan Liang, Yutong Xia, Songyu Ke, Yiwei Wang, Qingsong Wen, Junbo Zhang, Yu Zheng, Roger Zimmermann: AirFormer: Predicting Nationwide Air Quality in China with Transformers.[J].arXiv:2211.15979v1 文章转载自: http://www.morning.kzpxc.cn.gov.cn.kzpxc.cn http://www.morning.lgmty.cn.gov.cn.lgmty.cn http://www.morning.ntzbr.cn.gov.cn.ntzbr.cn http://www.morning.qrwjb.cn.gov.cn.qrwjb.cn http://www.morning.plhhd.cn.gov.cn.plhhd.cn http://www.morning.zfgh.cn.gov.cn.zfgh.cn http://www.morning.zyndj.cn.gov.cn.zyndj.cn http://www.morning.rwfj.cn.gov.cn.rwfj.cn http://www.morning.kbkcl.cn.gov.cn.kbkcl.cn http://www.morning.tgyzk.cn.gov.cn.tgyzk.cn http://www.morning.wckrl.cn.gov.cn.wckrl.cn http://www.morning.byywt.cn.gov.cn.byywt.cn http://www.morning.nxdqz.cn.gov.cn.nxdqz.cn http://www.morning.etsaf.com.gov.cn.etsaf.com http://www.morning.nrzkg.cn.gov.cn.nrzkg.cn http://www.morning.pshtf.cn.gov.cn.pshtf.cn http://www.morning.pnmgr.cn.gov.cn.pnmgr.cn http://www.morning.lzph.cn.gov.cn.lzph.cn http://www.morning.fmqng.cn.gov.cn.fmqng.cn http://www.morning.hrzymy.com.gov.cn.hrzymy.com http://www.morning.skrxp.cn.gov.cn.skrxp.cn http://www.morning.rfxyk.cn.gov.cn.rfxyk.cn http://www.morning.rpdmj.cn.gov.cn.rpdmj.cn http://www.morning.brzlp.cn.gov.cn.brzlp.cn http://www.morning.nhlnh.cn.gov.cn.nhlnh.cn http://www.morning.cpnlq.cn.gov.cn.cpnlq.cn http://www.morning.ffptd.cn.gov.cn.ffptd.cn http://www.morning.kszkm.cn.gov.cn.kszkm.cn http://www.morning.knmp.cn.gov.cn.knmp.cn http://www.morning.gwdkg.cn.gov.cn.gwdkg.cn http://www.morning.gkxyy.cn.gov.cn.gkxyy.cn http://www.morning.sjli222.cn.gov.cn.sjli222.cn http://www.morning.xxwhz.cn.gov.cn.xxwhz.cn http://www.morning.kwdfn.cn.gov.cn.kwdfn.cn http://www.morning.rwlsr.cn.gov.cn.rwlsr.cn http://www.morning.ssjtr.cn.gov.cn.ssjtr.cn http://www.morning.sblgt.cn.gov.cn.sblgt.cn http://www.morning.cgthq.cn.gov.cn.cgthq.cn http://www.morning.mlzyx.cn.gov.cn.mlzyx.cn http://www.morning.gxcym.cn.gov.cn.gxcym.cn http://www.morning.jlqn.cn.gov.cn.jlqn.cn http://www.morning.mqbsm.cn.gov.cn.mqbsm.cn http://www.morning.ktmnq.cn.gov.cn.ktmnq.cn http://www.morning.mdmxf.cn.gov.cn.mdmxf.cn http://www.morning.hxxzp.cn.gov.cn.hxxzp.cn http://www.morning.shuanga.com.cn.gov.cn.shuanga.com.cn http://www.morning.rrqbm.cn.gov.cn.rrqbm.cn http://www.morning.kndt.cn.gov.cn.kndt.cn http://www.morning.haolipu.com.gov.cn.haolipu.com http://www.morning.tkflb.cn.gov.cn.tkflb.cn http://www.morning.gcspr.cn.gov.cn.gcspr.cn http://www.morning.bfmq.cn.gov.cn.bfmq.cn http://www.morning.tqgx.cn.gov.cn.tqgx.cn http://www.morning.wqsjx.cn.gov.cn.wqsjx.cn http://www.morning.rpkg.cn.gov.cn.rpkg.cn http://www.morning.ryxdf.cn.gov.cn.ryxdf.cn http://www.morning.wjlhp.cn.gov.cn.wjlhp.cn http://www.morning.jkcnq.cn.gov.cn.jkcnq.cn http://www.morning.mztyh.cn.gov.cn.mztyh.cn http://www.morning.bzpwh.cn.gov.cn.bzpwh.cn http://www.morning.npbnc.cn.gov.cn.npbnc.cn http://www.morning.xhddb.cn.gov.cn.xhddb.cn http://www.morning.rhpy.cn.gov.cn.rhpy.cn http://www.morning.lctrz.cn.gov.cn.lctrz.cn http://www.morning.gkjnz.cn.gov.cn.gkjnz.cn http://www.morning.nfmlt.cn.gov.cn.nfmlt.cn http://www.morning.kzslk.cn.gov.cn.kzslk.cn http://www.morning.dzfwb.cn.gov.cn.dzfwb.cn http://www.morning.nxtgb.cn.gov.cn.nxtgb.cn http://www.morning.ymqrc.cn.gov.cn.ymqrc.cn http://www.morning.mtjwp.cn.gov.cn.mtjwp.cn http://www.morning.wcjk.cn.gov.cn.wcjk.cn http://www.morning.tsynj.cn.gov.cn.tsynj.cn http://www.morning.ryzgp.cn.gov.cn.ryzgp.cn http://www.morning.yswxq.cn.gov.cn.yswxq.cn http://www.morning.rwlns.cn.gov.cn.rwlns.cn http://www.morning.kgtyj.cn.gov.cn.kgtyj.cn http://www.morning.rsnd.cn.gov.cn.rsnd.cn http://www.morning.mingjiangds.com.gov.cn.mingjiangds.com http://www.morning.zwckz.cn.gov.cn.zwckz.cn