网站的图片大小,wordpress php注释,免费图片素材高清,搜索引擎网站分析MUON 在 LLM 训练中的可扩展性
摘要
最近#xff0c;基于矩阵正交化的 Muon 优化器#xff08;K. Jordan 等人#xff0c;2024 年#xff09;在训练小型语言模型方面表现出色#xff0c;但其在更大规模模型上的可扩展性尚未得到验证。我们确定了 Muon 放大的两个关键技术…MUON 在 LLM 训练中的可扩展性
摘要
最近基于矩阵正交化的 Muon 优化器K. Jordan 等人2024 年在训练小型语言模型方面表现出色但其在更大规模模型上的可扩展性尚未得到验证。我们确定了 Muon 放大的两个关键技术1添加权重衰减2仔细调整每个参数的更新规模。这些技术使 Muon 能够在大规模训练中直接使用无需超参数调整。根据扩展定律实验Muon 的计算效率比 AdamW 高约 2 倍在计算最优训练中表现出色。基于这些改进我们引入了 Moonlight这是一个使用 Muon 训练的 3B/16B 参数专家混合MoE模型使用了 5.7T 个标记。我们的模型改进了当前的帕累托前沿在训练 FLOPs 明显减少的情况下实现了更好的性能。我们开源了我们的分布式 Muon 实现该实现具有内存最优性和通信效率。我们还发布了预训练、指令调整和中间检查点以支持未来的研究。
1 引言
大型语言模型LLMs的快速发展显著推动了通用人工智能的进步。然而训练强大的 LLMs 仍然是一个计算密集型和资源需求巨大的过程这归因于扩展定律。优化器在高效有效地训练 LLMs 中起着至关重要的作用Adam 及其变体 AdamW 是大多数大规模训练的标准选择。
最近的优化算法发展显示出超越 AdamW 的潜力。其中K. Jordan 等人在 2024 年提出的 Muon 通过使用 Newton-Schulz 迭代对矩阵参数进行正交化梯度动量更新。Muon 的初始实验在小规模语言模型训练中表现出色。然而正如该博客K. Jordan 等人2024 年所讨论的几个关键挑战仍未解决1如何将基于矩阵正交化的优化器有效扩展到具有数十亿参数的大型模型这些模型使用数万亿个标记进行训练2如何在分布式环境中计算近似正交化3这种优化器是否可以在包括预训练和监督微调SFT在内的不同训练阶段进行泛化。
在本技术报告中我们提出了一项综合研究解决了这些挑战。我们的工作基于 Muon同时系统地识别并解决了其在大规模训练场景中的局限性。我们的技术贡献包括 Muon 有效扩展的分析通过广泛的分析我们确定权重衰减在 Muon 的可扩展性中起着至关重要的作用。此外我们提出了对 Muon 的参数级更新规则进行调整。这些调整使 Muon 能够直接使用无需超参数调整并显著提高了训练稳定性。 高效的分布式实现我们开发了 Muon 的分布式版本采用 ZeRO-1 风格的优化实现了内存效率和通信开销的减少同时保持了算法的数学属性。 扩展定律验证我们进行了扩展定律研究比较了 Muon 和强大的 AdamW 基线并展示了 Muon 的卓越性能见图 1a。根据扩展定律结果Muon 在计算最优设置下仅需要 AdamW 训练对应模型的大约 52% 的训练 FLOPs 即可实现相当的性能。
我们的综合实验表明Muon 可以有效地取代 AdamW成为大规模 LLM 训练的标准优化器在训练效率和模型性能方面提供了显著的改进。因此我们发布了使用 Muon 训练的 16B 参数 MoE 模型 Moonlight以及我们的实现和中间训练检查点以促进未来在 LLMs 可扩展优化技术方面的研究。
2 方法
2.1 背景
Muon 优化器MuonK. Jordan 等人2024 年最近被提出用于优化可表示为矩阵的神经网络权重。在迭代 t 时给定当前权重 Wt−1、动量 µ、学习率 ηt 和目标 LtMuon 优化器的更新规则如下
Mt µMt−1 ∇Lt(Wt−1) Ot Newton-Schulz(Mt) Wt Wt−1 − ηtOt
这里Mt 是迭代 t 时的梯度动量在 t 0 时设置为零矩阵。在方程 1 中采用 Newton-Schulz 迭代过程来近似求解 (MtMT t )−1/2Mt。令 UΣVT Mt 为 Mt 的奇异值分解SVD则有 (MtMT t )−1/2Mt UVT这正交化了 Mt。直观上正交化可以确保更新矩阵是同构的防止权重沿几个主要方向学习。
Newton-Schulz 迭代用于矩阵正交化方程 1 通过迭代过程计算。首先设置 X0 Mt/∥Mt∥F。然后在每次迭代 k 中根据以下公式更新 Xk 从 Xk−1
Xk aXk−1 b(Xk−1XT k−1)Xk−1 c(Xk−1XT k−1)2Xk−1
其中 XN 是经过 N 步迭代过程后的结果。这里 a、b、c 是系数。为了确保方程 2 的正确收敛需要调整系数使多项式 f(x) ax bx3 cx5 在接近 1 的地方有一个固定点。在 K. Jordan 等人2024 年的原始设计中系数设置为 a 3.4445b −4.7750c 2.0315以使迭代过程对较小的初始奇异值更快收敛。在本工作中我们遵循相同的系数设置。
在范数约束下的最陡下降Bernstein 等人2024 年提出将深度学习中的优化过程视为在范数约束下的最陡下降。从这个角度来看我们可以将 Muon 和 AdamKingma 等人2015 年Loshchilov 等人2019 年之间的差异视为范数约束的差异。虽然 Adam 是在动态调整的 Max-of-Max 范数下的最陡下降但 Muon 提供了一个在某些较大的 p 的 Schatten-p 范数范围内的静态范数约束。当方程 1 准确计算时Muon 提供的范数约束将是谱范数。神经网络的权重作为输入空间或隐藏空间上的算子通常是局部欧几里得空间因此权重上的范数约束应该是诱导算子范数或权重矩阵的谱范数。从这个意义上说Muon 提供的范数约束比 Adam 提供的更合理。
2.2 扩展 Muon
权重衰减虽然 Muon 在小规模上显著优于 AdamW如 K. Jordan 等人2024 年所示但我们发现当扩展到使用更多标记训练的较大模型时性能提升会减弱。我们观察到权重和层输出的 RMS 都在不断增长超过了 bf16 的高精度范围这可能会损害模型的性能。为了解决这个问题我们引入了标准的 AdamWLoshchilov 等人2019 年权重衰减机制到 Muon 中
Wt Wt−1 − ηt(Ot λWt−1)
我们对有和没有权重衰减的 Muon 进行了实验以了解其对 LLMs 训练动态的影响。根据我们在第 3.2 节中的扩展定律研究我们训练了一个 800M 参数模型使用了 100B 个标记约为最优训练标记的 5 倍。图 2 显示了使用 AdamW、原始 Muon无权重衰减和带权重衰减的 Muon 训练的模型的验证损失曲线。虽然原始 Muon 初始收敛速度更快但我们观察到一些模型权重随着时间的推移变得过大可能限制了模型的长期性能。添加权重衰减解决了这个问题——结果表明带权重衰减的 Muon 在过训练阶段优于原始 Muon 和 AdamW实现了更低的验证损失。因此我们调整更新规则为方程 3其中 λ 是权重衰减比率。
一致的更新 RMSAdam 和 AdamW 的一个重要属性是它们保持理论更新 RMS 约为 1。然而我们发现 Muon 的更新 RMS 取决于参数的形状根据以下引理
引理 1对于形状为 [A, B] 的满秩矩阵参数其理论 Muon 更新 RMS 为 √(1 / max(A, B))。
证明见附录 A。我们在训练过程中监控了 Muon 的更新 RMS发现它通常接近上述理论值。我们注意到这种不一致性在扩展模型大小时可能会有问题
当 max(A, B) 过大时例如密集 MLP 矩阵更新变得过小从而限制了模型的表示能力导致次优性能当 max(A, B) 过小时例如将 GQAShazeer2019 年或 MLADeepSeek-AI 等人2024 年中的每个 KV 头视为单独参数更新变得过大导致训练不稳定性能次优。 为了在不同形状的矩阵之间保持一致的更新 RMS我们提出根据 √(max(A, B)) 对每个矩阵的 Muon 更新进行缩放以抵消引理 1 的影响。第 3.1 节的实验表明这种策略对优化有益。
匹配 AdamW 的更新 RMSMuon 被设计为更新基于矩阵的参数。在实践中AdamW 与 Muon 一起使用用于处理非矩阵参数如 RMSNorm、LM 头和嵌入参数。我们希望优化器超参数学习率 η、权重衰减 λ可以在矩阵和非矩阵参数之间共享。
我们提出将 Muon 的更新 RMS 调整为与 AdamW 类似。根据经验观察AdamW 的更新 RMS 通常在 0.2 到 0.4 之间。因此我们通过以下调整将 Muon 的更新 RMS 缩放到这个范围
Wt Wt−1 − ηt(0.2 · Ot · √(max(A, B)) λWt−1)
我们通过实验证实了这一选择详见附录 A。此外我们强调通过这种调整Muon 可以直接重用为 AdamW 调整的学习率和权重衰减。
其他超参数Muon 还包含两个可调超参数Newton-Schulz 迭代步数和动量 µ。我们经验证明当设置 N 为 10 时迭代过程会比 N 5 产生更准确的正交化结果但不会带来更好的性能。因此为了效率我们在本工作中设置 N 5。我们没有看到在调整动量时有持续的性能提升因此我们选择与 K. Jordan 等人2024 年相同的 0.95。
2.3 分布式 Muon
ZeRO-1 和 Megatron-LMRajbhandari 等人2020 年引入了 ZeRO-1 技术将昂贵的优化器状态例如主权重、动量分布在集群中。Megatron-LMShoeybi 等人2020 年将 ZeRO-1 整合到其本地并行设计中。基于 Megatron-LM 的复杂并行策略例如张量并行TP、管道并行PP、专家并行EP和数据并行DPZeRO-1 的通信工作量可以从在整个分布式世界中收集减少到仅在数据并行组中收集。
方法ZeRO-1 对 AdamW 很高效因为它以元素级方式计算更新。然而Muon 需要完整的梯度矩阵来计算更新。因此原始的 ZeRO-1 不直接适用于 Muon。我们提出了一种基于 ZeRO-1 的新分布式解决方案称为分布式 Muon。分布式 Muon 遵循 ZeRO-1 在 DP 上划分优化器状态并引入了两个额外的操作与原始的 Zero-1 AdamW 优化器相比
DP 收集对于本地 DP 划分的主权重模型权重的 1/DP 大小此操作收集相应的划分梯度到一个完整的梯度矩阵。计算完整更新在上述收集之后在完整的梯度矩阵上执行 Newton-Schulz 迭代步骤如第 2.1 节所述。注意我们将丢弃完整更新矩阵的其余部分因为只需保留对应于本地参数的部分即可进行更新。
分布式 Muon 的实现如算法 1 所述。分布式 Muon 引入的额外操作用蓝色标出。
分析我们在几个方面比较了分布式 Muon 和经典的基于 ZeRO-1 的分布式 AdamW简称为分布式 AdamW
内存使用Muon 只使用一个动量缓冲区而 AdamW 使用两个动量缓冲区。因此Muon 优化器额外使用的内存是分布式 AdamW 的一半。通信开销额外的 DP 收集操作是初始梯度 reduce-scatter 操作的反向操作。然而Muon 只需要在 bf16 中执行 Newton-Schulz 迭代步骤从而将通信开销减少到 50%。总体而言分布式 Muon 的通信工作量是分布式 AdamW 的 150%。延迟分布式 Muon 的端到端延迟比分布式 AdamW 大因为它引入了额外的通信并需要运行 Newton-Schulz 迭代步骤。然而这并不是一个显著的问题因为a只需要大约 5 个 Newton-Schultz 迭代步骤即可获得良好的结果在第 2.2 节中讨论b由优化器引起的端到端延迟与模型的前向-后向传递时间相比可以忽略不计例如通常为 1% 到 3%。此外几种工程技巧如重叠收集和计算以及重叠优化器 reduce-scatter 与参数收集可以进一步减少延迟。
在我们的分布式集群中训练大型模型时分布式 Muon 与 AdamW 对比没有明显的延迟开销。我们很快将为开源的 Megatron-LMShoeybi 等人2020 年项目提交一个实现分布式 Muon 的 pull request。
3 实验
3.1 一致的更新 RMS
如第 2.2 节所述我们旨在在所有矩阵参数之间匹配更新 RMS并与 AdamW 匹配。我们实验了两种方法来控制 Muon 更新 RMS并将其与仅与 AdamW 保持一致 RMS 的基线进行比较 基线我们将更新矩阵乘以 0.2 · √HH 是模型隐藏大小以与 AdamW 保持一致的更新 RMS。注意对于大多数矩阵max(A, B) 等于 H。 Wt Wt−1 − ηt(0.2 · Ot · √H λWt−1) 更新范数我们可以直接归一化通过 Newton-Schulz 迭代计算的更新使其 RMS 严格变为 0.2 Wt Wt−1 − ηt(0.2 · Ot / RMS(Ot) λWt−1) 调整学习率对于每个更新矩阵我们可以根据其形状按 0.2 · √(max(A, B)) 的因子缩放其学习率。 Wt Wt−1 − ηt(0.2 · Ot · √(max(A, B)) λWt−1)
分析我们设计了实验来说明 Muon 更新 RMS 在早期训练阶段的影响因为我们观察到在更大规模训练模型时意外的行为很快就会发生。我们使用 3.2 节中描述的小型 800M 模型进行实验。当矩阵维度之间的差异增大时更新 RMS 不一致的问题更加明显。为了突出这个问题以便进一步研究我们稍微修改了模型架构将 Swiglu MLP 替换为标准的两层 MLP将其矩阵参数的形状从 [H, 2.6H] 改为 [H, 4H]。我们在 20B 个标记的训练计划中训练了 4B 个标记后评估了模型的损失并监控了其一些参数的 RMS特别是注意力查询形状 [H, H]和 MLP形状 [H, 4H]。从表 1 中我们观察到几个有趣的发现
更新范数和调整学习率都比基线表现更好对于形状为 [H, 4H] 的 MLP 权重矩阵更新范数和调整学习率获得的权重 RMS 大约是基线的两倍。这是合理的因为 √(max(H, 4H)) / √H 2所以更新范数和调整学习率的更新 RMS 大约是基线的两倍对于形状为 [H, H] 的注意力查询权重矩阵更新范数仍然对更新进行归一化而调整学习率没有因为 √(max(H, H)) / √H 1。因此调整学习率的结果与基线的权重 RMS 类似但更新范数的权重 RMS 类似于其 MLP。
基于这些发现我们选择在未来的实验中使用调整学习率方法因为它的成本较低。
3.2 Muon 的扩展定律
为了与 AdamW 进行公平比较我们在 Llama 架构的一系列密集模型上进行了 Muon 的扩展定律实验。AdamW 的超参数通过网格搜索确定遵循计算最优训练设置。模型架构和超参数的详细信息可以在表 2 中找到。对于 Muon如第 2.2 节所述由于我们将 Muon 的更新 RMS 与 AdamW 匹配我们直接重用了 AdamW 的超参数。
拟合的扩展定律曲线如图 3 所示拟合方程的详细信息如表 3 所示。如图 1a 所示Muon 在计算最优设置下仅需要大约 52% 的训练 FLOPs 即可与 AdamW 匹配性能。
3.3 使用 Muon 进行预训练
模型架构为了评估 Muon 与当代模型架构的对比我们从头开始使用 deepseek-v3-small 架构进行预训练因为它表现出强大的性能并且原始结果可以作为对比参考。我们的预训练模型有 2.24B 个激活参数和 15.29B 个总参数包括嵌入参数时为 3B 个激活参数和 16B 个总参数。对架构的 minor 修改详见附录 C。 预训练数据我们的预训练数据详细信息可以在 K. Team2025 年中找到。预训练期间的最大上下文长度为 8K。
预训练模型在几个阶段进行训练。我们在第 1 阶段和第 2 阶段使用 1e-3 的 auxfree 偏置更新率在第 3 阶段使用 0.0 的 auxfree 偏置更新率。所有阶段的权重衰减均设置为 0.1。更多训练细节和讨论详见附录 D。
0 到 33B 个标记在此阶段学习率在 2k 步内线性增加到 4.2e-4。批量大小保持在 2048 个样本33B 到 5.2T 个标记在此阶段学习率以余弦风格从 4.2e-4 衰减到 4.2e-5。我们保持批量大小在 2048 个样本直到 200B 个标记然后在剩余训练中加倍到 4096 个样本5.2T 到 5.7T 个标记在此阶段也称为冷却阶段学习率在 100 步内增加到 1e-4然后在线性衰减到 500B 个标记内的 0我们保持批量大小为 4096 个样本。在此阶段我们使用最高质量的数据重点关注数学、代码和推理。
评估基准我们的评估涵盖四个主要类别的基准每个类别旨在评估模型的不同能力
英语语言理解和推理MMLU5-shotHendrycks 等人2021 年MMLU-pro5-shotWang 等人2024 年BBH3-shotSuzgun 等人2022 年TriviaQA5-shotJoshi 等人2017 年代码生成HumanEvalpass1Chen 等人2021 年MBPPpass1Austin 等人2021 年数学推理GSM8K4-shotCobbe 等人2021 年MATHHendrycks 等人2021 年CMATHWei 等人2023 年中文语言理解和推理C-Eval5-shotHuang 等人2023 年CMMLU5-shotLi 等人2024 年
性能我们将使用 Muon 训练的模型命名为“Moonlight”。我们比较了 Moonlight 与在相似规模上训练的不同公共模型。我们首先在 1.2T 个标记处评估 Moonlight并将其与以下模型进行比较这些模型具有相同的架构并使用相似数量的标记进行训练
Deepseek-v3-SmallDeepSeek-AI 等人2024 年是一个 2.4B/16B 参数的 MoE 模型使用 1.33T 个标记进行训练Moonlight-A遵循与 Moonlight 相同的训练设置但使用 AdamW 优化器。 对于 Moonlight 和 Moonlight-A我们使用了 5.7T 预训练的中间 1.2T 个标记检查点此时学习率尚未衰减到最小值模型尚未经过冷却阶段。
从表 4 中可以看出Moonlight-A我们的 AdamW 训练基线模型在与相似的公共模型对比中表现出色。Moonlight 显著优于 Moonlight-A证明了 Muon 的扩展有效性。在 Moonlight 完全训练到 5.7T 个标记后我们将其与在相似规模上训练的公共模型进行了比较结果如表 5 所示
LLAMA3-3BGrattafiori 等人2024 年是一个 3B 参数的密集模型使用 9T 个标记进行训练Qwen2.5-3BYang 等人2024 年是一个 3B 参数的密集模型使用 18T 个标记进行训练Deepseek-v2-LiteDeepSeek-AI 等人2024 年是一个 2.4B/16B 参数的 MOE 模型使用 5.7T 个标记进行训练。
如表 5 所示Moonlight 在与使用相似数量标记训练的具有相似架构的模型对比中表现更优。即使与使用大幅更大数据集训练的密集模型相比Moonlight 仍保持竞争力。Moonlight 的性能进一步与其它知名语言模型在 MMLU 和 GSM8k 上进行了比较如图 1b 和附录 E 图 8.6 所示。值得注意的是Moonlight 位于模型性能与训练预算的帕累托前沿超越了许多其他模型。 3.4 奇异谱的动态
为了验证 Muon 可以在更多样化的方向上优化权重矩阵的直觉我们对使用 Muon 和 AdamW 训练的权重矩阵进行了谱分析。对于具有奇异值 σ (σ1, σ2, · · · , σn) 的权重矩阵我们计算该矩阵的 SVD 熵如下
H(σ) − 1 / log n * Σ(n i1) (σi² / Σ(n j1) σj²) * log (σi² / Σ(n j1) σj²)
如图 4 所示我们在使用 1.2T 个标记进行预训练期间对不同训练检查点的权重矩阵的平均 SVD 熵进行了可视化。我们可以看到在所有训练检查点和所有组的权重矩阵中Muon 的 SVD 熵均高于 AdamW这验证了 Muon 可以为权重矩阵提供更多样化更新方向的直觉。这种差异在用于专家选择的路由器权重中更为显著表明混合专家模型可以从 Muon 中受益更多。
此外我们在附录 F 中展示了在 1.2T 个标记训练检查点处每个权重矩阵的奇异值分布。我们发现对于超过 90% 的权重矩阵使用 Muon 优化的 SVD 熵高于使用 AdamW 优化的 SVD 熵为 Muon 在探索多样化优化方向方面的优越能力提供了强有力的实证证据。
3.5 使用 Muon 进行监督微调SFT
在本节中我们展示了在 LLM 训练的标准 SFT 阶段中 Muon 优化器的消融研究。我们的发现表明Muon 引入的好处在 SFT 阶段仍然存在。具体而言一个既使用 Muon 进行预训练又使用 Muon 进行微调的模型在消融研究中优于其他模型。然而我们也观察到当 SFT 优化器与预训练优化器不同时使用 Muon 进行 SFT 并未显示出比 AdamW 显著的优势。这表明仍有相当大的空间可供进一步探索我们将其留作未来的工作。
3.5.1 预训练和 SFT 优化器互换性的消融研究
为了进一步研究 Muon 的潜力我们使用 Muon 和 AdamW 优化器对 Moonlight1.2T 和 Moonlight-A1.2T 进行了微调。这些模型在开源的 tulu-3-sft-mixture 数据集Lambert 等人2024 年上进行了两个 epoch 的微调该数据集包含 4k 序列长度的数据。学习率遵循线性衰减计划从 5 × 10−5 开始逐渐减少到 0。表 6 中的结果突显了 Moonlight1.2T 相比 Moonlight-A1.2T 的优越性能。
3.5.2 使用 Muon 对公共预训练模型进行 SFT
我们进一步将 Muon 应用于公共预训练模型的监督微调特别是 Qwen2.5-7B 基础模型Yang 等人2024 年使用开源的 tulu-3-sft-mixture 数据集Lambert 等人2024 年。该数据集以 8k 序列长度打包我们采用了余弦衰减学习率计划从 2 × 10−5 开始逐渐减少到 2 × 10−6。结果如表 7 所示。为了进行比较我们表明使用 Muon 微调的模型在性能上与使用 Adam 微调的模型相当。这些结果表明为了获得最佳性能最好在预训练阶段应用 Muon 而不是在监督微调阶段。
4 讨论
有几个可能的研究方向可以进一步探索和扩展当前的发现。 将所有参数纳入 Muon 框架目前Muon 优化器与 Adam 优化器结合使用某些参数仍由 Adam 优化。这种混合方法虽然可行但存在改进的空间。将所有参数的优化完全纳入 Muon 框架是一个重要的研究课题。 将 Muon 扩展到 Schatten 范数Muon 优化器可以被解释为在谱范数下的最陡下降方法。鉴于 Schatten 范数的广泛适用性和灵活性将 Muon 扩展到涵盖一般的 Schatten 范数是一个有前景的方向。这种扩展可能会解锁额外的优化能力并可能比当前基于谱范数的实现获得更好的结果。 理解和解决预训练-微调不匹配问题实践中观察到的一个显著现象是使用 AdamW 预训练的模型在使用 Muon 微调时性能不佳反之亦然。这种优化器不匹配构成了有效利用大量 AdamW 预训练检查点的显著障碍需要进行严格的理论研究。精确理解其背后的机制对于制定 robust 和有效的解决方案至关重要。
5 结论
在本技术报告中我们对 Muon 在 LLM 训练中的可扩展性进行了全面研究。通过系统的分析和改进我们成功地将 Muon 应用于一个在 5.7 万亿个标记上训练的 3B/16B 参数 MoE 模型。我们的结果表明Muon 可以有效地取代 AdamW成为大规模 LLM 训练的标准优化器在训练效率和模型性能方面提供了显著的优势。通过开源我们的实现、Moonlight 模型和中间训练检查点我们旨在促进可扩展优化技术的进一步研究并加速 LLMs 训练方法的发展。 文章转载自: http://www.morning.ffydh.cn.gov.cn.ffydh.cn http://www.morning.xfxnq.cn.gov.cn.xfxnq.cn http://www.morning.xhpnp.cn.gov.cn.xhpnp.cn http://www.morning.jjtwh.cn.gov.cn.jjtwh.cn http://www.morning.skpdg.cn.gov.cn.skpdg.cn http://www.morning.jnbsx.cn.gov.cn.jnbsx.cn http://www.morning.lnyds.cn.gov.cn.lnyds.cn http://www.morning.ylqrc.cn.gov.cn.ylqrc.cn http://www.morning.wgkz.cn.gov.cn.wgkz.cn http://www.morning.rdfq.cn.gov.cn.rdfq.cn http://www.morning.wlxfj.cn.gov.cn.wlxfj.cn http://www.morning.rxhsm.cn.gov.cn.rxhsm.cn http://www.morning.pdmc.cn.gov.cn.pdmc.cn http://www.morning.kongpie.com.gov.cn.kongpie.com http://www.morning.zwsgl.cn.gov.cn.zwsgl.cn http://www.morning.qgtfl.cn.gov.cn.qgtfl.cn http://www.morning.tygn.cn.gov.cn.tygn.cn http://www.morning.zwyuan.com.gov.cn.zwyuan.com http://www.morning.kyfrl.cn.gov.cn.kyfrl.cn http://www.morning.xmpbh.cn.gov.cn.xmpbh.cn http://www.morning.c7624.cn.gov.cn.c7624.cn http://www.morning.qgtfl.cn.gov.cn.qgtfl.cn http://www.morning.xgzwj.cn.gov.cn.xgzwj.cn http://www.morning.tmzlt.cn.gov.cn.tmzlt.cn http://www.morning.wffxr.cn.gov.cn.wffxr.cn http://www.morning.fyskq.cn.gov.cn.fyskq.cn http://www.morning.rmqlf.cn.gov.cn.rmqlf.cn http://www.morning.qjngk.cn.gov.cn.qjngk.cn http://www.morning.zcrjq.cn.gov.cn.zcrjq.cn http://www.morning.gwzfj.cn.gov.cn.gwzfj.cn http://www.morning.jjnry.cn.gov.cn.jjnry.cn http://www.morning.nmbbt.cn.gov.cn.nmbbt.cn http://www.morning.tkcct.cn.gov.cn.tkcct.cn http://www.morning.cltrx.cn.gov.cn.cltrx.cn http://www.morning.tfkqc.cn.gov.cn.tfkqc.cn http://www.morning.jqpyq.cn.gov.cn.jqpyq.cn http://www.morning.bwxph.cn.gov.cn.bwxph.cn http://www.morning.mrskk.cn.gov.cn.mrskk.cn http://www.morning.thxfn.cn.gov.cn.thxfn.cn http://www.morning.bdsyu.cn.gov.cn.bdsyu.cn http://www.morning.mfct.cn.gov.cn.mfct.cn http://www.morning.jjxxm.cn.gov.cn.jjxxm.cn http://www.morning.tfkqc.cn.gov.cn.tfkqc.cn http://www.morning.gjtdp.cn.gov.cn.gjtdp.cn http://www.morning.qbfkz.cn.gov.cn.qbfkz.cn http://www.morning.bkslb.cn.gov.cn.bkslb.cn http://www.morning.xbwqg.cn.gov.cn.xbwqg.cn http://www.morning.zknjy.cn.gov.cn.zknjy.cn http://www.morning.bpmtl.cn.gov.cn.bpmtl.cn http://www.morning.tqgmd.cn.gov.cn.tqgmd.cn http://www.morning.nqmwk.cn.gov.cn.nqmwk.cn http://www.morning.bsrcr.cn.gov.cn.bsrcr.cn http://www.morning.qhvah.cn.gov.cn.qhvah.cn http://www.morning.kpnpd.cn.gov.cn.kpnpd.cn http://www.morning.kfjnx.cn.gov.cn.kfjnx.cn http://www.morning.ptqds.cn.gov.cn.ptqds.cn http://www.morning.gpsr.cn.gov.cn.gpsr.cn http://www.morning.ptwqf.cn.gov.cn.ptwqf.cn http://www.morning.rnyhx.cn.gov.cn.rnyhx.cn http://www.morning.mnclk.cn.gov.cn.mnclk.cn http://www.morning.fqssx.cn.gov.cn.fqssx.cn http://www.morning.qgjxt.cn.gov.cn.qgjxt.cn http://www.morning.dansj.com.gov.cn.dansj.com http://www.morning.pdghl.cn.gov.cn.pdghl.cn http://www.morning.mldrd.cn.gov.cn.mldrd.cn http://www.morning.zrbpx.cn.gov.cn.zrbpx.cn http://www.morning.hxbjt.cn.gov.cn.hxbjt.cn http://www.morning.rnkq.cn.gov.cn.rnkq.cn http://www.morning.dmcxh.cn.gov.cn.dmcxh.cn http://www.morning.bnbzd.cn.gov.cn.bnbzd.cn http://www.morning.cgthq.cn.gov.cn.cgthq.cn http://www.morning.zyffq.cn.gov.cn.zyffq.cn http://www.morning.prznc.cn.gov.cn.prznc.cn http://www.morning.wtcd.cn.gov.cn.wtcd.cn http://www.morning.lfmwt.cn.gov.cn.lfmwt.cn http://www.morning.yjmns.cn.gov.cn.yjmns.cn http://www.morning.rbylq.cn.gov.cn.rbylq.cn http://www.morning.nqmkr.cn.gov.cn.nqmkr.cn http://www.morning.xsfny.cn.gov.cn.xsfny.cn http://www.morning.fchkc.cn.gov.cn.fchkc.cn