稀疏大模型（MoE架构）的颠覆性工作——Switch Transformers论文精读-开发者社区

1、论文概述

1.1 MoE架构

1.2 核心贡献

1.3 摘要

2、模型结构（Pipline）

3、方法

3.1 Simplifying Sparse Routing（简化稀疏路由）

3.2 Efficient Sparse Routing（高效稀疏路由）

4、实验

4.1 Scaling Results on a Step-Basis（步数基础）

4.2 Scaling Results on a Time-Basis（时间基础）

4.3 Scaling Versus a Larger Dense Model

5、结论

想法：

1、论文概述

今天想要和大家分享的论文是Swtih Transformers，是一篇将MoE架构推向爆火的一篇论文，在开始前，我想先跟大家分享一下现阶段大模型的一个发展趋势。

在1月13日的时候，deepseek发布了一篇新论文Engram，如果了解deepseek的应该都知道，这家公司特别喜欢在春节前后发布新模型，前两年基本上都是这样，而今年才一月十几天，deepseek也已经新发布了两篇论文了，可能暗示V4模型快要发布了。

Engram这篇论文是最新发布的，梁文锋署名与北大团队进行合作的（项目地址：https://github.com/deepseek-ai/Engram），我们知道现在基本上所有大模型像GPT，Claude还有deepseekv3都是基于transformer架构的，而且这篇论文我读了一下可以说是瞄准了transformer架构的核心问题（没有像人一样的记忆模块），比如我们让一个人回答秦始皇是谁，正常人直接从脑子里面调出来就行了，这是一个比较固定的知识，而transformer则要动用好几层神经网络一点点算出来，虽然是可以得出答案的，但是太费计算资源了，而deepseek这次直接给transformer加了个电子脑（Engram模块），这可以让AI直接去查表，零点几秒甚至更快的就可以直接调出来秦始皇是嬴政，中国的第一位大一统皇帝这种固定的知识，而把宝贵的计算资源留给真正需要推理的任务，这篇论文相当于给AI装了一个速查手册，把一些固定知识存在一个巨大的词表里面（如四大发明），用的时候直接调出来，虽然Engram这个方法早就有了，但是deepseek把它现代化了，还解决了存储爆炸的问题，这里我就不细讲了。

那么之前了大模型都是用MoE框架来解决模型参数量大和计算成本之前的矛盾关系的，那么deepseek把MoE与Engram进行了一个比例分配，达成一个两者的完美配合，进一步的减少模型计算资源的消耗，因为之前都在研究如何让模型算的快，但是deepseek给了另一条路，就是让模型少算点，而且这样做还解放了推理能力，因为Engram把早期的一些神经网络解放了出来，省下来的深度就可以更好的服务推理链条，所以这篇论文很有可能会成为deepseekV4的核心框架。

曾经研究者们在模型稀疏化赛道上疯狂卷MoE架构，比谁的专家路由更高效，现在则多了第二条路条件记忆（condition memory），如果deepseek真的把这件事情做成了，那么将可能会成为AI领域的颠覆性事件。

但是今天我要分享的一篇论文是大模型发展史上的另一篇革命性的工作稀疏大模型—MoE架构。

作者：William Fedus*、Barret Zoph*、Noam Shazeer*

1、Google, Mountain View, CA 94043, USA

*Equal contribution(同等贡献)

论文地址：https://arxiv.org/abs/2101.03961

以下将从传统MoE架构、核心贡献、摘要、模型结构、方法、实验等几个部分来进行介绍！

1.1 MoE架构

在我们开始理解Switch Transformers（下称ST论文）这篇工作之前，我们得先理解MoE架构到底是什么？

基于此我们先来理解MoE与传统稠密大模型的区别：稠密大模型是全参数训练，可以理解成全员干活（如GPT-3），而MoE架构是按需上班，只激活少数专家，省算力提性能。

经典的transformer架构的核心模块主要是两个，一个是负责捕捉上下文关系的注意力机制Attention，另一个是负责加工和提炼信息的前馈神经网络FFN，过去的GPT系列之所以被称为稠密大模型就是因为他们的FFN层是一个完整的巨大的MLP，也就意味着输入进来的Token，每个参数均要参与计算，非常的稠密。

而MoE的核心思想就是把这个FFN层改掉，由一个什么都学什么都训的万事通改为一个由许多术业有专攻的专家组成的专家团队，上图右边中每一个小的FFN都称之为一个专家experts。

那么问题来了，输入的Token数据到底该哪个专家来处理呢？这个时候这个MoE架构中就出现了一个调度员的角色，也就是路由器（Router），它的任务就是判断每个Token的诉求，然后决定把它分配给哪些专家最合适，因为在实际计算的过程中，路由器只会挑选一部分专家被激活来处当前的token，而其他的专家则在旁边休息，完全不参与这次的计算，正是这种按需激活的特性，我们才把MoE模型称为稀疏模型（Sparse Model）。

那么我们为什么需要MoE这样的架构呢？这个就要从大模型发展的scaling law缩放定律说起，过去几年经过一系列的实践已经证明了这个定律是基本有效的，简单来说就是当我们从三个维度（模型大小、训练数据和计算量）去等比例的放大模型，那么模型的性能就会不断的提升，这在当时几乎成为整个大模型领域开发新模型的标准；

但是对于传统的稠密模型而言，在实践这条定律的时候会遇到一个问题，叫不可能三角，分别是--performance（模型性能）--cost（计算成本）--model size（模型规模），对于稠密模型来说，这三者你不可能同时拥有，因为你若要追求更强的性能，你就必须把模型的参数量做大，参数量大增加也就意味着每一次计算所激活的参数量也会同等增加，也直接导致了计算成本的爆炸式增长。

所以这三者相互制约，这也是稠密模型的不可能三角的瓶颈。这个时候MoE的优越性体现了，它的本质就是把模型的总参数规模（model size）和计算量（cost）进行解耦，意思就是说我们可以把模型的总参数量做的非常大，而把计算量控制在一个合理的范围内。

这就意味着在MoE架构中把总参数量，就是所有专家的参数量加起来的总和可以做的很大（万亿级别），让模型的性能不断的提高，而激活参数量activated parameter，就是实际参与计算的参数量（成本）放在合理的范围内，于是就打破了这个不可能三角，这也就是现在很多大模型（deepseek-v3，千问等）都基于MoE架构的核心解释。

我们理解了传统的MoE架构后便可以很容易的理解本篇论文的工作了！

1.2 核心贡献

—Switch Transformer架构，相比专家混合模型更简化并且改进了性能，提出“Switch Routing”—极简top-1路由，将经典MoE的top-k路由（通常k=2）彻底简化为只路由到单个专家（top-1）。

—大幅提升预训练计算效率，完全匹配FLOPs/token的前提下，基于T5-Base/Large的Switch版本实现最高7倍+的预训练速度提升，质量显著优于同等计算量的稠密T5模型，也优于同等计算量的经典top-2 MoE模型即使专家数很少（仅2~4个专家）仍然能获得明显加速，说明Switch架构在小规模计算资源下也有价值。

—首次实现真正万亿参数级语言模型的稳定预训练，在C4上预训练出参数量达到万亿级别的稀疏模型，相比当时最强稠密基线 T5-XXL，实现4倍预训练速度提升（同等计算资源）。

—提出一整套让超大规模稀疏模型稳定训练的关键工程技巧：①简化版负载均衡辅助损失，只用一个loss项就很好平衡专家负载；②专家初始化方差缩放，解决专家数量极多时的梯度爆炸/消失问题；③选择性精度训练：首次展示大规模稀疏模型可以用bfloat16稳定训练。

1.3 摘要

在深度学习中，模型通常对所有输入样本复用完全相同的参数。混合专家模型（Mixture of Experts, MoE）打破了这一范式，转而为每个输入样本动态选择不同的参数子集，从而构建出一种稀疏激活的模型——参数总量极其庞大，但每个样本的计算成本却保持恒定。尽管MoE已在若干重要任务上取得显著成功，但由于实现复杂、通信开销高以及训练不稳定性等原因，其广泛应用一直受到限制。

为解决上述问题，本文提出了 Switch Transformer。大幅简化了MoE的路由算法，并设计出更直观、高效的改进模型，有效降低了通信和计算开销。同时，本文提出了一系列训练技术，有效缓解了训练过程中的不稳定性，并首次实现了在较低精度格式（bfloat16）下对大规模稀疏模型的稳定训练。

本文基于T5-Base和T5-Large构建模型，在使用相同计算资源的情况下，预训练速度最高提升达7倍。这些改进在多语言场景中同样显著：在mT5-Base的基础上，本文在全部101种语言上均观测到性能提升，其中绝大多数语言获得了4倍以上的预训练速度加速。

最后，本文将语言模型的规模进一步推向新的高度：在“Colossal Clean Crawled Corpus”上预训练出参数量达到万亿级别的模型，与T5-XXL基线相比，预训练速度提升4倍。

2、模型结构（Pipline）

因为上面我们已经说明了MoE架构的概念和核心架构，这里我们就主要来阐述一下MoE架构是如何工作的；要理解ST的工作就需要先理解它和传统的MoE架构有什么区别？

上图是传统的MoE架构。

当用户的输入，也就是Token通过嵌入向量，经过自注意力层的处理之后，就来到了MoE层的入口。

首先它会进入Router（它本身也是一个小型的神经网络，比如一个线性层），它的作用就是对这些Token进行分析，输出一个专家选择倾向的概率分布。

这个时候其实有一个分水岭，原来的MoE架构是算两个概率也就是top-k，这里的k=2，也就是被激活的专家数为2，于是这里的Token就被发给了两个专家，然后分别对它进行计算，然后再把这两个专家的输出结果进行加权求和，这个权重就是Router算出来的概率值，这样就得到了融合两位专家智慧的最终结果，最后在经过残差连接和层归一化，这个token就在MoE层的处理就完成了，按道理来讲，融合两个专家的Token计算应该更为准确更平滑啊，可是为什么本文却只找一个专家来进行计算呢？后面我会详细来讲！下图是ST中的MoE架构。

3、方法

Switch Transformers 的设计指导原则是以简单且计算高效的方式最大化 Transformer 模型的参数数量。业界对规模效应进行了详尽研究，揭示了模型规模、数据集规模和计算预算之间的幂律关系。值得注意的是，这项工作倡导在相对较少的数据上训练大型模型，这是计算上最优的方式。

根据这些结果，本文研究了第四个方向：增加参数数量，同时保持每个样本的浮点运算量（FLOPs）不变。本文的假设是，参数数量独立于总计算量，是另一个重要的可扩展方向。本文通过设计一种稀疏激活模型来实现这一点，该模型能够高效利用为稠密矩阵乘法设计的硬件，如 GPU 和 TPU。本文的工作重点是 TPU 架构，但这一类模型也可以在 GPU 集群上进行类似训练。

在分布式训练设置中，稀疏激活层会将独特的权重分配到不同设备上。因此，随着设备数量的增加，模型的权重也会增加，同时每个设备的内存和计算占用仍然保持在可控范围内。

3.1 Simplifying Sparse Routing（简化稀疏路由）

公式解释：这里的公式用于描述传统的(MoE)层的路由机制。它们是传统MoE路由的数学表达，Switch Transformer在此基础上进行了简化；

这里，p_i(x)是专家 i 的门值概率。h(x) 是路由器（router）产生的logits向量， h(x) = W_r * x，其中 W_r 是路由器的可学习权重矩阵， x 是输入token的表示。总的来说这个公式是一个softmax函数，将logits归一化为概率分布。

那么下面这个公式就是它的输出层公式，y 是MoE层的输出，T是选定的top-k专家索引集合（即前k个最高概率的专家），E_i(x)是专家 i 对输入 x 的计算输出，就是我们前面提到的专家，通常是一个小型前馈网络FFN，那么最终的输出是选定专家计算结果的加权和，权重为对应的门值概率 p_i(x)

Switch 路由则重新思考混合专家模型，Shazeer 等人认为，为了让路由函数具有更出色的的梯度，路由到 k > 1 个专家是必要的。他们认为如果没有至少能够比较两个专家的能力，路由的学习将无法进行。Ramachandran 和 Le（2018）更进一步研究了 top-k 的决策，发现模型中较低层使用较大的 k 值对于具有多层路由的模型很重要。

与这些想法相反，本文采用了另一种简化的策略：仅路由到一个专家。本文展示了这种简化保留了模型质量，同时减少了路由计算量，并且表现更好。这种k=1的路由策略在后文中被称为 Switch 层。需要注意的是，对于 MoE 和 Switch 路由两种方式，公式 (2) 中的门控值 p_i(x)都允许对路由器进行可微分的操作。

Switch 层的好处有三方面：

（1）路由计算减少，因为本文只将一个token路由到单个专家（k=1）。

（2）每个专家的批量大小（专家容量）可以至少减半，因为每个token只被路由到单个专家。（3）路由实现简化，通信成本降低。

下面就来回答我前面遗留下来的一个问题，为什么本文只找一个专家来进行计算呢？而且效果也更好？
首先在预训练阶段，大规模的模型训练往往会涉及到百亿~万亿 token 级别的模型，这种情况会出现几个重要的现象：

①专家开始高度的专业化：当专家数量很多（几百～几千个）、训练数据极其充足时，不同的专家会自发地学会处理完全不同类型的问题，有的专家专门处理数学推理，有的专门处理代码，有的擅长中文语法、英文口语化表达等等，这种专业化程度非常高，单个专家已经可以做得非常好，而融合几个专家反而容易串；

②路由器的概率分配极端化：训练后期，路由器对绝大多数 token 的分配概率判断几乎是压倒性的（概率 0.95~0.999 给同一个专家），这时候 top-2 的第二个专家概率经常只有 0.01~0.05，甚至更低，加权平均几乎等价于：主要专家 × 0.98 + 次要专家 × 0.02 ≈ 主要专家，也就是说，top-2 在实际效果上已经非常接近 top-1，但付出了两倍的计算和通信代价。

③融合更多的专家反而会引入噪声，当专家已经高度特化后，错误地融合一个不该融合的专家，反而比只用最正确的那个专家更差，就比如说你有128个厨师，top-2的方式是你点一道菜，系统会选两位最匹配的厨师，两位厨师各做一半，然后把两盘菜混合给你；理论上味道更丰富、融合得好，但是厨房要同时给两个人发原料（通信翻倍），要洗两份盘子（内存翻倍），而且经常出现一个人忙不过来，另一个人非常闲的情况。

然后就是工程化方面，当k=2时需要更大的 capacity专家容量，通信量大，波动更大，更难平衡，而且需要多个专家输出，调度更复杂，训练的时候较容易出现震荡或崩溃（尤其大模型），这也是传统的MoE框架在这篇论文发表之前一直得不到普及的根本原因。

3.2 Efficient Sparse Routing（高效稀疏路由）

为了实现高效的稀疏路由，需要仔细管理每个专家处理的 token 数量。每个专家的容量定义为它可以处理的 token 最大数量。给定一个批次包含 T 个 token、E 个专家，本文将每个专家的容量设置为：

其中 capacity_factor 是一个超参数，用于控制每个专家的容量相对于平均分配的放大倍数。capacity_factor = 1.0 对应于每个专家恰好处理平均数量的 token（T/E）。更高的 capacity_factor 则为路由不均衡提供缓冲，从而减少 token 被丢弃（dropped）的概率。

在路由阶段，每个 token 根据路由器给出的最高概率被分配到对应的专家。如果某个专家收到的 token 数量超过了其容量，则多余的 token 将被丢弃（dropped），不会被该专家处理。

在容量因子较小时，路由不均衡会导致部分 token 被丢弃。为了缓解这一问题，本文引入了一个辅助负载均衡损失（auxiliary loss）并设置足够高的系数确保了良好的负载均衡。

可微分的负载均衡损失。为了鼓励专家间的负载均衡，本文添加了一个辅助损失。如同Shazeer et al. (2018); Lepikhin et al. (2020)，Switch Transformers简化了Shazeer et al. (2017)中的原始设计。对于每个Switch层，这个辅助损失在训练期间被添加到总模型损失中。给定N个专家（索引i=1到N）和一个包含T个token的批次B，辅助损失计算为向量f和P之间的缩放点积，该损失的定义为：

公式解析：fi 是第 i 个专家实际接收到的 token 比例（即实际分配的 token 数 / T），pi 是路由器对所有 token 分配给第 i 个专家的平均概率，α 是平衡系数（通常设为较小的值，如 0.01），N是专家总数，这个辅助损失项鼓励路由器使 f_i 与 P_i 尽可能接近，从而实现更均匀的专家负载分配，即当路由器认为某个专家应该收到很多 token（P_i 很大），但实际上分配得很少（f_i 小）时，loss 会变大迫使路由器调整。

由于本文寻求将批次中的token均匀路由到N个专家，希望两个向量都具有1/N的值。方程(4)的辅助损失鼓励均匀路由，因为它在均匀分布下被最小化。该目标也可以被微分，因为P向量是可微分的，但f向量不是。最后的损失乘以专家数量N，以在专家数量变化时保持损失恒定。

总的来说就是不均衡路由导致某些专家闲置（计算浪费），或过载（丢弃）。辅助损失会最小化不均衡，迫使路由器调整。

上面的公式可能非常抽象，下面我们结合示意图来进行讲解：

token 路由动态示意图：

每个专家处理的 token 数量是固定的，由容量因子进行调制。每个 token 被路由到路由概率最高的专家，但每个专家的处理容量固定为 (总 token 数 / 专家数) × 容量因子。如果 token 分配不均匀，某些专家会出现溢出（图中用红色虚线表示），这些溢出的 token 将无法被当前层处理（直接通过残差连接跳过）。增大容量因子可以缓解溢出问题，但同时也会增加计算量和跨设备通信成本（图中用空白/填充的白色槽位表示浪费的容量）。

专家（Experts）：分布在不同设备上，每个专家拥有自己独有的前馈网络参数，执行标准的前馈计算。

专家容量（Expert Capacity）：每个专家能处理的批次大小（即能同时处理的 token 数量）。计算公式为：(每批次总 token 数 / 专家总数) × 容量因子（capacity_factor）

容量因子（Capacity Factor）：用于计算专家容量时的放大系数。通过增大专家容量，为路由过程中的负载不均衡提供缓冲，从而缓解 token 溢出问题。

我们来假设一个简单场景：总 token 数 T = 6，专家数 E = 3，则按照计算公式每个专家理论平均容量 = 6 ÷ 3 = 2 个 token。

情况1：容量因子 = 1.0（理想容量，无缓冲），每个专家最多能处理 2 个 token（绿色/粉色/蓝色柱子各 2 格）
假设路由结果（实际发生的情况）：专家1 收到 3 个 token（溢出 1 个），专家2 收到 2 个 token（正好），专家3 收到 1 个 token（还有 1 格空）
结果：专家1 溢出 1 个 token（红色虚线箭头），这个 token 被丢弃（dropped），不经过该层专家计算，直接通过残差连接跳到下一层。
优点：计算和通信量最小，没有浪费槽位。缺点：有 token 被丢弃 → 信息损失（论文后面用 No-Token-Left-Behind 等技巧进行了缓解）

情况2：容量因子 = 1.5（有缓冲），每个专家容量放大到 2 × 1.5 = 3 个 token（每个柱子变成 3 格）
同样的路由分布：专家1 收到 3 个 token → 正好填满（不溢出），专家2 收到 2 个 token → 剩 1 格空，专家3 收到 1 个 token → 剩 2 格空。
结果：没有 token 被丢弃（无红色虚线）
但代价是：很多专家有空闲槽位（白色空白格），这些空位在分布式训练时仍然需要参与通信和内存分配 → 计算和通信浪费。

通过后面的一些实验发现：在大规模设置下，容量因子 1.0 ~ 1.25 是最优点！掉 token 率可以压到 <1%（通过辅助损失 + 好的初始化 + 残差直通等技巧），而此时速度和内存效率最高，能支持数百~上千专家，从而实现参数量爆炸式增长。现代 MoE 模型（Mixtral 8x7B、DeepSeek-MoE、Grok 等）基本都沿用了这个结论：容量因子基本在1.0~1.3 左右，宁可允许极少量掉 token，也要最大化专家数和参数效率。总的来说就是容量因子本质上是在“掉 token 的信息损失”vs“浪费计算/通信的资源损失”之间做权衡。Switch Transformer 证明在超大规模时代，小容量、少量掉 token的代价远比计算/通信的资源损失小得多。

4、实验

本文的实验有很多，这里我们主要来看看Scaling Properties这一块，这是是本篇论文结果和核心优势。本节呈现了对 Switch Transformer 架构在预训练期间缩放性质的研究。按照 Kaplan et al. (2020) 的做法，本文考虑一种使模型既不受计算预算限制也不受数据量限制的训练体制。为了避免数据瓶颈，本文使用了包含超过 1800 亿目标 token 的大型 C4 语料库，并训练到收益出现明显递减为止。

增加专家数量是本文扩展模型最高效的维度。增加专家数量几乎保持计算成本不变，因为模型对每个 token 只选择一个专家，无论可选择的专家总数是多少。路由器需要对更多专家计算概率分布，但这只是一个轻量级计算。

在本节中，分别从步数基础（step-basis）和时间基础（time-basis）两个角度展示缩放性质，并保持固定计算预算。

4.1 Scaling Results on a Step-Basis（步数基础）

下图显示，当所有模型训练相同步数时，随着专家数量增加，性能持续提升。这里观察到一个趋势：在保持每token FLOPs 固定的前提下，拥有更多参数（更多专家）能显著加速训练。左边展示了在固定每 token FLOPs 的情况下，稀疏模型参数量与测试损失之间的一致缩放关系。右边测量了稠密模型变体与四个计算量匹配（FLOP-matched）的稀疏变体的样本效率（sample efficiency）。我们发现，增加专家数量能带来更高的样本效率。本文的 Switch-Base 64 专家模型在第 60k 步达到了 T5-Base 模型在第 450k 步才达到的性能，相当于步数时间上的 7.5 倍加速。此外，本文也观察到更大模型本身也更具样本效率——在固定 token 数量下学习得更快。

Step-basis更加关注样本效率（相同数量的训练样本（tokens）时，能学到多少知识/达到多高的质量）。结论：专家越多 → 模型越“聪明”，并且获得了7.5× 步数加速。

4.2 Scaling Results on a Time-Basis（时间基础）

前面提到在步数基础上，随着专家数量增加，性能持续改善。虽然本文的模型每 token FLOPs 与基线大致相同，但 Switch Transformer 引入了额外的跨设备通信成本以及路由机制的额外计算。因此，步数基础上的样本效率提升并不一定能转化为时间上的性能优势。

这引出了一个核心问题：在固定训练时长和计算预算下，应该训练稠密模型还是稀疏模型呢？

下图回答了这个问题。以训练时间为横轴，测量预训练模型质量。对于固定训练时长和计算预算，Switch Transformer 带来了显著的加速。在该设置下，本文的 Switch-Base 64 专家模型只需 T5-Base 七分之一的时间，就能达到相似的复杂度，并且性能还在继续提升。

Time-basis关注真实训练速度（时间，包括通信、路由等开销）。结论：尽管有额外通信，Switch 仍然快 7倍（64 专家 vs T5-Base），因为计算主体（FFN）高度并行，通信开销被摊薄。

4.3 Scaling Versus a Larger Dense Model

上述分析表明，在计算量匹配的情况下，稠密模型被对应的 Switch 版本大幅超越。下图考虑了另一种场景：如果把资源用于训练一个更大的稠密模型呢？

本文将 Switch-Base 与下一个强基线 T5-Large 进行对比。尽管 T5-Large 每 token 应用了 3.5 倍的FLOPs，Switch-Base 仍然更具样本效率，并实现了 2.5 倍的加速。此外，本文进一步设计了一个新的更大稀疏版本 — Switch-Large，使其与 T5-Large 的 FLOPs 匹配。结果显示，它在缩放和后续微调上都表现出色。

即使拿来跟 T5-Large（参数量 ≈ 770M，FLOPs/token 高 3.5 倍）比：
参数量更大，但Switch-Base模型仍然更快、更高效，说明“稀疏参数量”这条轴的收益远超传统稠密缩放。
后续作者还做了 Switch-Large（FLOPs 计算开销匹配 T5-Large），性能进一步碾压，奠定了“稀疏路线更优”的基础。

5、结论

Switch Transformers 是可扩展且高效的自然语言学习模型。

本文简化了专家混合（Mixture of Experts）以创建一种易于理解、训练稳定且在样本效率上远超同等规模密集模型的架构。本文发现这些模型在各种自然语言任务中表现出色，并且在不同的训练模式下，包括预训练、微调和多任务训练，均表现优异。这些进展使得训练拥有数百亿到万亿参数的模型成为可能，并且相较于密集的 T5 基线模型，实现了显著的加速。

希望后续的工作能够激励稀疏模型作为一种有效的架构，并鼓励研究人员和从业者在自然语言任务及其他领域中考虑使用这些灵活的模型。

想法：

讲到这里其实这篇论文的核心内容已经讲的差不多了，后面就都是一些工程化的内容，一般包含蒸馏、微调、分布式训练和并行等等，我们平常接触预训练比较少，所以这里就不多赘述了。与大家分享这篇论文是为了让大家了解现阶段大模型的一个发展趋势和主要框架，而不是说仅仅只会用它去完成我的工作，大模型的发展已经渗透到各个领域，现在它已经不再是一个语言生成器了，而是一个从帮助决策到执行决策的闭环Agent，这两天阿里千问APP的发布会已经将基于大模型发展出来的Agent进行落地测试，大模型的创新一定是最前沿的，它的一些理论和工程化技术是完全可迁移的来为我们的研究服务，所以说它已经不是从前那个只会堆算力的”笨重“大模型了，而是一个既追求轻量化，也追求准确度，还能保证计算成本的”聪明“的智能体。