Qwen3-Next是介于Qwen3和Qwen3.5之间的模型,拥有80B参数但实际只激活3B,支持超长上下文(262K-1M)。它采用Gated DeltaNet作为线性记忆主干处理长上下文,Gated Softmax Attention负责全局对齐,结合高稀疏MoE实现算力高效利用。该模型以十分之一的训练成本在多项任务上超越Qwen3-32B,在长上下文场景中表现尤为突出,实现了大参数、超长上下文和省算力的三重平衡。
背景
作为Qwen3到Qwen3.5的过渡,关于Qwen3-Next的公开介绍并不多,但在实际生产中却表现很好—80B参数、仅3B激活,既讲究算力节省,又把上下文一口气拉到二十多万乃至百万级,还用上了Gated DeltaNet、Gated Attention 和高稀疏 MoE 这套颇为新鲜的架构。我研究下来,Qwen3-Next模型,基本把大参数 + 超长上下文 + 省算力,三件事同时做成了。这篇博客给同样好奇的朋友提供一份参考。
- Gated DeltaNet https://arxiv.org/abs/2412.06464
- Gated Attention https://arxiv.org/abs/2505.06708
- Loss-Free Balancing MoE https://arxiv.org/abs/2408.15664
- Huggleface https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
模型结构
区别于传统的Transformer架构,Qwen3-Next采用了Hybird Attention(混合注意力机制),每个注意力层组成是Gated DeltaNet Block ×3和Gated Softmax Attention Block ×1,共12个block,总共12 × 4 = 48层。
- 总参数:约80B,由于采用高稀疏 MoE,每次推理实际只激活约 3B 参数;
- 上下文长度:原生262K,可扩展到接近100万token;
- 层数:48 层,隐藏维度 2048;
- 结构:模型可视作 12 个大块,每块是Gated DeltaNet + MoE 连续 3 层,再接 1 层 Gated Attention + MoE;
- 性能:以约十分之一的训练成本,便能在多项下游任务上超越 Qwen3-32B,并在 32K 以上长上下文场景中获得约十倍推理吞吐;在公开基准上,已经大体逼近Qwen3-235B 这一量级,同时在超长上下文任务上更具优势
Gated DeltaNet Block是注意力主干网络,负责超长上下文和信息传播;Gated Softmax Attention Block负责全局对齐和复杂推理。
Linear Attention
Gated DeltaNet 和 Gated Softmax Attention是对Linear Attention的改进。减少了长上下文,Linear Attention和self-Attention的误差。相较于传统的Self-Attention计算过程,Linear Attention最重要的改动是使用机器学习中的核函数的思想去掉softmax,然后使用矩阵乘法的交换律先计算了K⊤和V的矩阵乘法,因此Linear Attention的时间复杂度和空间复杂度都是O(n)。Linear Attention的原理请参考 Linear Attention(Transformers are RNNs)详解。
MoE: Loss-Free Balancing
Qwen3-Next的MoE采用Loss-Free Balancing,其工作流程可以简单概括为:用一个每个专家各自带偏置的门控分数来做路由,然后根据上一批次的负载,再把这些偏置慢慢调小或调大,从而在不引入额外损失项的情况下,把负载拉平。相对于直接在Loss上增加混合权重,这种方式可以达到Loss无损的复杂均衡。详见背景论文。
Gated Softmax Attention Block:线性注意力门控
这一层采用门控注意力,负责全局对齐和复杂推理,其结构是:
Norm → Gated Softmax Attention → Residual → Norm → MoE → Residual
- Zero-Centered RMSNorm:对输入做归一化,保证数值稳定;
- Gated Softmax Attention:这是这一层的token-mixer,细节见下节;
- 残差连接;
- Zero-Centered RMSNorm:输入MoE之前,再做一次Norm;
- MoE: 用门控把 token 路由到少数几个 MLP 专家上,做前馈变换;
- 残差连接;
Gated Softmax Attention
核心模块是Scaled Dot-Product Attention(SDPA),他本质上是一个低秩线性变换,就是在注意力输出上再套一层可学习的、依赖输入的非线性过滤器。典型的形式是:
简单来说,Gated Softmax Attention是先让普通注意力算一遍“该关注谁”,再用一个额外的、小而轻的门控网络,对每个head做一次 “软开关”——不重要的输出被压到接近 0,重要的被保留或放大。
Gated DeltaNet Block:线性注意力主干
这里层作为线性记忆主干,负责超长上下文和信息传播。其结构是:
Norm → Gated DeltaNet → Residual → Norm → MoE → Residual
这一层不是用 softmax 做自注意力,而是用 Gated Delta Rule 维护一个线性时间的记忆矩阵St,通过Q/K/V、α、β 这几路信号完成“按需遗忘 + 精确写入”,再配合输出门和后续 MoE,构成 Qwen3-Next 在超长上下文场景中的主要记忆主干。其中α、β为了适配Gated Delta Rule而增加的两个可学习参数。
Gated DeltaNet Rule
此结构是Nvidia在2024年提出的Hybird Attention(见背景链接),分为两部分,一部分是Gate,本质是SDPA,一部分是DeltaNet,下面详细介绍这个概念。 Gated DeltaNet 把线性注意力写成一个有门控的记忆更新方程:
公式推到:
Delta Relu其实就是做一次梯度更新,Delta 规则(Delta rule)就是“用误差来更新权重”的最基本形式:
新权重=旧权重+学习率×(目标−当前输出)×输入形如:
得出一个纯Delta规则的表达式:
总结
Qwen3-Nex主要贡献是:
- 把模型做大,但算力花得更精细:依靠MoE, 总参数 80B,但每个 token 只激活约 3B 参数;
- 把上下文拉长,但保留精细建模能力: 以 Gated DeltaNet 作为线性记忆主干,负责超长上下文和信息传播;每隔几层插一层 Gated Softmax Attention,负责全局对齐和复杂推理;
- 让训练和推理都更稳:用 zero-centered RMSNorm、输出门控等手段稳定训练,并结合MTP,提高训练推理效率,在多项基准上接近甚至追平更大体量模型,同时长上下文场景有明显优势。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**