news 2026/1/26 6:36:37

Qwen3-Next技术揭秘:大参数+超长上下文+省算力的完美平衡

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen3-Next技术揭秘:大参数+超长上下文+省算力的完美平衡

Qwen3-Next是介于Qwen3和Qwen3.5之间的模型,拥有80B参数但实际只激活3B,支持超长上下文(262K-1M)。它采用Gated DeltaNet作为线性记忆主干处理长上下文,Gated Softmax Attention负责全局对齐,结合高稀疏MoE实现算力高效利用。该模型以十分之一的训练成本在多项任务上超越Qwen3-32B,在长上下文场景中表现尤为突出,实现了大参数、超长上下文和省算力的三重平衡。


背景

作为Qwen3到Qwen3.5的过渡,关于Qwen3-Next的公开介绍并不多,但在实际生产中却表现很好—80B参数、仅3B激活,既讲究算力节省,又把上下文一口气拉到二十多万乃至百万级,还用上了Gated DeltaNet、Gated Attention 和高稀疏 MoE 这套颇为新鲜的架构。我研究下来,Qwen3-Next模型,基本把大参数 + 超长上下文 + 省算力,三件事同时做成了。这篇博客给同样好奇的朋友提供一份参考。

  1. Gated DeltaNet https://arxiv.org/abs/2412.06464
  2. Gated Attention https://arxiv.org/abs/2505.06708
  3. Loss-Free Balancing MoE https://arxiv.org/abs/2408.15664
  4. Huggleface https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct

模型结构

区别于传统的Transformer架构,Qwen3-Next采用了Hybird Attention(混合注意力机制),每个注意力层组成是Gated DeltaNet Block ×3和Gated Softmax Attention Block ×1,共12个block,总共12 × 4 = 48层。

  • 总参数:约80B,由于采用高稀疏 MoE,每次推理实际只激活约 3B 参数;
  • 上下文长度:原生262K,可扩展到接近100万token;
  • 层数:48 层,隐藏维度 2048;
  • 结构:模型可视作 12 个大块,每块是Gated DeltaNet + MoE 连续 3 层,再接 1 层 Gated Attention + MoE;
  • 性能:以约十分之一的训练成本,便能在多项下游任务上超越 Qwen3-32B,并在 32K 以上长上下文场景中获得约十倍推理吞吐;在公开基准上,已经大体逼近Qwen3-235B 这一量级,同时在超长上下文任务上更具优势

Gated DeltaNet Block是注意力主干网络,负责超长上下文和信息传播;Gated Softmax Attention Block负责全局对齐和复杂推理。

Linear Attention

Gated DeltaNet 和 Gated Softmax Attention是对Linear Attention的改进。减少了长上下文,Linear Attention和self-Attention的误差。相较于传统的Self-Attention计算过程,Linear Attention最重要的改动是使用机器学习中的核函数的思想去掉softmax,然后使用矩阵乘法的交换律先计算了K⊤和V的矩阵乘法,因此Linear Attention的时间复杂度和空间复杂度都是O(n)。Linear Attention的原理请参考 Linear Attention(Transformers are RNNs)详解。

MoE: Loss-Free Balancing

Qwen3-Next的MoE采用Loss-Free Balancing,其工作流程可以简单概括为:用一个每个专家各自带偏置的门控分数来做路由,然后根据上一批次的负载,再把这些偏置慢慢调小或调大,从而在不引入额外损失项的情况下,把负载拉平。相对于直接在Loss上增加混合权重,这种方式可以达到Loss无损的复杂均衡。详见背景论文。

Gated Softmax Attention Block:线性注意力门控

这一层采用门控注意力,负责全局对齐和复杂推理,其结构是:

Norm → Gated Softmax Attention → Residual → Norm → MoE → Residual

  • Zero-Centered RMSNorm:对输入做归一化,保证数值稳定;
  • Gated Softmax Attention:这是这一层的token-mixer,细节见下节;
  • 残差连接;
  • Zero-Centered RMSNorm:输入MoE之前,再做一次Norm;
  • MoE: 用门控把 token 路由到少数几个 MLP 专家上,做前馈变换;
  • 残差连接;

Gated Softmax Attention

核心模块是Scaled Dot-Product Attention(SDPA),他本质上是一个低秩线性变换,就是在注意力输出上再套一层可学习的、依赖输入的非线性过滤器。典型的形式是:

简单来说,Gated Softmax Attention是先让普通注意力算一遍“该关注谁”,再用一个额外的、小而轻的门控网络,对每个head做一次 “软开关”——不重要的输出被压到接近 0,重要的被保留或放大。

Gated DeltaNet Block:线性注意力主干

这里层作为线性记忆主干,负责超长上下文和信息传播。其结构是:

Norm → Gated DeltaNet → Residual → Norm → MoE → Residual

这一层不是用 softmax 做自注意力,而是用 Gated Delta Rule 维护一个线性时间的记忆矩阵St,通过Q/K/V、α、β 这几路信号完成“按需遗忘 + 精确写入”,再配合输出门和后续 MoE,构成 Qwen3-Next 在超长上下文场景中的主要记忆主干。其中α、β为了适配Gated Delta Rule而增加的两个可学习参数。

Gated DeltaNet Rule

此结构是Nvidia在2024年提出的Hybird Attention(见背景链接),分为两部分,一部分是Gate,本质是SDPA,一部分是DeltaNet,下面详细介绍这个概念。 Gated DeltaNet 把线性注意力写成一个有门控的记忆更新方程:

公式推到:

Delta Relu其实就是做一次梯度更新,Delta 规则(Delta rule)就是“用误差来更新权重”的最基本形式:

新权重=旧权重+学习率×(目标−当前输出)×输入

形如:

得出一个纯Delta规则的表达式:

总结

Qwen3-Nex主要贡献是:

  1. 把模型做大,但算力花得更精细:依靠MoE, 总参数 80B,但每个 token 只激活约 3B 参数;
  2. 把上下文拉长,但保留精细建模能力: 以 Gated DeltaNet 作为线性记忆主干,负责超长上下文和信息传播;每隔几层插一层 Gated Softmax Attention,负责全局对齐和复杂推理;
  3. 让训练和推理都更稳:用 zero-centered RMSNorm、输出门控等手段稳定训练,并结合MTP,提高训练推理效率,在多项基准上接近甚至追平更大体量模型,同时长上下文场景有明显优势。

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/22 20:24:19

SMU调试工具:揭秘AMD处理器电源管理的终极解决方案

SMU调试工具:揭秘AMD处理器电源管理的终极解决方案 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://gitco…

作者头像 李华
网站建设 2026/1/20 9:57:20

词达人自动化助手:如何让英语词汇学习效率提升10倍

词达人自动化助手:如何让英语词汇学习效率提升10倍 【免费下载链接】cdr 微信词达人,高正确率,高效简洁。支持班级任务及自选任务 项目地址: https://gitcode.com/gh_mirrors/cd/cdr 每到英语词汇任务截止日期前夜,你是否也…

作者头像 李华
网站建设 2025/12/22 20:23:42

WenQuanYi Micro Hei终极指南:跨平台开源字体快速安装教程

WenQuanYi Micro Hei终极指南:跨平台开源字体快速安装教程 【免费下载链接】fonts-wqy-microhei Debian package for WenQuanYi Micro Hei (mirror of https://anonscm.debian.org/git/pkg-fonts/fonts-wqy-microhei.git) 项目地址: https://gitcode.com/gh_mirro…

作者头像 李华
网站建设 2026/1/20 19:52:12

2025程序员转行AI大模型全攻略:后端开发轻松转型大模型应用开发,零基础突围路线图!非常详细建议收藏!

大模型不是风口,而是新大陆!错过AI浪潮的程序员,可能错过未来十年的职业黄金期。2025年,全球大模型产业规模已突破5000亿美元,核心岗位缺口超百万级,资深算法工程师年薪直逼200万61。当传统开发岗位内卷加剧…

作者头像 李华
网站建设 2026/1/12 22:10:09

Windows字体渲染问题诊断与MacType优化解决方案

Windows字体渲染问题诊断与MacType优化解决方案 【免费下载链接】mactype Better font rendering for Windows. 项目地址: https://gitcode.com/gh_mirrors/ma/mactype 问题诊断:Windows字体渲染的技术瓶颈 您在Windows系统上是否经常遇到文字显示模糊、边缘…

作者头像 李华
网站建设 2026/1/24 20:40:12

ThinkPad双风扇控制终极指南:告别噪音与高温困扰

ThinkPad双风扇控制终极指南:告别噪音与高温困扰 【免费下载链接】TPFanCtrl2 ThinkPad Fan Control 2 (Dual Fan) for Windows 10 and 11 项目地址: https://gitcode.com/gh_mirrors/tp/TPFanCtrl2 作为一名ThinkPad用户,你是否曾经为笔记本在高…

作者头像 李华