news 2026/6/12 20:14:02

GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的2倍。

不管Pony Alpha是不是智谱的,下一代旗舰大模型GLM-5都要来了。

GitHub代码确认,新一代架构细节曝光。

GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的2倍。

与此同时,OpenRouter平台上突然出现的神秘匿名模型「Pony Alpha」,编程和推理能力极为强劲,被社区91%以上的用户判断为GLM-5测试版。

受这些消息影响,智谱AI港股两日暴涨60%。

开源代码泄露参数架构

GLM-5的架构信息并非来自智谱官方,而是被开源社区从代码提交中“挖”出来的。

在vLLM推理框架的PR中,开发者发现GLM-5的实现逻辑被直接映射到了DeepSeek-V3的组件上。

GLM-5继承的第一项核心技术是DeepSeek稀疏注意力(DeepSeek Sparse Attention,DSA)。

DSA通过两阶段流程做到长文本处理效率大幅提升,输出质量几乎不受影响。

首先由Lightning Indexer轻量级组件快速扫描所有历史token并打分,评估它们与当前query token的相关性;然后只挑选得分最高的Top-k个token进行完整的注意力计算,其余全部跳过。

第二项技术是多Token预测(Multi-Token Prediction,MTP),用于提升模型的生成效率。

从代码中推断出的架构参数看,GLM-5包含78层隐藏层,采用MoE(混合专家)架构,共256个专家,每次推理激活8个,激活参数约44B,稀疏度5.9%,与DeepSeek-V3.2的5.4%基本持平。

上下文窗口支持最高202K token。

有开发者指出,复用DeepSeek架构意味着GLM-5可以直接受益于vLLM、SGLang等推理框架已有的优化,部署门槛会更低。

但也有人提出疑问:DeepSeek-V3架构以纯文本为主,GLM-5首发版本是否会因此缺失多模态能力?

匿名测试与春节档大混战

2月初,OpenRouter平台上新匿名免费模型,代号「Pony Alpha」,支持200K上下文窗口。

模型一上线就引起了开发者社区的广泛关注,它的编程能力非常突出,能根据单条提示直接生成完整的功能性应用程序,在复杂推理和Agent工作流上同样表现出色。

“这到底是谁家的模型”迅速成为社区热议话题。

指向GLM-5的证据链覆盖了多个维度:

时间上,「Pony Alpha」出现的节点与智谱首席科学家唐杰多次暗示的GLM-5发布窗口完全吻合。

有开发者测试发现该模型对特定token的反应和GLM系列一致。

风格上,它的输出排版习惯也与GLM系列高度一致。

GLM-5的发布窗口,恰好撞上了一个异常拥挤的档期。

唐杰在内部信中已明确预告GLM-5即将发布,多方信息指向2026年2月中旬,即春节前后。

而在同一时间段,DeepSeek新模型、Qwen 3.5、MiniMax M2.2等模型也都有消息将发布更新。

2026年的“春节档”,AI比电影那边还热闹。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 12:35:56

自动称重控制系统的软件设计

自动称重控制系统的软件设计与实现 第一章 设计背景与核心目标 传统称重系统软件多为单一数据显示功能,存在数据采集精度低、操作依赖人工、缺乏自动化触发逻辑、数据无法实时上传与追溯等问题,难以满足工业生产、物流分拣等场景“精准计量、自动控制、数…

作者头像 李华
网站建设 2026/5/31 9:46:09

基于STM32的智能停车场设计

基于STM32的智能停车场设计与实现 第一章 设计背景与核心目标 传统停车场多依赖人工登记、人工找位、现金缴费,存在车位利用率低(≤60%)、管理效率差、车主找位耗时(平均5-10分钟)、缴费排队等问题,难以满足…

作者头像 李华
网站建设 2026/6/10 13:29:23

计算机毕业设计springboot在线农产品购物网站 基于Spring Boot的生鲜农产品电商平台设计与实现 乡村特产在线销售系统开发——采用Spring Boot框架

计算机毕业设计springboot在线农产品购物网站lzggid8e (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着信息技术的飞速发展和互联网经济的蓬勃兴起,传统农产品销售…

作者头像 李华
网站建设 2026/5/30 17:42:11

两个bm|分块

C 分块算法模板&#xff0c;适合区间修改、区间查询类问题&#xff08;如区间加、区间和&#xff09;&#xff0c;直接就能用#include <iostream>#include <vector>#include <cmath>using namespace std;const int MAXN 1e5 5;int a[MAXN]; // 原数组long …

作者头像 李华
网站建设 2026/5/30 16:58:02

在web页面中,JAVA如何解决大文件上传的难题?

大文件传输解决方案建议书 一、需求分析与技术挑战 作为福建IT行业软件公司项目负责人&#xff0c;针对贵司提出的大文件传输需求&#xff0c;我进行了全面分析&#xff0c;发现以下几个核心挑战&#xff1a; 超大文件传输稳定性&#xff1a;单文件100G的传输及断点续传文件…

作者头像 李华
网站建设 2026/6/10 14:13:53

JAVA上传目录结构到网页有哪些技巧?

大文件传输系统建设方案 一、需求分析与技术选型 作为项目负责人&#xff0c;针对公司核心需求&#xff0c;需解决以下关键技术挑战&#xff1a; 跨平台兼容性&#xff1a;需兼容IE8等老旧浏览器及Windows 7环境高并发稳定性&#xff1a;避免传统打包下载导致的内存溢出问题…

作者头像 李华