智谱发布并开源具备原生工具调用能力的GLM-4.6V多模态模型系列,同步开源让手机自动驾驶的AutoGLM,并上线基于SOTA语音模型的桌面端输入法。
此次发布的GLM-4.6V系列包含两个版本,106B参数的各种高算力场景基座模型,以及9B参数的端侧轻量化模型,训练上下文长度扩展至128k。在视觉理解精度上达到同参数规模SOTA,并首次在模型架构中将工具调用能力原生融入视觉模型。
与此同时,AutoGLM开源了核心模型与Phone Use(手机使用)能力框架,GLM-ASR语音识别模型则通过输入法产品将语音转文字、代码编写与润色功能带入PC桌面。
它们共同构成了一个完整的技术叙事:AI不再仅仅是聊天框里的文字生成器,它拥有了原生的视觉、听觉,以及直接操控数字设备的手。
原生多模态工具调用:GLM-4.6V的核心进化
传统的大语言模型在使用工具时存在明显的断层。
模型通常需要将图像、视频等多模态信息转化为纯文本描述,再传递给工具。
这一过程不仅繁琐,更会导致关键视觉信息的丢失。
GLM-4.6V彻底改变了这一路径。
它实现了原生的多模态工具调用。
图片、截屏、文档页可以直接作为参数传递给工具,无需预先转译为文字。
模型能够直接看懂工具返回的结果。
无论是搜索结果的缩略图、统计图表,还是网页渲染截图,GLM-4.6V都能将其纳入推理链条,生成包含丰富视觉信息的最终回复。
这种能力让感知-理解-执行的闭环变得紧凑且高效。
在电商购物场景中,GLM-4.6V 模型可以独立完成从看图、比价、生成导购清单的完整链路。
上传一张街拍图,下达“搜同款”指令,模型识别出购物意图,并自主规划调用相关工具。
在京东、唯品会、拼多多等平台返回的多模态、非结构化结果基础上,模型自动完成信息清洗、字段归一化与结果对齐,过滤噪声和重复项。
最终生成一张标准化导购表格,包含平台与店铺来源、价格、商品缩略图、匹配度与差异说明,以及可直接跳转的购买链接。
在富文本内容的理解与创作上,GLM-4.6V展现了端到端的能力。
面对论文、研报或PPT,模型能自动生成图文并茂的结构化内容。
它能理解包含图表、公式的复杂文档。
在生成过程中,它会自主调用工具裁剪关键视觉素材。
它甚至能对素材进行视觉审计,筛选掉无关噪点,像一位专业的编辑那样排版。
最终产出的是一篇可以直接发布在社交媒体或知识库中的高质量图文文章。
甚至能多份文档自动汇总对比分析,在长窗口条件下依然保持关键信息不丢失。
前端开发的设计到代码周期被大幅压缩。
GLM-4.6V针对前端场景进行了专项优化。
用户上传一张截图或设计稿,模型即可识别布局、组件和配色。
它能直接生成高保真的HTML、CSS和JS代码,实现像素级复刻。
交互修改变得符合直觉。
用户只需在页面截图上圈出区域,用自然语言下达左移按钮、改深蓝色等指令。
模型会自动定位代码片段并完成修改。
长上下文理解能力是GLM-4.6V的另一块基石。
128k的视觉编码上下文长度,相当于单次推理能处理150页复杂文档、200页幻灯片或1小时视频。
在金融研报分析场景中,它能同时处理4家上市公司的财报。
模型抽取核心指标,合成对比分析表,关键细节毫发无损。
在视频理解方面,它既能进行全局摘要,也能捕捉时间线上的细微线索。
例如在整场足球比赛视频中,它能精准总结进球事件及其具体时间点。
GLM-4.6V在MMBench、MathVista等20多个主流多模态评测中取得了开源模型中的SOTA(目前最佳)成绩。
技术实现上,GLM-4.6V引入了大规模长上下文图文数据进行持续预训练。
它借鉴了Glyph的视觉语言压缩对齐思想,增强了视觉编码与语言语义的协同。
10亿级规模的多模态感知与世界知识数据集被引入预训练。
这构建了多层次的概念系统,大幅提升了跨模态问答的准确性。
针对Agent(智能体)训练,GLM-4.6V扩展了MCP(模型上下文协议)。
它使用URL(统一资源定位符)来标识多模态内容,解决了文件传输的限制。
这允许模型在多图上下文中精准操作特定图片。
在输出端,模型采用了草稿-选图-润色的端到端机制,确保图文混排的流畅性。
强化学习被引入工具调用训练。
这让模型在复杂的工具链中能更好地规划任务、遵循指令。
视觉反馈循环机制让模型能根据渲染结果自我修正代码,验证了智能体自我进化的可能。
现在,用户可以在Z.ai平台、智谱清言App体验GLM-4.6V,或通过OpenAI兼容API接入应用。
权重文件已在HuggingFace和ModelScope上架,支持vLLM等高吞吐推理框架。
AutoGLM开源:把手机操作权交还给用户
AutoGLM的愿景很简单:让AI像人一样,拿起手机,把事情从头做到尾。
它不应只停留在聊天框,而应走进App,帮用户点外卖、处理通知、完成重复性工作。
为了实现这一目标,智谱探索了32个月。
从2023年4月起,团队从零构建了Phone Use(手机使用)能力框架。
早期版本充满了乱点和死循环。
团队花了近一年时间,将点击、滑动、输入等基础动作抽象化。
模型学会了将自然语言拆解为稳定的操作步骤。
它学会了应对网络波动、弹窗广告等真实世界的脏信息。
2024年10月,AutoGLM发布,成为首个具备真机操作能力的AI Agent(智能体)。
11月,它发出了人类历史上第一个由AI在手机上完成的红包。
这不是脚本录制,而是模型看见界面、理解含义后的一步步操作。
2025年,AutoGLM 2.0发布。
它引入了MobileRL(移动端强化学习)等算法,在数千个虚拟设备中进行训练。
为了安全,AutoGLM选择在云端虚拟手机中运行。
操作可以回放、审计,敏感数据严格隔离。
它不会在用户真实手机的微信里肆意操作。
现在,智谱选择将其开源。
因为手机操作能力不应掌握在少数厂商手中。
它应该成为行业的公共底座。
开发者可以将其作为积木,构建自己的系统。
数据和隐私的控制权,必须留在使用方一侧。
企业可以在私有环境中完整掌控数据和权限。
智谱希望通过开源,让所有人站在同一起跑线上。
开源内容包括训练好的核心模型AutoGLM-Phone-9B、Phone Use能力框架、可跑通的Demo(演示)以及Android适配层。
模型采用MIT协议,代码采用Apache-2.0协议。
GLM-ASR与智谱AI输入法:指尖即模型
语音交互是人机交互的重要一环。
智谱发布并开源了GLM-ASR系列语音识别模型。
GLM-ASR-2512是云端模型,字符错误率仅为0.0717。
GLM-ASR-Nano-2512是1.5B参数的端侧模型,却取得了当前开源语音识别方向的SOTA表现,并在部分测试中优于若干闭源模型。实现了低延迟与高隐私保护的平衡。
基于模型能力,智谱AI输入法正式上线桌面端。
它不再只是把话变成字。
它实现了所选即所改。
用户在输入框内即可调用模型进行翻译、扩写、润色。
理解、执行、替换一气呵成,无需切换应用。
输入法支持千人千面的人设切换。
面对老板时,它将口语转化为逻辑严谨的汇报。
面对伴侣时,它将文字变得温柔俏皮。
对于开发者,Vibe Coding(语感编程)功能尤为实用。
通过语音,开发者可以快速输入代码逻辑、查找Linux指令或编写脚本。
设计师也能用语音指令辅助设计工作。
针对公共场所,输入法优化了耳语捕捉能力。
轻声说话也能精准识别,避免了办公室语音输入的尴尬。
它支持导入专属词汇和项目代号,一次设置,永久生效。
目前,云端模型已在bigmodel.cn开放调用。
端侧模型权重及推理代码已在社区开源。
智谱AI输入法面向所有用户开放下载,并免费提供2000积分。
智谱正式打通了从视觉、听觉感知到工具执行的最后一公里,我们离解放双手,让电脑、手机操作自动化不远了。
智谱AI输入法:
https://autoglm.zhipuai.cn/autotyper/
参考资料:
https://z.ai/blog/glm-4.6v
https://github.com/zai-org/GLM-V
https://huggingface.co/collections/zai-org/glm-46v
https://modelscope.cn/collections/GLM-46V-37fabc27818446
https://github.com/zai-org/Open-AutoGLM
https://huggingface.co/zai-org/AutoGLM-Phone-9B
https://huggingface.co/zai-org/GLM-ASR-Nano-2512