GLM-4.5-Air-FP8开源：120亿活跃参数智能体基座新选择-开发者社区

GLM-4.5-Air-FP8模型正式开源，以120亿活跃参数的高效设计和FP8量化技术，为智能体应用开发提供了兼顾性能与部署成本的新选择，推动开源大模型在智能体领域的商业化落地。

【免费下载链接】GLM-4.5-Air-FP8GLM-4.5系列模型是专为智能体设计的基座模型。GLM-4.5拥有3550亿总参数和320亿活跃参数，而GLM-4.5-Air采用更紧凑的设计，总参数为1060亿，活跃参数为120亿。GLM-4.5模型统一了推理、编程和智能体能力，以满足智能体应用的复杂需求。项目地址: https://ai.gitcode.com/zai-org/GLM-4.5-Air-FP8

行业现状：智能体时代呼唤高效基座模型

随着大语言模型技术的快速迭代，智能体（Agent）已成为行业发展的重要方向。这类能够自主规划、调用工具并完成复杂任务的AI系统，正在重塑客服、教育、医疗等多个领域的服务形态。然而，当前主流大模型普遍面临"性能-效率"两难：参数量超过千亿的大模型虽能力强劲，但部署成本高昂；轻量级模型虽易于部署，却难以满足智能体所需的复杂推理和工具使用能力。

市场调研显示，2024年全球智能体相关应用融资规模同比增长217%，但超过60%的企业在落地过程中受限于模型部署成本。在此背景下，兼具高性能与部署效率的智能体基座模型成为行业迫切需求。GLM-4.5系列正是在这一背景下推出，其Air-FP8版本通过创新的架构设计和量化技术，试图解决这一行业难题。

模型亮点：高效能与多功能的平衡之道

GLM-4.5-Air-FP8作为专为智能体设计的基座模型，其核心优势体现在三个维度：

创新混合架构设计

该模型采用"1060亿总参数+120亿活跃参数"的混合专家（MoE）架构，在保证模型能力的同时大幅提升计算效率。不同于传统密集型模型，GLM-4.5-Air-FP8仅激活部分专家网络处理输入，使计算资源集中在关键任务上。这种设计使模型在12行业标准基准测试中获得59.8分的优异成绩，接近全尺寸模型的性能表现。

双推理模式与工具使用能力

针对智能体应用场景，模型创新性地提供"思考模式"和"非思考模式"双选项。前者适用于复杂推理和工具调用场景，模型会生成中间思考过程并规划工具使用步骤；后者则针对简单问答，直接输出结果以提升响应速度。这种灵活性使模型能适应从客服对话到数据分析的多样化智能体需求。

FP8量化与部署效率优化

作为系列中的高效部署版本，GLM-4.5-Air-FP8采用FP8量化技术，相比BF16版本模型体积减少50%，显存占用显著降低。根据官方测试数据，在H100 GPU上部署时，FP8版本仅需2张显卡即可运行基础功能，4张显卡即可支持128K上下文长度的全功能推理，硬件门槛大幅降低。这一优化使中小企业也能负担智能体系统的部署成本。

行业影响：降低智能体开发门槛的关键一步

GLM-4.5-Air-FP8的开源发布将对AI行业产生多维度影响：

在技术层面，该模型验证了"小活跃参数+量化技术"路线在智能体领域的可行性，为后续模型优化提供了参考方向。其混合推理模式的设计思路，也为智能体与工具的协同交互树立了新范式。

商业应用方面，模型的高效部署特性将加速智能体技术的普惠。传统需要数十张高端GPU支撑的智能体系统，现在可在单张H20或两张H100显卡上运行，硬件成本降低70%以上。这使得电商客服、企业知识库、智能数据分析等场景的AI应用落地速度将显著加快。

开源生态角度，GLM-4.5-Air-FP8采用MIT许可证发布，支持商业使用和二次开发，这将吸引大量开发者基于该模型构建垂直领域智能体应用。目前Hugging Face、ModelScope等平台已提供模型下载，vLLM和SGLang等推理框架也完成适配，开发者生态正在快速形成。

结论与前瞻：智能体开发进入"高效能"时代

GLM-4.5-Air-FP8的开源标志着智能体基座模型正式进入"性能-效率"平衡发展的新阶段。120亿活跃参数与FP8量化技术的结合，既突破了轻量级模型能力上限，又解决了大模型部署成本过高的行业难题。

未来，随着模型优化技术的持续进步，我们或将看到更多"小而美"的智能体基座模型出现。而GLM-4.5系列通过开源构建的技术生态，也有望推动智能体开发标准化，使企业能更专注于业务场景创新而非底层技术实现。对于开发者而言，这一模型提供了一个理想的起点，无论是构建企业级智能助手，还是探索教育、医疗等垂直领域的AI应用，都将从中受益。

在AI技术日益强调落地价值的今天，GLM-4.5-Air-FP8的推出无疑为智能体的商业化普及注入了强劲动力，其开源模式也将加速整个行业的创新步伐。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考