news 2026/4/21 6:12:36

告别算力焦虑:硅基流动“弹性 GPU”公测上线

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别算力焦虑:硅基流动“弹性 GPU”公测上线

过去两年,我们通过 MaaS 落地了“Token 工厂”构想,帮助开发者与企业客户加速 AI 应用落地。

我们的公有云 MaaS 已服务近 1,000 万用户及 10,000 家企业客户,日均生成数千亿 Token;私有化 MaaS 在能源、金融、互联网等多个行业落地,让客户无需深入算力运维的复杂细节,高效推进智能化转型。

这一切背后,依托于硅基流动灵活、便捷、可靠的算力调度能力。今天,这份经过超大规模生产级环境检验的强大底层能力以独立服务对外开放。我们推出“弹性 GPU”服务,满足用户自主、高效部署任意模型及各类计算密集型服务的进阶需求。

弹性 GPU 服务不是简单的算力租赁,而是 AI 云原生、极致弹性与企业级高可用的新一代算力调度引擎。它支持多元异构芯片与主流推理框架,可一键部署、极速启动,提供高可用稳定运行,让你从繁重的资源管理中解放,以更高效、更高性价比的方式将 AI 推理服务部署于云端,享受“黑灯工厂”般的自动化算力体验。

定义新一代算力调度:四大核心能力解读

弹性 GPU 的核心能力及价值主要体现在以下方面:

弹性:真正的 Serverless GPU,闲时资源归零

动态响应峰谷,让每一分钱都花在刀刃上。公有云 MaaS 每天在百余款模型之间发生上万次扩缩容,这套经过实战检验的自动动态算力调度能力完全开放。

它可快速扩容以承载瞬时并发;在闲时,则可将资源智能释放至“零”,彻底消除闲置成本。我们提供按需、抢占、预留多种计费模式,让你无需再为不可预测的流量预付大量成本,也无需因资源不足而错失业务机遇。

兼容:屏蔽芯片差异,异构算力极致性价比

抹平算力差异,聚焦业务创新本身。无论你使用 NVIDIA、华为昇腾、沐曦还是摩尔线程等芯片,均可获得一致、高效的部署体验。

结合硅基流动自研推理加速引擎,针对 LLM、ComfyUI 工作流进行深度优化,显著缩短生成耗时。你可以像我们的公有云 MaaS 一样,用高性价比算力做预处理,用高性能算力做推理输出,在多元算力环境中,将异构集群的性价比压榨到极致。

高效:开箱即用,交付生产级推理端点

生产级部署缩短到“分钟”。基于与公有云 MaaS 同源的推理加速技术,我们提供的 GPU 云函数模板,让用户一键部署平台已有的百款模型,即可获得与 Serverless API 一致的使用体验,包括支持 PD 分离、多机并行等高级特性。

无论是基于硅基流动自研推理框架,还是 vLLM、SGLang 等开源框架的模型服务,亦或是复杂 ComfyUI 工作流,均可实现“快捷自定义部署,分钟级上线”。你获得的不再是基础资源,而是一个开箱即用、稳定可靠的生产级推理服务端点。

稳健:企业级高可用,支持纳管自有算力

为严苛场景而生,支持混合云统一管控。通过多区域、多集群部署保障服务高可用与负载均衡;凭借多层次安全隔离满足金融、政务等场景的严苛合规要求;可自动敏捷故障探测与智能异常处理。同时支持纳管自有算力,构建私有弹性集群,实现混合云环境的统一调度与全局管理。

深入核心生产环节:三大场景解决方案

基于以上能力,弹性 GPU 服务已能深入支撑以下各类生产场景,典型应用包括:

专属实例:对服务连续性与稳定性要求极高的场景,提供专属、稳定的计算实例,同时保持按需自动扩缩容能力,在保障体验的同时实现降本增效。

私有化模型部署:可快速部署语言、图片、语音等自有模型,高效完成从模型部署到可调用 API 服务的完整实验流程,大幅缩短模型研发到验证的周期。模型部署后支持对企业内部提供服务,也可上架到硅基流动公有云 MaaS,享受百万级流量曝光。

ComfyUI 工作流托管:支持把任意 ComfyUI 工作流部署为 API 服务。

以 AI 创作平台 BizyAir 为例。该平台融合多种 AI 模型与工作流,为用户提供“开箱即用”的 AI 设计体验。

此前,BizyAir 主要依赖手工维护的 K8S 集群和共享存储方案,主要面临部署繁琐、管理混乱、稳定性不足、运维负担重、成本不经济等挑战。引入硅基流动“弹性 GPU”完成系统改造后,BizyAir 实现系统更稳、运维更轻、成本更省、协作更顺。

目前,BizyAir 平台已服务数万名用户,其近 1 万个工作流及数千个 AI 应用,均稳定运行在硅基流动“弹性 GPU”服务之上。

3 步开启高效推理

“弹性 GPU”服务公测开启。只需 3 步,即可完成从资源准备到推理服务调用的全过程:

  1. 1. 申请开通功能:开通后在控制台可访问“GPU 云函数”和“镜像仓库”;

  2. 2. 创建并部署云函数:选择合适的“组织模板”或“公共模板”并配置 GPU 资源,完成部署,你也可以推送私有镜像,部署任意服务;

  3. 3. 调用服务:部署完成后获取“公网 API 端点”,通过 HTTP 请求调用。

即刻开启你的高效推理之旅:

https://siliconflow.cn/serverless-gpu

(注:本次公测优先面向企业认证的组织账户开放。若当前为个人账户,建议先创建组织并完成企业认证后再申请公测。)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/21 5:58:13

如何让 RTX 5090 开启 PCIE P2P 以加速多卡通信

如何让 RTX 5090 开启 PCIE P2P 以加速多卡通信 一、 背景与原理:为什么要折腾这个? 1. 什么是 PCIE P2P? 2. 为什么 RTX 5090 默认不支持? 3. 性能提升有多大? 二、 准备工作与环境 三、 操作步骤 阶段 1:BIOS 设置 阶段 2:操作系统准备 阶段 3:提取 NVIDIA-SMI 工具 …

作者头像 李华
网站建设 2026/4/21 5:57:37

Mac版飞秋:打破局域网通信壁垒的开源解决方案

Mac版飞秋:打破局域网通信壁垒的开源解决方案 【免费下载链接】feiq 基于qt实现的mac版飞秋,遵循飞秋协议(飞鸽扩展协议),支持多项飞秋特有功能 项目地址: https://gitcode.com/gh_mirrors/fe/feiq 你是否在Mac上工作,却经…

作者头像 李华