一、引言:算力是 AI 的 “发动机”,自主可控是必由之路
人工智能的发展离不开数据、算法、算力三大基石,其中算力(Computing Power)是核心驱动力。大模型训练需要数十亿至万亿次浮点运算,多模态模型与智能体推理需要海量并发算力,没有强大算力,再优秀的算法与数据都无法落地。
长期以来,全球 AI 算力高度依赖国外 GPU(如 NVIDIA A100、H100),我国面临芯片禁运、技术封锁、供应受限、成本高昂等风险,严重制约 AI 产业安全发展。在此背景下,发展国产 GPU、构建自主可控算力基础设施,成为我国 AI 产业突破卡脖子、保障安全、实现高质量发展的必由之路。
二、AI 算力基础:GPU、集群、网络与存储
1. GPU:AI 算力的核心载体
GPU(图形处理器)最初用于图形渲染,后因并行计算能力强、算力密度高、性价比优,成为 AI 训练与推理的主流芯片。
- 训练 GPU:如 NVIDIA H100、AMD MI300X、国产昇腾 910/310、寒武纪 MLU290,高算力、大显存、高带宽,适合大模型训练;
- 推理 GPU:如 NVIDIA T4、国产昇腾 310、寒武纪 MLU220,低功耗、低成本、高并发,适合线上推理部署。
2. AI 计算集群:算力的规模化聚合
单 GPU 算力有限,大模型训练需要成百上千块 GPU 组成集群,通过高速网络互联、分布式计算框架调度,形成超大规模算力池。
- 节点:单台服务器,含多块 GPU、CPU、内存、硬盘;
- 网络:InfiniBand(IB)高速网络,低延迟、高带宽,支持 GPU 间直接通信;
- 调度框架:PyTorch Distributed、TensorFlow Distributed、Megatron-LM,负责任务拆分、数据并行、模型并行、通信优化。
3. 高速网络与大容量存储:算力的 “血管” 与 “粮仓”
- 网络:大模型训练需海量数据交互,IB 网络带宽达400Gbps,延迟低至微秒级,保障集群高效协同;
- 存储:训练数据、模型参数、中间结果需PB 级大容量、高吞吐、低延迟存储,通常采用分布式文件系统(如 Lustre)、对象存储、内存缓存组合方案。
三、国产 GPU 发展现状:突破与差距
1. 主流国产 GPU 厂商与产品
(1)华为昇腾(Ascend)
- 训练芯片:昇腾 910(256TOPS)、昇腾 910B(512TOPS),对标 NVIDIA A100/H100;
- 推理芯片:昇腾 310(16TOPS)、昇腾 310P(64TOPS),主打边缘与云端推理;
- 生态:配套 CANN 开发套件、MindSpore 框架、Atlas 服务器,软硬协同、自主可控。
(2)寒武纪(Cambricon)
- 训练芯片:MLU290(256TOPS)、MLU370(512TOPS);
- 推理芯片:MLU220、MLU270,广泛用于智能驾驶、智慧城市、数据中心。
(3)壁仞科技(Biren)
- 训练芯片:BR100(1024TOPS)、BR104,算力全球领先,对标 H100;
- 特点:采用Chiplet(芯粒)架构,突破单芯片物理限制,提升算力与良率。
(4)摩尔线程(Moore Thread)、沐曦(MX)、登临(DingDeng)
聚焦游戏 GPU、AI 推理、通用计算,逐步构建全栈 GPU 能力。
2. 国产 GPU 的突破
- 算力提升:昇腾 910B、壁仞 BR100 算力达512–1024TOPS,接近国际一流水平;
- 生态完善:国产框架(MindSpore、PaddlePaddle)、编译器、工具链、应用库逐步成熟,适配主流大模型;
- 规模化落地:国产 GPU 已用于政务、金融、能源、交通、教育等领域,数据中心装机量快速增长。
3. 与国际巨头的差距
- 性能:H100 算力约333TOPS(FP16),但软件优化、生态成熟度、稳定性领先;国产芯片理论算力高,但实际训练速度、稳定性、兼容性仍有差距;
- 生态:NVIDIA CUDA 生态垄断全球,90% 以上 AI 应用基于 CUDA 开发;国产CANN、MLU、BRT生态兼容性差、迁移成本高、工具链不完善;
- 产能与良率:先进制程(4nm/5nm)依赖台积电,国产中芯国际在7nm 及以下制程仍有差距;良率偏低、产能受限、成本较高。
四、AI 算力基础设施:数据中心、边缘计算与算力网络
1. 智算中心(AI Data Center):国家级算力底座
智算中心是专门为 AI 设计的超大规模数据中心,集成国产 GPU 集群、高速网络、大容量存储、液冷散热、智能运维,提供普惠 AI 算力服务。
- 代表项目:华为乌兰察布智算中心、京津冀国家技术创新中心、上海人工智能实验室、深圳鹏城云脑;
- 能力:单中心算力达EFLOPS 级(每秒百亿亿次运算),可支撑万亿参数大模型训练、多模态推理、AI 科学计算。
2. 边缘算力:AI 下沉,赋能端侧
边缘计算将算力部署在离用户更近的边缘节点(基站、园区、工厂、设备端),降低延迟、节省带宽、保护隐私,支撑自动驾驶、工业质检、智能安防、智能家居等实时场景。
3. 算力网络:全国一体化调度,普惠共享
算力网络将全国智算中心、边缘节点、端侧设备互联,通过统一调度平台,实现算力跨区域调度、按需分配、普惠共享,让 AI 算力像水电一样,随取随用、人人可用。
五、算力自主可控的战略意义与挑战
1. 战略意义
- 保障国家安全:摆脱国外芯片依赖,避免技术卡脖子、断供风险,保障 AI 产业、数字经济、关键领域安全;
- 推动产业升级:国产 GPU 与算力基础设施带动芯片、服务器、网络、软件、应用全产业链发展,培育新质生产力;
- 降低成本:国产算力规模化后,价格低于进口芯片,降低 AI 研发与应用成本,加速 AI 普惠。
2. 核心挑战
- 技术壁垒:先进制程、Chiplet、高速接口、编译器、软件生态技术难度大、研发周期长、投入高;
- 生态迁移:CUDA 生态迁移成本高、兼容性差、工具链不完善,企业与开发者不愿迁移;
- 人才短缺:GPU 设计、芯片制造、AI 系统、并行计算高端人才稀缺,制约产业发展;
- 资金压力:芯片研发、智算中心建设投入巨大、回报周期长,需长期资金支持。
六、未来发展路径:技术突破、生态共建、政策支持
1. 技术突破:软硬协同,提升性能
- 芯片设计:突破4nm/5nm 制程、Chiplet 架构、3D 堆叠、存算一体等关键技术,提升算力、降低功耗;
- 软件优化:完善CANN、MindSpore、Megatron-LM等国产框架与工具链,优化算子、提升兼容性、降低迁移成本;
- 系统优化:研发国产分布式训练框架、调度系统、监控运维平台,提升集群效率与稳定性。
2. 生态共建:开放合作,繁荣应用
- 产学研协同:高校、科研机构、企业联合研发核心技术、培养人才、共建开源社区;
- 开源开放:国产框架、工具链开源,吸引全球开发者参与,共建生态、完善应用;
- 场景牵引:以政务、金融、能源、交通、医疗、教育等关键场景为牵引,打磨产品、优化生态、验证能力。
3. 政策支持:顶层设计,保障发展
- 加大投入:国家专项资金、产业基金支持芯片研发、智算中心建设、生态完善;
- 政策扶持:税收优惠、政府采购、首台套补贴,鼓励企业采用国产算力、迁移应用;
- 人才培养:高校增设芯片、AI、并行计算相关专业,培养高端人才;引进海外顶尖人才,提升研发能力。
七、结语
算力是 AI 的核心发动机,自主可控是我国 AI 产业安全发展、高质量发展的必由之路。尽管我国国产 GPU 与算力基础设施起步晚、差距大,但在政策支持、企业发力、技术突破、生态共建下,已取得显著进展,逐步打破国外垄断。
未来,随着Chiplet、存算一体、开源生态、算力网络等技术持续突破,国产算力必将实现从跟跑到并跑、再到领跑的跨越,为我国AI 产业、数字经济、新质生产力发展提供坚实算力支撑,助力我国从AI 大国迈向 AI 强国。