news 2026/4/27 21:17:31

A100 40G和魔改4090 48G模型训练算力比较

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
A100 40G和魔改4090 48G模型训练算力比较

这篇文章的测试主要针对两个问题:

  1. 魔改4090 48G显存的显卡对比原始的4090 24G显卡算力是否有下降?
  2. 魔改4090 48G显卡对比专业级训练显卡A100 40G,其在模型训练场景到底性能表现如何?

之前比较过3090、4090和5090的算力差异:
使用PyTorch进行显卡AI性能实测
ResNet-50模型实测深度学习场景显卡性能

这里还是使用ResNet-50进行模型训练测试。

A100 40G和4090 48G参数对比

两张显卡的参数规格:

A100 40G4090 48G
架构AmpereAda Lovelace
CUDA核心数6,91216,384
显存容量40GB HBM248 GB GDDR6X
显存带宽1,555 GB/s1,008 GB/s
TDP功耗250W450W
FP32 算力19.5 TFLOPS82.6 TFLOPS
Tensor FP16 算力312 TFLOPS330 TFLOPS
  • 显存方面:4090是魔改后翻倍的48G显存,要大于低版本A100的40G显存,但A100 40G用的HBM2显存,带宽可以接近1.6T/s
  • 算力方面:4090在单精度计算上有绝对的优势,半精度Tensor算力两者接近
  • A100 PCIe版本的功耗做了限制,所以从耗电量上4090会更大

深度学习模型训练测试

在 晨涧云AI算力平台 分别租用A100 40G和4090 48G的云主机实例。

基于Pytorch框架来训练ResNet-50模型,使用CIFAR-10数据集进行测试对比。

A100 40G测试

4090 48G测试

补充之前测试的4090 24G的结果:

4090 24G测试

可以看到魔改48G显存的4090显卡在算力方面并没有折损,并且48G显存提供了更多的BatchSize样本吞吐空间

测试结果解释

使用了FP32和FP16混合训练精度,相比之前3090和4090的测试,因为A100 40G和4090 48G有更大的显存,训练批次在原先的基础上增加了384的BatchSize,看训练吞吐量的差异:

  • 精度FP32表示使用单精度训练,FP16表示使用混合精度训练
  • BatchSize:训练批次大小
  • Samples/s:每秒样本吞吐量
  • VRAM (MB):平均显存使用量
  • GPU Util (%):平均GPU利用率

看在GPU使用率比较高的场景下(BatchSize>=256),模型训练样本的吞吐速度比较;单精度训练A100 40G的样本吞吐速度是4090 48G的125%,半精度训练A100 40G的样本吞吐速度是4090 48G的105%

综合而言,A100作为专业级训练卡在训练场景还是有其优势的,而且A100支持NVLink和MIG;但相比4090的算力差距并不明显,而4090在其他场景,特别是图像处理、3D渲染等也非常能打,再加上魔改的48G显存,目前在中端显卡市场可以说是最全面的存在。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 3:13:37

你还在手动查API?高效利用VSCode插件自动解析Azure QDK文档

第一章:VSCode Azure QDK 的 API 文档Azure Quantum Development Kit(QDK)为量子计算开发者提供了完整的开发环境,结合 Visual Studio Code(VSCode)插件,能够高效编写、调试和模拟量子程序。通过…

作者头像 李华
网站建设 2026/4/23 1:52:12

量子算法VSCode环境搭建全解析,99%的人都忽略了这一步

第一章:量子算法的 VSCode 示例代码在现代量子计算开发中,Visual Studio Code(VSCode)已成为主流集成开发环境之一。借助 Quantum Development Kit(QDK)扩展,开发者可在本地高效编写、模拟和调试…

作者头像 李华
网站建设 2026/4/25 6:08:33

Knuff证书转换神器:3分钟掌握APNS推送证书管理秘诀

Knuff证书转换神器:3分钟掌握APNS推送证书管理秘诀 【免费下载链接】Knuff 项目地址: https://gitcode.com/gh_mirrors/knu/Knuff 还在为APNS推送证书格式转换而头疼吗?Knuff的证书转换功能让这一切变得简单高效。无论你是iOS开发新手还是资深工…

作者头像 李华
网站建设 2026/4/26 22:23:28

27、设计 SNMP MIB 的详细指南

设计 SNMP MIB 的详细指南 1. 在线信息提交 在查看当前列表时,我们会发现线上仅列出了企业编号、公司名称、联系人姓名和联系人电子邮件地址。为避免垃圾邮件机器人收集,建议使用专门的电子邮件地址,而非常用邮箱。可以创建一个通用的地址,以便将来将相关邮件转发给负责 …

作者头像 李华