RTX 4090深度学习性能实测奉上！模型训练可提升60~80%

发布时间：2023-04-20 文章分类：电脑百科投稿人：李佳字号：默认 | 大 | 超大打印

近期，我们对 RTX 4090涡轮版进行了完整的整机测试，本篇文章将分别围绕单卡，4卡，8卡RTX4090性能测试结果展开分享，以全面评估其相比上代RTX30系列的性能优势。
首先让我们一起看看本次测试的硬件配置。

测试硬件配置

简单介绍一下本次使用的平台为超微SYS-420GP-TNR，这款GPU系统针对 AI 和图形密集型工作负载的灵活设计， 4U 双处理器（第三代英特尔® 至强®），双根GPU系统，最多10个PCIe GPU，详细产品参数可查看https://www.hynx.com.cn/product/detail/65

软件环境

超微服务器安装8张涡轮版RTX 4090显卡样例图

超微SYS-420GP-TNR服务器安装8张RTX 4090 (涡轮版)显卡情况良好，前后空间充足，无结构干涉，显卡采用尾部供电设计，也不需要额外选购凸起顶盖。

涡轮版RTX 4090 性能测试

显卡硬件参数对比
为了更加直观的体现，我们将Geforce RTX 4090显卡与Geforce RTX 3090、RTX 3080做性能参数对比，首先三张GPU卡硬件参数如下：
单张显卡FP32/16 ResNet50 性能测试
测试任务
TensorFlow-1.15.5 : ResNet50 , fp32和fp16
测试单张显卡TensorFlow FP32、FP16性能，使用NVIDIA官方NGC容器nvcr.io/nvidia/tensorflow:23.01-tf1-py3，命令示例：
python resnet.py --layers=50 --precision=fp16 --batch_size=128
python resnet.py --layers=50 --precision=fp32 --batch_size=128

结果分析：
RTX4090显卡得益于新的架构和工艺制程，性能相比RTX3090有40%-80%的提升，相比RTX 3080则提升更大（RTX3080为10GB显存版本，部分测试项目会提示显存容量不足）。

- 8卡RTX 4090性能测试
测试任务
TensorFlow-1.15.5 : ResNet50 , fp32和fp16
测试8张RTX4090显卡TensorFlow FP32、FP16性能，使用NVIDIA官方NGC容器nvcr.io/nvidia/tensorflow:23.01-tf1-py3
命令示例：
mpiexec --allow-run-as-root --bind-to socket -np 8 python resnet.py …

结果分析：
在420GP-TNR平台下， GPU多卡性能相对单卡总体性能有较大提升，由于pcie带宽限制和额外通信开销，总体未呈线性提升，实际应用可依据具体环境优化代码，多GPU性能加速比还有提升空间。

我们针对整机温度及功耗均做了相应的测试， SYS-420GP-TNR配备2000W 钛金级（2+2）冗余电源，其转化效率为96%，可满足8卡GPU整机供电需求。涡轮版RTX 4090强化了自身涡轮风扇散热，无需在机箱尾部外挂辅助风扇，亦能有效的控制温度，保障持续稳定运行。（详细报告可关注公众号回复：4090领取）

测试总结

新一代RTX 4090显卡性能相比上一代RTX 30系列有了巨大提升，最高接近80%，涡轮版RTX 4090显卡尺寸与30系列涡轮版对比变化不大，依旧与超微8卡GPU平台适配，搭配后可以提供强大的整机计算性能。

如需了解有关RTX 4090整机测试的更多信息，可关注公众号[昊源诺信],回复4090即可获取详细测试报告，也可访问：www.hynx.com.cn，或来电咨询【400-6997-916】~

标签学习, 性能, 深度