企业级的A30支持广泛的AI推理、人工智能和传统的企业计算工作负载。它可以为AI应用提供支持,例如推荐系统,对话式AI和计算机视觉系统。在人工智能方面,第三代NVIDIA Tensor Core支持单精度浮点计算和创新的数学模式TensorFloat-32,与上一代NVIDIA T4 GPU相比,性能提高了20倍。
无论是使用 MIG 技术将 A30 GPU 分割为较小的实例,还是使用 NVIDIA NVLink 连接多个GPU 以加速更大规模的工作负载,A30 均可轻松满足多种规模的加速需求,从小型作业到大型多节点工作负载都无一例外。A30 功能全面,这意味着 IT 经理可借此在主流服务器上充分利用数据中心内的每个 GPU,昼夜不停歇。
NVIDIA A30 可提供 165 teraFLOPS (TFLOPS) 的 TF32 精度深度学习性能。相较于 NVIDIA T4 Tensor Core GPU,A30 可将 AI 训练吞吐量
提高 20 倍,并将推理性能提高 5 倍以上。A30 可在 HPC 方面提供 10.3 TFLOPS 的性能,比 NVIDIA V100 Tensor Core GPU 高出了近 30%。
A30 中采用的 NVIDIA NVLink 可提供两倍于上一代的吞吐量。两个 A30 PCIe GPU 可通过 NVLink 桥接器连接,以提供 330 TFLOPS 的深度学习性能。
每个 A30 GPU 最多可分割为四个GPU 实例,这些实例在硬件级别完全独立,并各自拥有高带宽显存、缓存和计算核心。借助 MIG,开发者可为其所有应用实现惊人加速。IT 管理员可为每个作业提供符合其规模的 GPU 加速,进而优化利用率,并让每个用户和应用都能享受 GPU 加速性能。
配合高达 24GB 的高带宽显存 (HBM2),A30 可提供933GB/s 的 GPU 显存带宽,适用于主流服务器中的多种 AI 和 HPC 工作负载。
AI 网络拥有数百万至数十亿个参数。实现准确预测并非要使用所有参数,而且我们还可将某些参数转换为零,以在无损准确性的前提下使模型变得“稀疏”。A30 中的 Tensor Core 可为稀疏模型提供高达两倍的性能提升。稀疏功能不仅更易使 AI 推理受益,同时还能提升模型训练的性能。
A30的架构特点则接近A100。峰值原生FP32性能看似并不突出,但双精度浮点FP64 5.2TFlops为单精度的一半,兼具优秀的Tensor Core加速计算性能,同时功耗降低至165W。
它的24GB内存比A100 40GB的一半多点,但保持使用HBM2,带宽仍高达933GB/s。同时提供PCIe Gen4和NVLINK 200GB/s互连接口。A100支持7个MIG(多实例GPU)硬件切分,A30则可选切分成4个6GB、2个12GB或者1个24GB。vGPU这块,NVIDIA A30的定位只需要支持计算,本身就没有图形。
1 optical flow accelerator (OFA)
1 JPEG decoder (NVJPEG)
4 Video decoders (NVDEC)
24GB HBM2
PCIe 4.0: 64GB/s
第三代 NVIDIA ® NVLINK ® 200GB/s**
2 插槽 (FHFL)
NVIDIA AI Enterprise for VMware
NVIDIA Virtual Compute Server
您的电子邮件地址不会被公开,必填项已用 * 标注。
提交评论
Δ
Copyright 2020-2026 同袍存储 粤ICP备2021121885号网站地图