英伟达A40 48G显卡价格_A40视觉计算负载虚拟工作站显卡

产品详情

NVIDIA® A40 提供基于数据中心的解决方案，可满足设计师、工程师、艺术家和科学家所需，助其攻克当今面临的挑战。A40 依托于 NVIDIA Ampere 架构而构建，将新一代 RT Core、Tensor Core、CUDA® Core 与 48GB 显存融于一身，可提供远超以往的图形处理、渲染、计算和 AI 性能。从随时随地可供访问的强大虚拟工作站，到专用渲染节点，A40 旨在处理数据中心中要求非常严苛的视觉计算工作负载。

A40全新亮点

1、NVIDIA Ampere 架构 CUDA® 核心

速度提升一倍的单精度浮点 (FP32) 运算处理和改善的能效可显著提高图形和模拟工作流程的性能，例如复杂的 3D 计算机辅助设计 (CAD) 和计算机辅助工程 (CAE)。

2、第二代RT Core

单个 NVIDIA A40 主板能够凭借对阴影、反射和折射物理属性的准确把握，渲染复杂的专业模型，从而为用户提供即时见解。基于 NVIDIA A40 的服务器可与 NVIDIA OptiX、Microsoft DXR 和 Vulkan 光线追踪等利用 API 的应用配合使用，助力真正的交互式设计工作流程，继而提供即时反馈，以实现前所未有的超高生产效率。NVIDIA A40 的可将光线追踪的运行速度提升至前一代的两倍。

3、第三代Tensor Core

与前一代相比，第三代 Tensor Core 可借助全新的 Tensor Float 32 (TF32) 精度，提供高达五倍的训练吞吐量，还可运用结构化稀疏技术，提供高达十倍的推理吞吐量，且无需更改任何代码。这缩短了 AI 模型训练或数据科学数据准备和建模工作流程所需的时间。支持结构化稀疏技术的硬件会通过压缩网络模型的大小并加快模型执行，进一步提升速度。新一代 Tensor Core 还支持脑浮点格式 (BFloat16)。

4、编码或解码引擎

A40 具有一个视频编码引擎和两个解码引擎，能够提供对 AV1 解码的支持，同时具有多流视频应用所需的性能，可用于提供安全与视频服务。

5、PCIe 4.0

A40 支持 PCI Express 4.0 (PCIe 4.0)，可将 PCIe 3.0 x16 连接的带宽从 15.75 Gb/s 提高到 31.5 Gb/s，从而提高了数据密集型任务(如 AI 和数据科学)中 CPU 内存的数据传输速度，同时可从大型数据集中创建 3D 模型。更快的 PCIe 性能还加速了 GPU 直接显存访问 (DMA) 传输，从而能让支持视频的设备通过 GPUDirect® 更快速地传输视频数据，并利用 GPUDirect Storage 加快输入/输出 (I/O) 速度。

6、节能高效的双插槽设计

NVIDIA A40 的能效是前一代的两倍，且可兼容全球 OEM 供应商生产的各式服务器。

7、48GB 的高速 GDDR6 显存

A40 拥有 48GB 的 GDDR6 显存。用户可借助第三代 NVLink 技术连接两块 A40 显卡，获得高达 96GB 的组合显存，以满足渲染、数据科学、工程仿真和其他 GPU 内存密集型工作负载所需的内存需求。

8、虚拟化就绪

A40 与 NVIDIA 虚拟 GPU (vGPU) 软件相结合，助力远程用户打造规模更大、功能更强的虚拟化工作站实例，可用于高端设计、AI 和计算工作负载的较大工作流程。NVIDIA vGPU 支持访问虚拟工作站，并可助力用户实现可随处施行的灵活解决方案。

9、AR/VR

支持最新的高分辨率头戴式显示 (HMD)设备、高性能图形和 48GB 的较大 GPU 显存，能够创建出令人惊叹的沉浸式增强现实 (AR) 和虚拟现实 (VR) 体验，可在训练、产品验证、搭建场景和引人入胜的娱乐活动中加以应用。

10、动态 BVH(层次包围盒)

硬件加速的动态模糊渲染(一种难以渲染的常见电影效果)，意味着艺术家不再需要依靠动态矢量这种传统方法来实现动态模糊。尽管艺术家可以借助动态矢量灵活地调整后期的动态模糊，但却需要对反射和半透明进行视觉修复。

11、NVIDIA 深度学习超级采样 (DLSS)

由 AI支持的实时图像超分辨率可提高设计和可视化应用的交互能力和帧速率。用户可借助 DLSS 以较低的分辨率进行实时引擎渲染，并能在始终保持画质清晰的情况下，采用 AI 技术，输出分辨率较高的内容。

其他性能特点

1、第三代 NVIDIA® NVLink——多GPU技术

通过 NVLink 连接两块 NVIDIA A40 显卡，即可以高达 112.5 GB/s(总带宽)的速度在 GPU 之间传输数据，从而将有效显存占用提升一倍并实现应用性能的扩展。

2、显存纠错码 (ECC)

能够凭借无损计算精度与可靠性，满足对任务关键型应用的严苛数据完整性要求。

3、第五代 NVDEC 引擎

NVDEC 非常适用于实时解码的转码和视频播放应用。支持用户使用以下视频编解码器进行硬件加速解码：MPEG-2、VC-1、H.264 (AVCHD)、H.265 (HEVC)、VP8、VP9 和 AV1。将此项技术与 Ampere Tensor Core 结合使用后，A40 可快速地将 AI 和推理应用到实时视频之中。

4、第七代 NVENC 引擎

NVENC 可处理要求十分严苛的 4K 或 8K 视频编码任务，从而释放图形引擎和 CPU 来执行其他操作。NVENC 还支持虚拟工作站以流式方式传输 8K 内容，以处理高保真设计和渲染工作负载。此外，与基于软件的 x264 编码器相比，NVIDIA A40 的编码质量更胜一筹。

5、数据中心效率和安全性

NVIDIA A40 采用双插槽、高能效设计，与上一代相比能效提升 2 倍，这点已经过全球 OEM 出品的各种 NVIDIA 认证系统的验证。NVIDIA A40 还通过硬件可信根功能进行安全的测量式引导，确保固件未被篡改或损坏。

6、先占

指令级先占可实现对计算和图形任务的更精细控制，以防长时间运行的应用独占系统资源或超时。

A40 GPU参数

Nvidia A40
GPU架构	NVIDIA Ampere 架构
GPU显存	带有 ECC 的 48 GB GDDR6
显存带宽	696 GB/秒
互联接口	NVIDIA ® NVLink ® 112.5 GB/s (双向) PCIe 4.0 31.5 GB/s（双向）
基于 NVIDIA Ampere 架构的 CUDA 核心	10752
NVIDIA 第二代 RT Core	84
NVIDIA 第三代 Tensor Core	336
FP32 TFLOPS 峰值 (非 Tensor)	37.4
使用 FP16 累加的 FP16 Tensor TFLOPS 峰值	149.7\| 299.4*
TF32 Tensor TFLOPS 峰值	74.8\| 149.6*
RT Core 性能 TFLOPS	73.1
使用 FP32 累加的 BF16 Tensor TFLOPS 峰值	149.7\| 299.4*
INT8 Tensor TOPS 峰值 INT4 Tensor TOPS 峰值	299.3\| 598.6* 598.7 \| 1197.4*
外形规格	4.4″（高）x 10.5″（长）双插槽
显示端口	3 个 DisplayPort 1.4**；支持 NVIDIA Mosaic 和 Quadro ® Sync 4
最大功耗	300 W
散热解决方案	被动式
虚拟 GPU (vGPU) 软件支持	NVIDIA vPC/vApp、NVIDIA RTX 虚拟工作站、NVIDIA 虚拟计算服务器

上一篇：英伟达Tesla A30 24G深度学习加速显卡下一篇：Tesla A16 16G*4英伟达桌面虚拟化显卡

英伟达A40视觉计算负载虚拟工作站显卡