Lanzado | 14 de mayo de 2020 ( 14/05/2020 ) |
---|---|
Diseñado por | Nvidia |
Fabricado por | |
Proceso de fabricación | TSMC N7 (profesional) Samsung 8N (consumidor) |
Nombre(s) clave | GA10x |
Serie de productos | |
De oficina | |
Profesional/estación de trabajo |
|
Servidor/centro de datos |
|
Presupuesto | |
Caché L1 | 192 KB por SM (profesional) 128 KB por SM (consumidor) |
Caché L2 | De 2 MB a 6 MB |
Soporte de memoria | |
Compatibilidad con PCIe | PCIe 4.0 |
API de gráficos compatibles | |
DirectX | DirectX 12 Ultimate (nivel de función 12_2) |
Direct3D | Direct3D 12.0 |
Modelo de sombreado | Modelo de sombreado 6.8 |
OpenCL | OpenCL 3.0 |
OpenGL | OpenGL 4.6 |
CUDA | Capacidad de cómputo 8.6 |
Vulcano | Vulcano 1.3 |
Motor de medios | |
Codificar códecs | |
Decodificar códecs | |
Profundidad de bits de color |
|
Codificador(es) compatible(s) | NVENC |
Salidas de pantalla | |
Historia | |
Predecesor | Turing (consumidor) Volta (profesional) |
Sucesor | Ada Lovelace (consumidor) Hopper (centro de datos) |
Estado de soporte | |
Apoyado |
Ampere es el nombre en clave de una microarquitectura de unidad de procesamiento gráfico (GPU) desarrollada por Nvidia como sucesora de las arquitecturas Volta y Turing . Se anunció oficialmente el 14 de mayo de 2020 y lleva el nombre del matemático y físico francés André-Marie Ampère . [1] [2]
Nvidia anunció las GPU de consumo de la serie GeForce 30 con arquitectura Ampere en un evento especial de GeForce el 1 de septiembre de 2020. [3] [4] Nvidia anunció la GPU A100 de 80 GB en SC20 el 16 de noviembre de 2020. [5] Las tarjetas gráficas RTX móviles y la RTX 3060 basada en la arquitectura Ampere se revelaron el 12 de enero de 2021. [6]
Nvidia anunció el sucesor de Ampere, Hopper , en GTC 2022, y "Ampere Next Next" ( Blackwell ) para un lanzamiento en 2024 en la GPU Technology Conference 2021.
Las mejoras arquitectónicas de la arquitectura Ampere incluyen las siguientes:
Comparación de la capacidad de cómputo: GP100 vs GV100 vs GA100 [12]
Características de la GPU | Nvidia Tesla P100 | Nvidia Tesla V100 | Nvidia A100 |
---|---|---|---|
Nombre en clave de la GPU | GP100 | GV100 | GA100 |
Arquitectura de GPU | Pascal | Vuelta | Amperio |
Capacidad computacional | 6.0 | 7.0 | 8.0 |
Hilos / urdimbre | 32 | 32 | 32 |
Máximo de deformaciones / SM | 64 | 64 | 64 |
Máximo de hilos/SM | 2048 | 2048 | 2048 |
Bloques de hilo máximos/SM | 32 | 32 | 32 |
Máximo de registros de 32 bits/SM | 65536 | 65536 | 65536 |
Máximo de registros/bloque | 65536 | 65536 | 65536 |
Máximo de registros por hilo | 255 | 255 | 255 |
Tamaño máximo del bloque de subprocesos | 1024 | 1024 | 1024 |
Núcleos FP32 / SM | 64 | 64 | 64 |
Relación entre registros SM y núcleos FP32 | 1024 | 1024 | 1024 |
Tamaño de memoria compartida / SM | 64 KB | Configurable hasta 96 KB | Configurable hasta 164 KB |
Comparación de la matriz de soporte de precisión [13] [14]
Precisiones de núcleo CUDA compatibles | Precisiones de núcleo tensor compatibles | |||||||||||||||
FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Nvidia Tesla P4 | No | Sí | Sí | No | No | Sí | No | No | No | No | No | No | No | No | No | No |
Nvidia P100 | Sí | Sí | Sí | No | No | No | No | No | No | No | No | No | No | No | No | No |
Nvidia Volta | Sí | Sí | Sí | No | No | Sí | No | No | Sí | No | No | No | No | No | No | No |
Nvidia Turing | Sí | Sí | Sí | No | No | No | No | No | Sí | No | No | Sí | Sí | Sí | No | No |
Nvidia A100 | Sí | Sí | Sí | No | No | Sí | No | Sí | Sí | No | Sí | Sí | Sí | Sí | Sí | Sí |
Leyenda:
Comparación del rendimiento de decodificación
Transmisiones simultáneas | Decodificación H.264 (1080p30) | Decodificación H.265 (HEVC) (1080p30) | Decodificación VP9 (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
A100 | 75 | 157 | 108 |
Morir | GA100 [15] | GA102 [16] | GA103 [17] | GA104 [18] | GA106 [19] | GA107 [20] | GA10B [21] | GA10F |
---|---|---|---|---|---|---|---|---|
Tamaño del troquel | 826 milímetros cuadrados | 628 milímetros cuadrados | 496 milímetros cuadrados | 392 milímetros cuadrados | 276 milímetros cuadrados | 200 milímetros cuadrados | ? | ? |
Transistores | 54.2B | 28.3B | 22B | 17.4B | 12B | 8.7B | ? | ? |
Densidad de transistores | 65,6 toneladas métricas/ mm2 | 45,1 toneladas métricas/ mm2 | 44,4 toneladas métricas/ mm2 | 44,4 toneladas métricas/ mm2 | 43,5 toneladas métricas/ mm2 | 43,5 toneladas métricas/ mm2 | ? | ? |
Clústeres de procesamiento de gráficos | 8 | 7 | 6 | 6 | 3 | 2 | 2 | 1 |
Multiprocesadores de streaming | 128 | 84 | 60 | 48 | 30 | 20 | 16 | 12 |
Núcleos CUDA | 12288 | 10752 | 7680 | 6144 | 3840 | 2560 | 2048 | 1536 |
Unidades de mapeo de texturas | 512 | 336 | 240 | 192 | 120 | 80 | 64 | 48 |
Unidades de salida de renderizado | 192 | 112 | 96 | 96 | 48 | 32 | 32 | 16 |
Núcleos tensoriales | 512 | 336 | 240 | 192 | 120 | 80 | 64 | 48 |
Núcleos RT | N / A | 84 | 60 | 48 | 30 | 20 | 8 | 12 |
Caché L1 | 24 MB | 10,5 MB | 7,5 MB | 6MB | 3 MB | 2,5 MB | 3 MB | 1,5 MB |
192 KB por SM | 128 KB por SM | 192 KB por SM | 128 KB por SM | |||||
Caché L2 | 40 MB | 6MB | 4MB | 4MB | 3 MB | 2MB | 4MB | ? |
El acelerador A100 basado en Ampere se anunció y lanzó el 14 de mayo de 2020. [9] El A100 presenta 19,5 teraflops de rendimiento FP32, 6912 núcleos CUDA FP32/INT32, 3456 núcleos CUDA FP64, 40 GB de memoria gráfica y 1,6 TB/s de ancho de banda de memoria gráfica. [22] El acelerador A100 inicialmente solo estaba disponible en la tercera generación del servidor DGX , incluidos 8 A100. [9] También se incluyen en el DGX A100 15 TB de almacenamiento NVMe PCIe gen 4 , [22] dos CPU AMD Rome 7742 de 64 núcleos , 1 TB de RAM e interconexión HDR InfiniBand con tecnología Mellanox . El precio inicial del DGX A100 fue de 199.000 dólares. [9]
Comparación de aceleradores utilizados en DGX: [23] [24] [25]
Modelo | Arquitectura | Enchufe | Núcleos CUDA FP32 | Núcleos FP64 (excluido el tensor) | Núcleos mixtos INT32/FP32 | Núcleos INT32 | Reloj de impulso | Reloj de memoria | Ancho del bus de memoria | Ancho de banda de memoria | Memoria virtual (VRAM) | Precisión simple (FP32) | Doble precisión (FP64) | INT8 (no tensor) | Tensor denso INT8 | INT32 | Tensor denso FP4 | FP16 | Tensor denso FP16 | Tensor denso bfloat16 | Tensor denso TensorFloat-32 (TF32) | Tensor denso FP64 | Interconexión (NVLink) | GPU | Caché L1 | Caché L2 | TDP | Tamaño del troquel | Conteo de transistores | Proceso |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
B200 | Pozo negro | SXM6 | N / A | N / A | N / A | N / A | N / A | HBM3e de 8 Gbps | 8192 bits | 8 TB/seg | 192 GB HBM3e | N / A | N / A | N / A | 4.5 POPS | N / A | 9 PFLOPS | N / A | 2,25 PFLOPS | 2,25 PFLOPS | 1,2 PFLOPS | 40 TFLOPS | 1,8 TB/seg | GB100 | N / A | N / A | 1000 vatios | N / A | 208 B | TSMC 4NP |
B100 | Pozo negro | SXM6 | N / A | N / A | N / A | N / A | N / A | HBM3e de 8 Gbps | 8192 bits | 8 TB/seg | 192 GB HBM3e | N / A | N / A | N / A | 3.5 POPS | N / A | 7 PFLOPS | N / A | 1,98 PFLOPS | 1,98 PFLOPS | 989 TFLOPS | 30 TFLOPS | 1,8 TB/seg | GB100 | N / A | N / A | 700 W | N / A | 208 B | TSMC 4NP |
H200 | Tolva | SXM5 | 16896 | 4608 | 16896 | N / A | 1980 MHz | 6,3 Gbps HBM3e | 6144 bits | 4,8 TB/seg | 141 GB HBM3e | 67 TFLOPS | 34 TFLOPS | N / A | 1,98 COP | N / A | N / A | N / A | 990 TFLOPS | 990 TFLOPS | 495 TFLOPS | 67 TFLOPS | 900 GB/seg | GH100 | 25344 KB (192 KB × 132) | 51200 KB | 1000 vatios | 814 milímetros cuadrados | 80 B | TSMC 4N |
H100 | Tolva | SXM5 | 16896 | 4608 | 16896 | N / A | 1980 MHz | 5,2 Gbps HBM3 | 5120 bits | 3,35 TB/seg | 80 GB HBM3 | 67 TFLOPS | 34 TFLOPS | N / A | 1,98 COP | N / A | N / A | N / A | 990 TFLOPS | 990 TFLOPS | 495 TFLOPS | 67 TFLOPS | 900 GB/seg | GH100 | 25344 KB (192 KB × 132) | 51200 KB | 700 W | 814 milímetros cuadrados | 80 B | TSMC 4N |
A100 80 GB | Amperio | SXM4 | 6912 | 3456 | 6912 | N / A | 1410 MHz | 3,2 Gbps HBM2e | 5120 bits | 1,52 TB/seg | 80 GB HBM2e | 19,5 TFLOPS | 9,7 TFLOPS | N / A | 624 TOPES | 19,5 TOPES | N / A | 78 TFLOPS | 312 TFLOPS | 312 TFLOPS | 156 TFLOPS | 19,5 TFLOPS | 600 GB/seg | GA100 | 20736 KB (192 KB × 108) | 40960 KB | 400 vatios | 826 milímetros cuadrados | 54,2 B | Número 7 de TSMC |
A100 40 GB | Amperio | SXM4 | 6912 | 3456 | 6912 | N / A | 1410 MHz | 2,4 Gbps HBM2 | 5120 bits | 1,52 TB/seg | 40 GB HBM2 | 19,5 TFLOPS | 9,7 TFLOPS | N / A | 624 TOPES | 19,5 TOPES | N / A | 78 TFLOPS | 312 TFLOPS | 312 TFLOPS | 156 TFLOPS | 19,5 TFLOPS | 600 GB/seg | GA100 | 20736 KB (192 KB × 108) | 40960 KB | 400 vatios | 826 milímetros cuadrados | 54,2 B | Número 7 de TSMC |
V100 32 GB | Vuelta | SXM3 | 5120 | 2560 | N / A | 5120 | 1530 MHz | 1,75 Gbps HBM2 | 4096 bits | 900 GB/seg | 32 GB HBM2 | 15,7 TFLOPS | 7,8 TFLOPS | 62 TOPS | N / A | 15.7 TOPES | N / A | 31,4 TFLOPS | 125 TFLOPS | N / A | N / A | N / A | 300 GB/seg | GV100 | 10240 KB (128 KB × 80) | 6144 KB | 350 W | 815 milímetros cuadrados | 21.1 B | Número de serie 12FFN de TSMC |
V100 16 GB | Vuelta | SXM2 | 5120 | 2560 | N / A | 5120 | 1530 MHz | 1,75 Gbps HBM2 | 4096 bits | 900 GB/seg | 16 GB HBM2 | 15,7 TFLOPS | 7,8 TFLOPS | 62 TOPS | N / A | 15.7 TOPES | N / A | 31,4 TFLOPS | 125 TFLOPS | N / A | N / A | N / A | 300 GB/seg | GV100 | 10240 KB (128 KB × 80) | 6144 KB | 300 vatios | 815 milímetros cuadrados | 21.1 B | Número de serie 12FFN de TSMC |
P100 | Pascal | SXM/SXM2 | N / A | 1792 | 3584 | N / A | 1480 MHz | 1,4 Gbps HBM2 | 4096 bits | 720 GB/seg | 16 GB HBM2 | 10,6 TFLOPS | 5,3 TFLOPS | N / A | N / A | N / A | N / A | 21,2 TFLOPS | N / A | N / A | N / A | N / A | 160 GB/seg | GP100 | 1344 KB (24 KB × 56) | 4096 KB | 300 vatios | 610 milímetros cuadrados | 15.3 B | TSMC 16FF+ |
Tipo | GA10B | GA107 | GA106 | GA104 | GA103 | GA102 | GA100 |
---|---|---|---|---|---|---|---|
Serie GeForce MX | — | GeForce MX570 (móvil) | — | — | — | — | — |
Serie GeForce 20 | — | GeForce RTX 2050 (móvil) | — | — | — | — | — |
Serie GeForce 30 | — | Portátil GeForce RTX 3050 Portátil GeForce RTX 3050 GeForce RTX 3050 Ti | GeForce RTX 3050 GeForce RTX 3060 Portátil GeForce RTX 3060 | GeForce RTX 3060 GeForce RTX 3060 Ti GeForce RTX 3070 Portátil GeForce RTX 3070 GeForce RTX 3070 Ti GeForce RTX 3070 Ti GeForce RTX 3080 Portátil | GeForce RTX 3060 Ti GeForce RTX 3080 Ti Portátil | GeForce RTX 3070 Ti GeForce RTX 3080 GeForce RTX 3080 Ti GeForce RTX 3090 GeForce RTX 3090 Ti | — |
GPU para estaciones de trabajo de Nvidia | — | RTX A1000 (móvil) | RTX A2000 (móvil) RTX A2000 | RTX A3000 (móvil) RTX A4000 (móvil) RTX A4000 RTX A5000 (móvil) | RTX A5500 (móvil) | RTX A4500 RTX A5000 RTX A5500 RTX A6000 | — |
GPU para centros de datos de Nvidia | — | Nvidia A2 Nvidia A16 | — | — | — | Nvidia A10 Nvidia A40 | Nvidia A30 Nvidia A100 |
SoC Tegra | AGX Orin Orin NX Orin Nano | — | — | — | — | — | — |
{{cite web}}
: |last=
tiene nombre genérico ( ayuda )