Amperio (microarquitectura)

Microarquitectura de GPU de Nvidia

Amperio
Lanzado14 de mayo de 2020 ; hace 4 años ( 14/05/2020 )
Diseñado porNvidia
Fabricado por
Proceso de fabricaciónTSMC N7 (profesional)
Samsung 8N (consumidor)
Nombre(s) claveGA10x
Serie de productos
De oficina
Profesional/estación de trabajo
  • Serie RTX A
Servidor/centro de datos
  • A100
Presupuesto
Caché L1192  KB por SM (profesional)
128  KB por SM (consumidor)
Caché L2De 2  MB a 6  MB
Soporte de memoria
Compatibilidad con PCIePCIe 4.0
API de gráficos compatibles
DirectXDirectX 12 Ultimate (nivel de función 12_2)
Direct3DDirect3D 12.0
Modelo de sombreadoModelo de sombreado 6.8
OpenCLOpenCL 3.0
OpenGLOpenGL 4.6
CUDACapacidad de cómputo 8.6
VulcanoVulcano 1.3
Motor de medios
Codificar códecs
Decodificar códecs
Profundidad de bits de color
  • 8 bits
  • 10 bits
Codificador(es) compatible(s)NVENC
Salidas de pantalla
Historia
PredecesorTuring (consumidor)
Volta (profesional)
SucesorAda Lovelace (consumidor)
Hopper (centro de datos)
Estado de soporte
Apoyado

Ampere es el nombre en clave de una microarquitectura de unidad de procesamiento gráfico (GPU) desarrollada por Nvidia como sucesora de las arquitecturas Volta y Turing . Se anunció oficialmente el 14 de mayo de 2020 y lleva el nombre del matemático y físico francés André-Marie Ampère . [1] [2]

Nvidia anunció las GPU de consumo de la serie GeForce 30 con arquitectura Ampere en un evento especial de GeForce el 1 de septiembre de 2020. [3] [4] Nvidia anunció la GPU A100 de 80 GB en SC20 el 16 de noviembre de 2020. [5] Las tarjetas gráficas RTX móviles y la RTX 3060 basada en la arquitectura Ampere se revelaron el 12 de enero de 2021. [6]

Nvidia anunció el sucesor de Ampere, Hopper , en GTC 2022, y "Ampere Next Next" ( Blackwell ) para un lanzamiento en 2024 en la GPU Technology Conference 2021.

Detalles

Las mejoras arquitectónicas de la arquitectura Ampere incluyen las siguientes:

  • Capacidad de cómputo CUDA 8.0 para A100 y 8.6 para la serie GeForce 30 [7]
  • Proceso FinFET de 7 nm de TSMC para el chip A100
  • Versión personalizada del proceso de 8 nm (8N) de Samsung para la serie GeForce 30 [8]
  • Núcleos Tensor de tercera generación con soporte para FP16, bfloat16 , TensorFloat-32 (TF32) y FP64 y aceleración de escasez. [9] Los núcleos Tensor individuales tienen, con 256 operaciones FMA FP16 por reloj, una potencia de procesamiento 4x (solo GA100, 2x en GA10x) en comparación con las generaciones anteriores de núcleos Tensor; el recuento de núcleos Tensor se reduce a uno por SM.
  • Núcleos de trazado de rayos de segunda generación; trazado de rayos, sombreado y computación simultáneos para la serie GeForce 30
  • Memoria de gran ancho de banda 2 (HBM2) en A100 de 40 GB y A100 de 80 GB
  • Memoria GDDR6X para GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti
  • Doble núcleo FP32 por SM en GPU GA10x
  • NVLink 3.0 con un rendimiento de 50 Gbit/s por par [9]
  • PCI Express 4.0 con soporte SR-IOV (SR-IOV está reservado solo para A100)
  • Función de virtualización de GPU de múltiples instancias (MIG) y partición de GPU en A100 que admite hasta siete instancias
  • Conjunto de funciones K de PureVideo para decodificación de video por hardware con decodificación por hardware AV1 [10] para la serie GeForce 30 y conjunto de funciones J para A100
  • 5 NVDEC para A100
  • Añade un nuevo decodificador JPEG de 5 núcleos basado en hardware ( NVJPG ) con YUV420, YUV422, YUV444, YUV400, RGBA. No debe confundirse con NVJPEG de Nvidia ( biblioteca acelerada por GPU para codificación/decodificación JPEG)

Papas fritas

  • GA100 [11]
  • GA102
  • GA103
  • GA104
  • GA106
  • GA107
  • GA10B

Comparación de la capacidad de cómputo: GP100 vs GV100 vs GA100 [12]

Características de la GPUNvidia Tesla P100Nvidia Tesla V100Nvidia A100
Nombre en clave de la GPUGP100GV100GA100
Arquitectura de GPUPascalVueltaAmperio
Capacidad computacional6.07.08.0
Hilos / urdimbre323232
Máximo de deformaciones / SM646464
Máximo de hilos/SM204820482048
Bloques de hilo máximos/SM323232
Máximo de registros de 32 bits/SM655366553665536
Máximo de registros/bloque655366553665536
Máximo de registros por hilo255255255
Tamaño máximo del bloque de subprocesos102410241024
Núcleos FP32 / SM646464
Relación entre registros SM y núcleos FP32102410241024
Tamaño de memoria compartida / SM64 KBConfigurable hasta 96 KBConfigurable hasta 164 KB

Comparación de la matriz de soporte de precisión [13] [14]

Precisiones de núcleo CUDA compatiblesPrecisiones de núcleo tensor compatibles
FP16FP32FP64INT1INT4INT8TF32BF16FP16FP32FP64INT1INT4INT8TF32BF16
Nvidia Tesla P4NoNoNoNoNoNoNoNoNoNoNoNoNo
Nvidia P100NoNoNoNoNoNoNoNoNoNoNoNoNo
Nvidia VoltaNoNoNoNoNoNoNoNoNoNoNo
Nvidia TuringNoNoNoNoNoNoNoNoNo
Nvidia A100NoNoNoNo

Leyenda:

  • FPnn: punto flotante con nn bits
  • INTn: entero con n bits
  • INT1: binario
  • TF32: TensorFloat32
  • BF16: flotador bf16

Comparación del rendimiento de decodificación

Transmisiones simultáneasDecodificación H.264 (1080p30)Decodificación H.265 (HEVC) (1080p30)Decodificación VP9 (1080p30)
V100162222
A10075157108

El amperio muere

MorirGA100 [15]GA102 [16]GA103 [17]GA104 [18]GA106 [19]GA107 [20]GA10B [21]GA10F
Tamaño del troquel826  milímetros cuadrados628  milímetros cuadrados496  milímetros cuadrados392  milímetros cuadrados276  milímetros cuadrados200  milímetros cuadrados??
Transistores54.2B28.3B22B17.4B12B8.7B??
Densidad de transistores65,6 toneladas métricas/ mm245,1 toneladas métricas/ mm244,4 toneladas métricas/ mm244,4 toneladas métricas/ mm243,5 toneladas métricas/ mm243,5 toneladas métricas/ mm2??
Clústeres de procesamiento de gráficos87663221
Multiprocesadores de streaming12884604830201612
Núcleos CUDA1228810752768061443840256020481536
Unidades de mapeo de texturas512336240192120806448
Unidades de salida de renderizado192112969648323216
Núcleos tensoriales512336240192120806448
Núcleos RTN / A8460483020812
Caché L124  MB10,5  MB7,5  MB6MB 3  MB2,5  MB3  MB1,5  MB
192  KB
por SM
128  KB por SM192  KB
por SM
128  KB
por SM
Caché L240  MB6MB 4MB 4MB 3  MB2MB 4MB ?

Acelerador A100 y DGX A100

El acelerador A100 basado en Ampere se anunció y lanzó el 14 de mayo de 2020. [9] El A100 presenta 19,5 teraflops de rendimiento FP32, 6912 núcleos CUDA FP32/INT32, 3456 núcleos CUDA FP64, 40 GB de memoria gráfica y 1,6 TB/s de ancho de banda de memoria gráfica. [22] El acelerador A100 inicialmente solo estaba disponible en la tercera generación del servidor DGX , incluidos 8 A100. [9] También se incluyen en el DGX A100 15 TB de almacenamiento NVMe PCIe gen 4 , [22] dos CPU AMD Rome 7742 de 64 núcleos , 1 TB de RAM e interconexión HDR InfiniBand con tecnología Mellanox . El precio inicial del DGX A100 fue de 199.000 dólares. [9]

Comparación de aceleradores utilizados en DGX: [23] [24] [25]

ModeloArquitecturaEnchufeNúcleos
CUDA FP32
Núcleos FP64
(excluido el tensor)
Núcleos mixtos
INT32/FP32

Núcleos INT32

Reloj de impulso

Reloj de memoria

Ancho del bus de memoria

Ancho de banda de memoria
Memoria virtual (VRAM)
Precisión simple
(FP32)
Doble
precisión
(FP64)
INT8
(no tensor)

Tensor denso INT8
INT32
Tensor denso FP4
FP16
Tensor denso FP16

Tensor denso bfloat16
Tensor denso TensorFloat-32
(TF32)

Tensor denso FP64
Interconexión
(NVLink)
GPUCaché L1Caché L2TDPTamaño del troquel
Conteo de transistores
Proceso
B200Pozo negroSXM6N / AN / AN / AN / AN / AHBM3e de 8 Gbps8192 bits8 TB/seg192 GB HBM3eN / AN / AN / A4.5 POPSN / A9 PFLOPSN / A2,25 PFLOPS2,25 PFLOPS1,2 PFLOPS40 TFLOPS1,8 TB/segGB100N / AN / A1000 vatiosN / A208 BTSMC 4NP
B100Pozo negroSXM6N / AN / AN / AN / AN / AHBM3e de 8 Gbps8192 bits8 TB/seg192 GB HBM3eN / AN / AN / A3.5 POPSN / A7 PFLOPSN / A1,98 PFLOPS1,98 PFLOPS989 TFLOPS30 TFLOPS1,8 TB/segGB100N / AN / A700 WN / A208 BTSMC 4NP
H200TolvaSXM516896460816896N / A1980 MHz6,3 Gbps HBM3e6144 bits4,8 TB/seg141 GB HBM3e67 TFLOPS34 TFLOPSN / A1,98 COPN / AN / AN / A990 TFLOPS990 TFLOPS495 TFLOPS67 TFLOPS900 GB/segGH10025344 KB (192 KB × 132)51200 KB1000 vatios814 milímetros cuadrados80 BTSMC 4N
H100TolvaSXM516896460816896N / A1980 MHz5,2 Gbps HBM35120 bits3,35 TB/seg80 GB HBM367 TFLOPS34 TFLOPSN / A1,98 COPN / AN / AN / A990 TFLOPS990 TFLOPS495 TFLOPS67 TFLOPS900 GB/segGH10025344 KB (192 KB × 132)51200 KB700 W814 milímetros cuadrados80 BTSMC 4N
A100 80 GBAmperioSXM4691234566912N / A1410 MHz3,2 Gbps HBM2e5120 bits1,52 TB/seg80 GB HBM2e19,5 TFLOPS9,7 TFLOPSN / A624 TOPES19,5 TOPESN / A78 TFLOPS312 TFLOPS312 TFLOPS156 TFLOPS19,5 TFLOPS600 GB/segGA10020736 KB (192 KB × 108)40960 KB400 vatios826 milímetros cuadrados54,2 BNúmero 7 de TSMC
A100 40 GBAmperioSXM4691234566912N / A1410 MHz2,4 Gbps HBM25120 bits1,52 TB/seg40 GB HBM219,5 TFLOPS9,7 TFLOPSN / A624 TOPES19,5 TOPESN / A78 TFLOPS312 TFLOPS312 TFLOPS156 TFLOPS19,5 TFLOPS600 GB/segGA10020736 KB (192 KB × 108)40960 KB400 vatios826 milímetros cuadrados54,2 BNúmero 7 de TSMC
V100 32 GBVueltaSXM351202560N / A51201530 MHz1,75 Gbps HBM24096 bits900 GB/seg32 GB HBM215,7 TFLOPS7,8 TFLOPS62 TOPSN / A15.7 TOPESN / A31,4 TFLOPS125 TFLOPSN / AN / AN / A300 GB/segGV10010240 KB (128 KB × 80)6144 KB350 W815 milímetros cuadrados21.1 BNúmero de serie 12FFN de TSMC
V100 16 GBVueltaSXM251202560N / A51201530 MHz1,75 Gbps HBM24096 bits900 GB/seg16 GB HBM215,7 TFLOPS7,8 TFLOPS62 TOPSN / A15.7 TOPESN / A31,4 TFLOPS125 TFLOPSN / AN / AN / A300 GB/segGV10010240 KB (128 KB × 80)6144 KB300 vatios815 milímetros cuadrados21.1 BNúmero de serie 12FFN de TSMC
P100PascalSXM/SXM2N / A17923584N / A1480 MHz1,4 Gbps HBM24096 bits720 GB/seg16 GB HBM210,6 TFLOPS5,3 TFLOPSN / AN / AN / AN / A21,2 TFLOPSN / AN / AN / AN / A160 GB/segGP1001344 KB (24 KB × 56)4096 KB300 vatios610 milímetros cuadrados15.3 BTSMC 16FF+

Productos que utilizan Ampere

  • Serie GeForce MX
    • GeForce MX570 (móvil) (GA107)
  • Serie GeForce 20
    • GeForce RTX 2050 (móvil) (GA107)
  • Serie GeForce 30
    • GPU para portátiles GeForce RTX 3050 (GA107)
    • GeForce RTX 3050 (GA106 o GA107) [26]
    • GPU para computadora portátil GeForce RTX 3050 Ti (GA107)
    • GPU para computadora portátil GeForce RTX 3060 (GA106)
    • GeForce RTX 3060 (GA106 o GA104) [27]
    • GeForce RTX 3060 Ti (GA104 o GA103) [28]
    • GPU para computadora portátil GeForce RTX 3070 (GA104)
    • GeForce RTX 3070 (GA104)
    • GPU para computadora portátil GeForce RTX 3070 Ti (GA104)
    • GeForce RTX 3070 Ti (GA104 o GA102) [29]
    • GPU para computadora portátil GeForce RTX 3080 (GA104)
    • GeForce RTX 3080 (GA102)
    • GeForce RTX 3080 de 12 GB (GA102)
    • GPU para portátiles GeForce RTX 3080 Ti (GA103)
    • GeForce RTX 3080 Ti (GA102)
    • GeForce RTX 3090 (GA102)
    • GeForce RTX 3090 Ti (GA102)
  • GPU para estaciones de trabajo de Nvidia (anteriormente Quadro )
    • RTX A1000 (móvil) (GA107)
    • RTX A2000 (móvil) (GA106)
    • RTX A2000 (GA106)
    • RTX A3000 (móvil) (GA104)
    • RTX A4000 (móvil) (GA104)
    • RTX A4000 (GA104)
    • RTX A5000 (móvil) (GA104)
    • RTX A5500 (móvil) (GA103)
    • RTX A4500 (GA102)
    • RTX A5000 (GA102)
    • RTX A5500 (GA102)
    • RTX A6000 (GA102)
    • A800 Activo
  • GPU para centros de datos de Nvidia (anteriormente Tesla )
    • Nvidia A2 (GA107)
    • Nvidia A10 (GA102)
    • Nvidia A16 (4xGA107)
    • Nvidia A30 (GA100)
    • Nvidia A40 (GA102)
    • Nvidia A100 (GA100)
    • Nvidia A100 80 GB (GA100)
    • Nvidia A100X
    • NVIDIA A30X
  • SoC Tegra
    • AGX Orin (GA10B)
    • Orin NX (GA10B)
    • Orin Nano (GA10B)
Productos que utilizan amperios (por chip)
TipoGA10BGA107GA106GA104GA103GA102GA100
Serie GeForce MXGeForce MX570 (móvil)
Serie GeForce 20GeForce RTX 2050 (móvil)
Serie GeForce 30Portátil GeForce RTX 3050 Portátil
GeForce RTX 3050
GeForce RTX 3050 Ti
GeForce RTX 3050
GeForce RTX 3060 Portátil
GeForce RTX 3060
GeForce RTX 3060
GeForce RTX 3060 Ti
GeForce RTX 3070 Portátil
GeForce RTX 3070
GeForce RTX 3070 Ti
GeForce RTX 3070 Ti
GeForce RTX 3080 Portátil
GeForce RTX 3060 Ti
GeForce RTX 3080 Ti Portátil
GeForce RTX 3070 Ti
GeForce RTX 3080
GeForce RTX 3080 Ti
GeForce RTX 3090
GeForce RTX 3090 Ti
GPU para estaciones de trabajo de NvidiaRTX A1000 (móvil)RTX A2000 (móvil)
RTX A2000
RTX A3000 (móvil)
RTX A4000 (móvil)
RTX A4000
RTX A5000 (móvil)
RTX A5500 (móvil)RTX A4500
RTX A5000
RTX A5500
RTX A6000
GPU para centros de datos de NvidiaNvidia A2
Nvidia A16
Nvidia A10
Nvidia A40
Nvidia A30
Nvidia A100
SoC TegraAGX Orin
Orin NX
Orin Nano

Véase también

Referencias

  1. ^ Sala de prensa, NVIDIA. "La nueva GPU Ampere para centros de datos de NVIDIA en plena producción". Sala de prensa de NVIDIA Sala de prensa . {{cite web}}: |last=tiene nombre genérico ( ayuda )
  2. ^ "Arquitectura Ampere de NVIDIA en profundidad". Blog para desarrolladores de NVIDIA . 14 de mayo de 2020.
  3. ^ "NVIDIA ofrece el mayor salto generacional de la historia con las GPU GeForce RTX serie 30". Sala de prensa de Nvidia . 1 de septiembre de 2020 . Consultado el 9 de abril de 2023 .
  4. ^ "Cuenta regresiva para NVIDIA GeForce Ultimate". Nvidia .
  5. ^ "NVIDIA apuesta a lo grande: anuncia la GPU A100 de 80 GB, que potencia la GPU más potente del mundo para la supercomputación con IA". Sala de prensa de Nvidia . 16 de noviembre de 2020 . Consultado el 9 de abril de 2023 .
  6. ^ "NVIDIA GeForce Beyond en CES 2023". NVIDIA .
  7. ^ "I.7. Compute Capability 8.x". Nvidia . Consultado el 23 de septiembre de 2020 .
  8. ^ Bosnjak, Dominik (1 de septiembre de 2020). "La vieja tecnología de 8 nm de Samsung en el corazón de las monstruosas tarjetas Ampere de NVIDIA". SamMobile . Consultado el 19 de septiembre de 2020 .
  9. ^ abcde Smith, Ryan (14 de mayo de 2020). "NVIDIA Ampere Unleashed: NVIDIA anuncia una nueva arquitectura de GPU, la GPU A100 y un acelerador". AnandTech.
  10. ^ Delgado, Gerardo (1 de septiembre de 2020). «GPU GeForce RTX serie 30: marcando el comienzo de una nueva era de contenido de video con decodificación AV1». Nvidia . Consultado el 9 de abril de 2023 .
  11. ^ Morgan, Timothy Prickett (29 de mayo de 2020). "Profundizando en la arquitectura de GPU Ampere de Nvidia". The Next Platform . Consultado el 24 de marzo de 2022 .
  12. ^ "Arquitectura de GPU NVIDIA A100 Tensor Core: aceleración sin precedentes en todas las escalas" (PDF) . Nvidia . Consultado el 18 de septiembre de 2020 .
  13. ^ "Núcleos Tensor de NVIDIA: versatilidad para HPC e IA". NVIDIA .
  14. ^ "Resumen". docs.nvidia.com .
  15. ^ "Arquitectura de GPU NVIDIA A100 Tensor Core" (PDF) . NVIDIA Corporation . Consultado el 29 de abril de 2024 .
  16. ^ "Especificaciones de la GPU NVIDIA GA102". TechPowerUp . Consultado el 29 de abril de 2024 .
  17. ^ "Especificaciones de la GPU NVIDIA GA103". TechPowerUp . Consultado el 29 de abril de 2024 .
  18. ^ "Especificaciones de la GPU NVIDIA GA104". TechPowerUp . Consultado el 29 de abril de 2024 .
  19. ^ "Especificaciones de la GPU NVIDIA GA106". TechPowerUp . Consultado el 29 de abril de 2024 .
  20. ^ "Especificaciones de la GPU NVIDIA GA107". TechPowerUp . Consultado el 29 de abril de 2024 .
  21. ^ "Resumen técnico de la serie NVIDIA AGX Orin v1.2" (PDF) . Corporación NVIDIA . Consultado el 29 de abril de 2024 .
  22. ^ de Tom Warren; James Vincent (14 de mayo de 2020). "La primera GPU Ampere de Nvidia está diseñada para centros de datos e inteligencia artificial, no para tu PC". The Verge.
  23. ^ Smith, Ryan (22 de marzo de 2022). "Se anuncia la arquitectura de GPU NVIDIA Hopper y el acelerador H100: trabajo más inteligente y más duro". AnandTech.
  24. ^ Smith, Ryan (14 de mayo de 2020). "NVIDIA Ampere Unleashed: NVIDIA anuncia una nueva arquitectura de GPU, la GPU A100 y un acelerador". AnandTech.
  25. ^ "NVIDIA Tesla V100 probada: potencia de GPU casi increíble". TweakTown . 17 de septiembre de 2017.
  26. ^ Igor, Wallossek (13 de febrero de 2022). «Las dos caras de la GeForce RTX 3050 8GB». Igor's Lab . Consultado el 23 de febrero de 2022 .
  27. ^ Shilov, Anton (25 de septiembre de 2021). "Gainward y Galax listan tarjetas GeForce RTX 3060 con GPU GA104". Tom's Hardware . Consultado el 23 de septiembre de 2022 .
  28. ^ Tyson, Mark (23 de febrero de 2022). "Zotac presenta las primeras tarjetas de escritorio RTX 3060 Ti con GPU GA103". Tom's Hardware . Consultado el 23 de septiembre de 2022 .
  29. ^ WhyCry (26 de octubre de 2022). "ZOTAC lanza GeForce RTX 3070 Ti con GPU GA102-150". VideoCardz . Consultado el 21 de mayo de 2023 .
  • Documento técnico sobre la arquitectura de la GPU Tensor Core de Nvidia A100
  • Documento técnico sobre la arquitectura de la GPU Nvidia Ampere GA102
  • Arquitectura de Nvidia Ampere
  • GPU Nvidia A100 con núcleo tensor
  • Arquitectura Ampere de Nvidia en profundidad
Obtenido de "https://es.wikipedia.org/w/index.php?title=Amperio_(microarquitectura)&oldid=1248041618"