- Pasos que se realizan al descargar cálculos a la GPU en un sistema que no es HSA
- Pasos que se realizan al descargar cálculos a la GPU en un sistema HSA, utilizando la funcionalidad HSA
La arquitectura de sistemas heterogéneos ( HSA ) es un conjunto de especificaciones de varios proveedores que permiten la integración de unidades centrales de procesamiento y procesadores gráficos en el mismo bus, con memoria y tareas compartidas . [1] La HSA está siendo desarrollada por la Fundación HSA , que incluye (entre muchos otros) AMD y ARM . El objetivo declarado de la plataforma es reducir la latencia de comunicación entre CPU, GPU y otros dispositivos informáticos , y hacer que estos diversos dispositivos sean más compatibles desde la perspectiva de un programador, [2] : 3 [3] aliviando al programador de la tarea de planificar el movimiento de datos entre las memorias disjuntas de los dispositivos (como debe hacerse actualmente con OpenCL o CUDA ). [4]
CUDA y OpenCL, así como la mayoría de los otros lenguajes de programación bastante avanzados, pueden usar HSA para aumentar su rendimiento de ejecución. [5] La computación heterogénea se usa ampliamente en dispositivos de sistema en chip, como tabletas , teléfonos inteligentes , otros dispositivos móviles y consolas de videojuegos . [6] HSA permite que los programas usen el procesador gráfico para cálculos de punto flotante sin memoria separada o programación. [7]
La lógica detrás de HSA es aliviar la carga de los programadores cuando transfieren cálculos a la GPU. Originalmente impulsada únicamente por AMD y llamada FSA, la idea se amplió para abarcar también otras unidades de procesamiento además de las GPU, como los DSP de otros fabricantes .
Las GPU modernas son muy adecuadas para ejecutar instrucciones únicas, múltiples datos (SIMD) e instrucciones únicas, múltiples subprocesos (SIMT), mientras que las CPU modernas aún se están optimizando para la ramificación, etc.
Esta sección necesita citas adicionales para su verificación . ( Mayo de 2014 ) |
Originalmente introducido por sistemas integrados como Cell Broadband Engine , compartir la memoria del sistema directamente entre múltiples actores del sistema hace que la computación heterogénea sea más común. La computación heterogénea en sí se refiere a sistemas que contienen múltiples unidades de procesamiento: unidades centrales de procesamiento (CPU), unidades de procesamiento gráfico (GPU), procesadores de señal digital (DSP) o cualquier tipo de circuitos integrados específicos de la aplicación (ASIC). La arquitectura del sistema permite que cualquier acelerador, por ejemplo un procesador gráfico , funcione al mismo nivel de procesamiento que la CPU del sistema.
Entre sus principales características, HSA define un espacio de direcciones virtuales unificado para dispositivos de cómputo: donde las GPU tradicionalmente tienen su propia memoria, separada de la memoria principal (CPU), HSA requiere que estos dispositivos compartan tablas de páginas para que los dispositivos puedan intercambiar datos compartiendo punteros . Esto debe ser compatible con unidades de administración de memoria personalizadas . [2] : 6–7 Para hacer posible la interoperabilidad y también para facilitar varios aspectos de la programación, HSA está destinado a ser independiente de ISA tanto para CPU como para aceleradores, y para admitir lenguajes de programación de alto nivel.
Hasta el momento, las especificaciones de la HSA cubren:
HSAIL (lenguaje intermedio de arquitectura de sistemas heterogéneos), un conjunto de instrucciones virtuales para programas paralelos
Los dispositivos móviles son una de las áreas de aplicación del HSA, en las que se logra una eficiencia energética mejorada. [6]
Las ilustraciones a continuación comparan la coordinación CPU-GPU bajo HSA versus bajo arquitecturas tradicionales.
Algunas de las características específicas de HSA implementadas en el hardware deben ser compatibles con el núcleo del sistema operativo y los controladores de dispositivos específicos. Por ejemplo, la compatibilidad con tarjetas gráficas AMD Radeon y AMD FirePro y APU basadas en Graphics Core Next (GCN) se fusionó en la versión 3.19 de la línea principal del núcleo Linux , lanzada el 8 de febrero de 2015. [10] Los programas no interactúan directamente con amdkfd [ se necesita más explicación ] , sino que ponen en cola sus trabajos utilizando el entorno de ejecución de HSA. [11] Esta primera implementación, conocida como amdkfd , se centra en las APU "Kaveri" o "Berlin" y funciona junto con el controlador de gráficos del núcleo Radeon existente.
Además, amdkfd admite la gestión de colas heterogéneas (HQ), cuyo objetivo es simplificar la distribución de trabajos computacionales entre múltiples CPU y GPU desde la perspectiva del programador. La compatibilidad con la gestión de memoria heterogénea ( HMM ), adecuada solo para hardware gráfico con la versión 2 de IOMMU de AMD , fue aceptada en la versión principal del kernel de Linux 4.14. [12]
Se ha anunciado soporte integrado para plataformas HSA para el lanzamiento "Sumatra" de OpenJDK , previsto para 2015. [13]
AMD APP SDK es un kit de desarrollo de software patentado de AMD destinado a la computación paralela , disponible para Microsoft Windows y Linux. Bolt es una biblioteca de plantillas C++ optimizada para computación heterogénea. [14]
GPUOpen incluye un par de herramientas de software más relacionadas con HSA. La versión 2.0 de CodeXL incluye un generador de perfiles de HSA. [15]
A partir de febrero de 2015 [actualizar], solo las APU de la serie A "Kaveri" de AMD (cf. procesadores de escritorio "Kaveri" y procesadores móviles "Kaveri" ) y la PlayStation 4 de Sony permitían que la GPU integrada accediera a la memoria a través de la versión 2 de la IOMMU de AMD. Las APU anteriores (Trinity y Richland) incluían la funcionalidad de la versión 2 de la IOMMU, pero solo para su uso con una GPU externa conectada a través de PCI Express. [ cita requerida ]
Las APU Carrizo y Bristol Ridge posteriores a 2015 también incluyen la funcionalidad IOMMU de la versión 2 para la GPU integrada. [ cita requerida ]
La siguiente tabla muestra las características de los procesadores AMD con gráficos 3D, incluidas las APU (ver también: Lista de procesadores AMD con gráficos 3D ).
Plataforma | Potencia alta, estándar y baja | Consumo bajo y ultrabajo | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Nombre en clave | Servidor | Básico | Toronto | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Micro | Kioto | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
De oficina | Actuación | Rafael | Fénix | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Corriente principal | Llano | Trinidad | Tierra rica | Kaveri | Kaveri Refresh (Godavari) | Carrizo | Cresta de Bristol | Cresta del cuervo | Picasso | Renoir | Cézanne | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Entrada | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Básico | Cabaña | Dalí | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Móvil | Actuación | Renoir | Cézanne | Rembrandt | Cordillera del Dragón | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Corriente principal | Llano | Trinidad | Tierra rica | Kaveri | Carrizo | Cresta de Bristol | Cresta del cuervo | Picasso | Renoir Lucienne | Cézanne Barceló | Fénix | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Entrada | Dalí | Mendocino | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Básico | Desna, Ontario, Zacate | Cabaña, Temash | Beema, Mullins | Carrizo-L | Cresta de piedra | Abadejo | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Incorporado | Trinidad | Águila calva | Halcón Merlín , Halcón Pardo | Búho cornudo | Halcón gris | Ontario, Zacate | Cabaña | Águila esteparia , águila coronada , familia LX | Halcón de la pradera | Cernícalo bandeado | Halcón de río | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Liberado | Agosto de 2011 | Octubre de 2012 | Junio de 2013 | Enero de 2014 | 2015 | Junio de 2015 | Junio de 2016 | Octubre de 2017 | Enero de 2019 | Marzo de 2020 | Enero de 2021 | Enero de 2022 | septiembre 2022 | Enero de 2023 | Enero de 2011 | Mayo de 2013 | Abril de 2014 | Mayo de 2015 | Febrero de 2016 | Abril de 2019 | Julio de 2020 | Junio de 2022 | Noviembre de 2022 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Microarquitectura de CPU | K10 | Martillo de hincar | Apisonadora | Excavador | " Excavadora+ " [16] | zen | Zen+ | Zen 2 | Zen 3 | Zen 3+ | Zen 4 | Gato montés | Jaguar | Puma | Puma+ [17] | " Excavadora+ " | zen | Zen+ | " Zen 2+ " | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Es un | x86-64 versión 1 | x86-64 versión 2 | x86-64 versión 3 | x86-64 versión 4 | x86-64 versión 1 | x86-64 versión 2 | x86-64 versión 3 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Enchufe | De oficina | Actuación | — | AM5 | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Corriente principal | — | AM4 | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Entrada | FM1 | FM2 | FM2+ | FM2+ [a] , AM4 | AM4 | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Básico | — | — | AM1 | — | FP5 | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Otro | FS1 | FS1+ , FP2 | FP3 | FP4 | FP5 | FP6 | 7PM | FL1 | FP7 FP7r2 FP8 | ? | FT1 | FT3 | FT3b | FP4 | FP5 | FT5 | FP5 | FT6 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Versión PCI Express | 2.0 | 3.0 | 4.0 | 5.0 | 4.0 | 2.0 | 3.0 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CXL | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Fab. ( nm ) | GF 32SHP ( Inversión pública de Hong Kong ) | GF 28SHP (HKMG a granel) | GF 14LPP ( FinFET a granel) | GF 12LP (FinFET a granel) | TSMC N7 (FinFET a granel) | TSMC N6 (FinFET a granel) | CCD: TSMC N5 (FinFET a granel) cIOD: TSMC N6 (FinFET a granel) | TSMC 4 nm (FinFET a granel) | TSMC N40 (a granel) | TSMC N28 (granel de HKMG) | GF 28SHP (HKMG a granel) | GF 14LPP ( FinFET a granel) | GF 12LP (FinFET a granel) | TSMC N6 (FinFET a granel) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Área de la matriz (mm 2 ) | 228 | 246 | 245 | 245 | 250 | 210 [18] | 156 | 180 | 210 | CCD: (2x) 70 cd/m2: 122 | 178 | 75 (+ 28 FCH ) | 107 | ? | 125 | 149 | ~100 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TDP mínimo (W) | 35 | 17 | 12 | 10 | 15 | 65 | 35 | 4.5 | 4 | 3,95 | 10 | 6 | 12 | 8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TDP máximo de la APU (W) | 100 | 95 | 65 | 45 | 170 | 54 | 18 | 25 | 6 | 54 | 15 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Reloj base máximo de la APU de serie (GHz) | 3 | 3.8 | 4.1 | 4.1 | 3.7 | 3.8 | 3.6 | 3.7 | 3.8 | 4.0 | 3.3 | 4.7 | 4.3 | 1,75 | 2.2 | 2 | 2.2 | 3.2 | 2.6 | 1.2 | 3.35 | 2.8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máximo de APU por nodo [b] | 1 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Número máximo de núcleos por CPU | 1 | 2 | 1 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CCX máximo por núcleo | 1 | 2 | 1 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máximo de núcleos por CCX | 4 | 8 | 2 | 4 | 2 | 4 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máximo de núcleos de CPU [c] por APU | 4 | 8 | 16 | 8 | 2 | 4 | 2 | 4 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máximo de subprocesos por núcleo de CPU | 1 | 2 | 1 | 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Estructura de canalización de números enteros | 3+3 | 2+2 | 4+2 | 4+2+1 | 1+3+3+1+2 | 1+1+1+1 | 2+2 | 4+2 | 4+2+1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
i386, i486, i586, CMOV, NOPL, i686, PAE , NX bit , CMPXCHG16B, AMD-V , RVI , ABM y LAHF/SAHF de 64 bits | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
IOMMU [d] | — | versión 2 | versión 1 | versión 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BMI1 , AES-NI , CLMUL y F16C | — | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
MOVIMIENTO | — | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AVIC , BMI2 , RDRAND y MWAITX/MONITORX | — | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
SME [e] , TSME [e] , ADX , SHA , RDSEED , SMAP , SMEP , XSAVEC, XSAVES, XRSTORS, CLFLUSHOPT, CLZERO y PTE Coalescente | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GMET , WBNOINVD, CLWB, QOS, PQE-BW, RDPID, RDPRU y MCOMMIT | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
MPK , VAES | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
SGX | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
FPU por núcleo | 1 | 0,5 | 1 | 1 | 0,5 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Tuberías por FPU | 2 | 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ancho de la tubería FPU | 128 bits | 256 bits | 80 bits | 128 bits | 256 bits | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Conjunto de instrucciones de CPU nivel SIMD | SSE4a [f] | AVX | AVX2 | AVX-512 | ESSE3 | AVX | AVX2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
¡3DAhora! | ¡3DAhora!+ | — | — | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PREFETCH/PREFETCHW | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GFNI | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AMX | — | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
FMA4 , LWP, TBM y XOP | — | — | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
FMA3 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
XADN de AMD | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Caché de datos L1 por núcleo (KiB) | 64 | 16 | 32 | 32 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Asociatividad de caché de datos L1 (vías) | 2 | 4 | 8 | 8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Cachés de instrucciones L1 por núcleo | 1 | 0,5 | 1 | 1 | 0,5 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máximo total de caché de instrucciones L1 de APU (KiB) | 256 | 128 | 192 | 256 | 512 | 256 | 64 | 128 | 96 | 128 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Asociatividad de la caché de instrucciones L1 (vías) | 2 | 3 | 4 | 8 | 2 | 3 | 4 | 8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Cachés L2 por núcleo | 1 | 0,5 | 1 | 1 | 0,5 | 1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máxima cantidad total de caché L2 de APU (MiB) | 4 | 2 | 4 | 16 | 1 | 2 | 1 | 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Asociatividad de caché L2 (vías) | 16 | 8 | 16 | 8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Caché L3 integrado máximo por CCX (MiB) | — | 4 | 16 | 32 | — | 4 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máximo V-Cache 3D por CCD (MiB) | — | 64 | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máximo total de caché L3 en CCD por APU (MiB) | 4 | 8 | 16 | 64 | 4 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máx. V-Cache 3D total por APU (MiB) | — | 64 | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máxima memoria caché L3 de la placa por APU (MiB) | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máximo total de caché L3 por APU (MiB) | 4 | 8 | 16 | 128 | 4 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Asociatividad de caché L3 de APU (vías) | 16 | 16 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Esquema de caché L3 | Víctima | Víctima | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máx. caché L4 | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Compatibilidad máxima con DRAM de serie | DDR3-1866 | DDR3-2133 | DDR3-2133 , DDR4-2400 | DDR4-2400 | DDR4-2933 | DDR4-3200 , LPDDR4-4266 | DDR5-4800 , LPDDR5-6400 | DDR5-5200 | DDR5-5600 , LPDDR5x -7500 | DDR3L -1333 | DDR3L-1600 | DDR3L-1866 | DDR3-1866 , DDR4-2400 | DDR4-2400 | DDR4-1600 | DDR4-3200 | LPDDR5-5500 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Máximo de canales DRAM por APU | 2 | 1 | 2 | 1 | 2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ancho de banda máximo de DRAM (GB/s) por APU | 29.866 | 34.132 | 38.400 | 46.932 | 68.256 | 102.400 | 83.200 | 120.000 | 10.666 | 12.800 | 14.933 | 19.200 | 38.400 | 12.800 | 51.200 | 88.000 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Microarquitectura de GPU | TeraScale 2 (VLIW5) | TeraScale 3 (VLIW4) | GCN 2da generación | GCN de tercera generación | GCN 5ta generación [19] | ADNr 2 | ADNr 3 | TeraScale 2 (VLIW5) | GCN 2da generación | GCN 3ra generación [19] | GCN 5ta generación | ADNr 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Conjunto de instrucciones de la GPU | Conjunto de instrucciones de TeraScale | Conjunto de instrucciones GCN | Conjunto de instrucciones RDNA | Conjunto de instrucciones de TeraScale | Conjunto de instrucciones GCN | Conjunto de instrucciones RDNA | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Reloj base de GPU de serie máximo (MHz) | 600 | 800 | 844 | 866 | 1108 | 1250 | 1400 | 2100 | 2400 | 400 | 538 | 600 | ? | 847 | 900 | 1200 | 600 | 1300 | 1900 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GFLOPS base de GPU de serie máximos [g] | 480 | 614.4 | 648.1 | 886.7 | 1134.5 | 1760 | 1971.2 | 2150.4 | 3686.4 | 102.4 | 86 | ? | ? | ? | 345.6 | 460.8 | 230.4 | 1331.2 | 486,4 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Motor 3D [h] | Hasta 400:20:8 | Hasta 384:24:6 | Hasta 512:32:8 | Hasta 704:44:16 [20] | Hasta 512:32:8 | 768:48:8 | 128:8:4 | 80:8:4 | 128:8:4 | Hasta 192:12:8 | Hasta 192:12:4 | 192:12:4 | Hasta 512:?:? | 128:?:? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
IOMMUv1 | IOMMUV2 | IOMMUv1 | ? | IOMMUV2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Descodificador de vídeo | UVD3.0 | UVD 4.2 | UVD6.0 | VCN 1.0 [21] | VCN 2.1 [22] | VCN2.2 [22] | VCN 3.1 | ? | UVD3.0 | UVD 4.0 | UVD 4.2 | UVD6.2 | VCN 1.0 | VCN 3.1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Codificador de vídeo | — | VCE 1.0 | VCE 2.0 | VCE 3.1 | — | VCE 2.0 | VCE 3.4 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Movimiento fluido AMD | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ahorro de energía de la GPU | Juego de poder | Sintonizador de potencia | Juego de poder | PotenciaTune [23] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Audio verdadero | — | [24] | ? | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sincronización gratuita | 1 2 | 1 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
HDCP [i] | ? | 1.4 | 2.2 | 2.3 | ? | 1.4 | 2.2 | 2.3 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Listo para jugar [i] | — | 3.0 aún no | — | 3.0 aún no | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Pantallas compatibles [j] | 2–3 | 2–4 | 3 | 3 (computadora de escritorio) 4 (móvil, integrado) | 4 | 2 | 3 | 4 | 4 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
/drm/radeon [k] [26] [27] | — | — | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
/drm/amdgpu [k] [28] | — | [29] | — | [29] |
La microarquitectura Bifrost de ARM , tal como se implementó en el Mali-G71, [30] es totalmente compatible con las especificaciones de hardware HSA 1.1. A junio de 2016 [actualizar], ARM no ha anunciado soporte de software que utilice esta característica de hardware.