Arquitectura de sistemas heterogéneos

Sistema de computación

La arquitectura de sistemas heterogéneos ( HSA ) es un conjunto de especificaciones de varios proveedores que permiten la integración de unidades centrales de procesamiento y procesadores gráficos en el mismo bus, con memoria y tareas compartidas . ^[1] La HSA está siendo desarrollada por la Fundación HSA , que incluye (entre muchos otros) AMD y ARM . El objetivo declarado de la plataforma es reducir la latencia de comunicación entre CPU, GPU y otros dispositivos informáticos , y hacer que estos diversos dispositivos sean más compatibles desde la perspectiva de un programador, ^[2]^{: 3}^[3] aliviando al programador de la tarea de planificar el movimiento de datos entre las memorias disjuntas de los dispositivos (como debe hacerse actualmente con OpenCL o CUDA ). ^[4]

CUDA y OpenCL, así como la mayoría de los otros lenguajes de programación bastante avanzados, pueden usar HSA para aumentar su rendimiento de ejecución. ^[5] La computación heterogénea se usa ampliamente en dispositivos de sistema en chip, como tabletas , teléfonos inteligentes , otros dispositivos móviles y consolas de videojuegos . ^[6] HSA permite que los programas usen el procesador gráfico para cálculos de punto flotante sin memoria separada o programación. ^[7]

Razón fundamental

La lógica detrás de HSA es aliviar la carga de los programadores cuando transfieren cálculos a la GPU. Originalmente impulsada únicamente por AMD y llamada FSA, la idea se amplió para abarcar también otras unidades de procesamiento además de las GPU, como los DSP de otros fabricantes .

Pasos que se realizan al descargar cálculos a la GPU en un sistema que no es HSA
Pasos que se realizan al descargar cálculos a la GPU en un sistema HSA, utilizando la funcionalidad HSA

Las GPU modernas son muy adecuadas para ejecutar instrucciones únicas, múltiples datos (SIMD) e instrucciones únicas, múltiples subprocesos (SIMT), mientras que las CPU modernas aún se están optimizando para la ramificación, etc.

Descripción general

Originalmente introducido por sistemas integrados como Cell Broadband Engine , compartir la memoria del sistema directamente entre múltiples actores del sistema hace que la computación heterogénea sea más común. La computación heterogénea en sí se refiere a sistemas que contienen múltiples unidades de procesamiento: unidades centrales de procesamiento (CPU), unidades de procesamiento gráfico (GPU), procesadores de señal digital (DSP) o cualquier tipo de circuitos integrados específicos de la aplicación (ASIC). La arquitectura del sistema permite que cualquier acelerador, por ejemplo un procesador gráfico , funcione al mismo nivel de procesamiento que la CPU del sistema.

Entre sus principales características, HSA define un espacio de direcciones virtuales unificado para dispositivos de cómputo: donde las GPU tradicionalmente tienen su propia memoria, separada de la memoria principal (CPU), HSA requiere que estos dispositivos compartan tablas de páginas para que los dispositivos puedan intercambiar datos compartiendo punteros . Esto debe ser compatible con unidades de administración de memoria personalizadas . ^[2]^{: 6–7} Para hacer posible la interoperabilidad y también para facilitar varios aspectos de la programación, HSA está destinado a ser independiente de ISA tanto para CPU como para aceleradores, y para admitir lenguajes de programación de alto nivel.

Hasta el momento, las especificaciones de la HSA cubren:

Capa intermedia de HSA

HSAIL (lenguaje intermedio de arquitectura de sistemas heterogéneos), un conjunto de instrucciones virtuales para programas paralelos

similar ^{[ ¿según quién? ]} a LLVM Intermediate Representation y SPIR (utilizados por OpenCL y Vulkan )
finalizado a un conjunto de instrucciones específicas por un compilador JIT
Tomar decisiones tardías sobre qué núcleo(s) deben ejecutar una tarea
explícitamente paralelo
Admite excepciones, funciones virtuales y otras características de alto nivel.
soporte de depuración

Modelo de memoria HSA

Compatible con modelos de memoria C++11 , OpenCL, Java y .NET
consistencia relajada
Diseñado para soportar lenguajes administrados (por ejemplo, Java) y lenguajes no administrados (por ejemplo, C )
hará que sea mucho más fácil desarrollar compiladores de terceros para una amplia gama de productos heterogéneos programados en Fortran , C++, C++ AMP , Java, etc.

Despachador y tiempo de ejecución de HSA

Diseñado para permitir la puesta en cola de tareas heterogéneas: una cola de trabajo por núcleo, distribución del trabajo en colas, equilibrio de carga mediante robo de trabajo.
Cualquier núcleo puede programar trabajo para cualquier otro, incluido él mismo.
Reducción significativa de los gastos generales de programación de trabajo para un núcleo.

Los dispositivos móviles son una de las áreas de aplicación del HSA, en las que se logra una eficiencia energética mejorada. ^[6]

Diagramas de bloques

Las ilustraciones a continuación comparan la coordinación CPU-GPU bajo HSA versus bajo arquitecturas tradicionales.

Arquitectura estándar con una GPU discreta conectada al bus PCI Express . No es posible realizar copias cero entre la GPU y la CPU debido a que las memorias físicas son distintas.
HSA aporta memoria virtual unificada y facilita el paso de punteros a través de PCI Express en lugar de copiar todos los datos.
En la memoria principal particionada, una parte de la memoria del sistema se asigna exclusivamente a la GPU. Como resultado, no es posible realizar operaciones de copia cero.
Memoria principal unificada, en la que la GPU y la CPU están habilitadas para HSA. Esto hace posible la operación sin copia. ^[8]
La MMU de la CPU y la IOMMU de la GPU deben cumplir con las especificaciones de hardware HSA.

Soporte de software

Algunas de las características específicas de HSA implementadas en el hardware deben ser compatibles con el núcleo del sistema operativo y los controladores de dispositivos específicos. Por ejemplo, la compatibilidad con tarjetas gráficas AMD Radeon y AMD FirePro y APU basadas en Graphics Core Next (GCN) se fusionó en la versión 3.19 de la línea principal del núcleo Linux , lanzada el 8 de febrero de 2015. ^[10] Los programas no interactúan directamente con amdkfd ^[^{se necesita más explicación}^] , sino que ponen en cola sus trabajos utilizando el entorno de ejecución de HSA. ^[11] Esta primera implementación, conocida como amdkfd , se centra en las APU "Kaveri" o "Berlin" y funciona junto con el controlador de gráficos del núcleo Radeon existente.

Además, amdkfd admite la gestión de colas heterogéneas (HQ), cuyo objetivo es simplificar la distribución de trabajos computacionales entre múltiples CPU y GPU desde la perspectiva del programador. La compatibilidad con la gestión de memoria heterogénea ( HMM ), adecuada solo para hardware gráfico con la versión 2 de IOMMU de AMD , fue aceptada en la versión principal del kernel de Linux 4.14. ^[12]

Se ha anunciado soporte integrado para plataformas HSA para el lanzamiento "Sumatra" de OpenJDK , previsto para 2015. ^[13]

AMD APP SDK es un kit de desarrollo de software patentado de AMD destinado a la computación paralela , disponible para Microsoft Windows y Linux. Bolt es una biblioteca de plantillas C++ optimizada para computación heterogénea. ^[14]

GPUOpen incluye un par de herramientas de software más relacionadas con HSA. La versión 2.0 de CodeXL incluye un generador de perfiles de HSA. ^[15]

Soporte de hardware

AMD

A partir de febrero de 2015 ^[actualizar], solo las APU de la serie A "Kaveri" de AMD (cf. procesadores de escritorio "Kaveri" y procesadores móviles "Kaveri" ) y la PlayStation 4 de Sony permitían que la GPU integrada accediera a la memoria a través de la versión 2 de la IOMMU de AMD. Las APU anteriores (Trinity y Richland) incluían la funcionalidad de la versión 2 de la IOMMU, pero solo para su uso con una GPU externa conectada a través de PCI Express. ^{[ cita requerida ]}

Las APU Carrizo y Bristol Ridge posteriores a 2015 también incluyen la funcionalidad IOMMU de la versión 2 para la GPU integrada. ^{[ cita requerida ]}

La siguiente tabla muestra las características de los procesadores AMD con gráficos 3D, incluidas las APU (ver también: Lista de procesadores AMD con gráficos 3D ).

Plataforma			Potencia alta, estándar y baja														Consumo bajo y ultrabajo
Nombre en clave	Servidor	Básico						Toronto
	Servidor	Micro																Kioto
	De oficina	Actuación													Rafael	Fénix
		Corriente principal	Llano	Trinidad	Tierra rica	Kaveri	Kaveri Refresh (Godavari)	Carrizo	Cresta de Bristol	Cresta del cuervo	Picasso	Renoir	Cézanne		Rafael
		Entrada	Llano	Trinidad	Tierra rica	Kaveri	Kaveri Refresh (Godavari)	Carrizo	Cresta de Bristol	Cresta del cuervo	Picasso	Renoir	Cézanne
		Básico																Cabaña				Dalí
	Móvil	Actuación										Renoir	Cézanne	Rembrandt	Cordillera del Dragón
		Corriente principal	Llano	Trinidad	Tierra rica	Kaveri		Carrizo	Cresta de Bristol	Cresta del cuervo	Picasso	Renoir Lucienne	Cézanne Barceló	Rembrandt	Cordillera del Dragón	Fénix
		Entrada	Llano	Trinidad	Tierra rica	Kaveri		Carrizo	Cresta de Bristol	Cresta del cuervo												Dalí			Mendocino
		Básico															Desna, Ontario, Zacate	Cabaña, Temash	Beema, Mullins	Carrizo-L	Cresta de piedra	Dalí	Abadejo		Mendocino
	Incorporado			Trinidad		Águila calva		Halcón Merlín , Halcón Pardo		Búho cornudo		Halcón gris					Ontario, Zacate	Cabaña	Águila esteparia , águila coronada , familia LX		Halcón de la pradera	Cernícalo bandeado		Halcón de río
Liberado			Agosto de 2011	Octubre de 2012	Junio de 2013	Enero de 2014	2015	Junio de 2015	Junio de 2016	Octubre de 2017	Enero de 2019	Marzo de 2020	Enero de 2021	Enero de 2022	septiembre 2022	Enero de 2023	Enero de 2011	Mayo de 2013	Abril de 2014	Mayo de 2015	Febrero de 2016	Abril de 2019	Julio de 2020	Junio de 2022	Noviembre de 2022
Microarquitectura de CPU			K10	Martillo de hincar		Apisonadora		Excavador	" Excavadora+ " ^[16]	zen	Zen+	Zen 2	Zen 3	Zen 3+	Zen 4		Gato montés	Jaguar	Puma	Puma+ ^[17]	" Excavadora+ "	zen		Zen+	" Zen 2+ "
Es un			x86-64 versión 1	x86-64 versión 2				x86-64 versión 3							x86-64 versión 4		x86-64 versión 1	x86-64 versión 2			x86-64 versión 3
Enchufe	De oficina	Actuación	—												AM5	—	—
		Corriente principal	—					AM4						—	AM5	—
		Entrada	FM1	FM2		FM2+		FM2+ ^[a] , AM4	AM4					—
		Básico	—														—	AM1	—			FP5	—
	Otro		FS1	FS1+ , FP2		FP3		FP4		FP5		FP6		7PM	FL1	FP7 FP7r2 FP8	?	FT1	FT3	FT3b		FP4	FP5	FT5	FP5	FT6
Versión PCI Express			2.0			3.0								4.0	5.0	4.0	2.0				3.0
CXL			—														—
Fab. ( nm )			GF 32SHP ( Inversión pública de Hong Kong )			GF 28SHP (HKMG a granel)				GF 14LPP ( FinFET a granel)	GF 12LP (FinFET a granel)	TSMC N7 (FinFET a granel)		TSMC N6 (FinFET a granel)	CCD: TSMC N5 (FinFET a granel) cIOD: TSMC N6 (FinFET a granel)	TSMC 4 nm (FinFET a granel)	TSMC N40 (a granel)	TSMC N28 (granel de HKMG)	GF 28SHP (HKMG a granel)			GF 14LPP ( FinFET a granel)		GF 12LP (FinFET a granel)	TSMC N6 (FinFET a granel)
Área de la matriz (mm ² )			228	246		245		245	250	210 ^[18]		156	180	210	CCD: (2x) 70 cd/m2: 122	178	75 (+ 28 FCH )	107		?	125	149			~100
TDP mínimo (W)			35	17				12				10		15	65	35	4.5	4	3,95	10	6			12	8
TDP máximo de la APU (W)			100			95		65						45	170	54	18	25					6	54	15
Reloj base máximo de la APU de serie (GHz)			3	3.8	4.1	4.1		3.7	3.8	3.6	3.7	3.8	4.0	3.3	4.7	4.3	1,75	2.2	2	2.2	3.2	2.6	1.2	3.35	2.8
Máximo de APU por nodo ^[b]			1														1
Número máximo de núcleos por CPU			1												2	1	1
CCX máximo por núcleo			1									2	1				1
Máximo de núcleos por CCX			4										8				2	4			2			4
Máximo de núcleos de CPU ^[c] por APU			4									8			16	8	2	4			2			4
Máximo de subprocesos por núcleo de CPU			1							2							1					2
Estructura de canalización de números enteros			3+3	2+2						4+2		4+2+1	1+3+3+1+2				1+1+1+1				2+2	4+2			4+2+1
i386, i486, i586, CMOV, NOPL, i686, PAE , NX bit , CMPXCHG16B, AMD-V , RVI , ABM y LAHF/SAHF de 64 bits
IOMMU ^[d]			—	versión 2													versión 1		versión 2
BMI1 , AES-NI , CLMUL y F16C			—														—
MOVIMIENTO			—														—
AVIC , BMI2 , RDRAND y MWAITX/MONITORX			—														—
SME ^[e] , TSME ^[e] , ADX , SHA , RDSEED , SMAP , SMEP , XSAVEC, XSAVES, XRSTORS, CLFLUSHOPT, CLZERO y PTE Coalescente			—														—
GMET , WBNOINVD, CLWB, QOS, PQE-BW, RDPID, RDPRU y MCOMMIT			—														—
MPK , VAES			—														—
SGX			—														—
FPU por núcleo			1	0,5						1							1				0,5	1
Tuberías por FPU			2														2
Ancho de la tubería FPU			128 bits									256 bits					80 bits	128 bits							256 bits
Conjunto de instrucciones de CPU nivel SIMD			SSE4a ^[f]	AVX				AVX2							AVX-512		ESSE3	AVX			AVX2
¡3DAhora!			¡3DAhora!+	—													—
PREFETCH/PREFETCHW
GFNI			—														—
AMX			—														—
FMA4 , LWP, TBM y XOP			—							—							—					—
FMA3			—														—
XADN de AMD			—														—
Caché de datos L1 por núcleo (KiB)			64	16				32									32
Asociatividad de caché de datos L1 (vías)			2	4				8									8
Cachés de instrucciones L1 por núcleo			1	0,5						1							1				0,5	1
Máximo total de caché de instrucciones L1 de APU (KiB)			256	128		192				256					512	256	64		128		96	128
Asociatividad de la caché de instrucciones L1 (vías)			2			3				4		8					2				3	4			8
Cachés L2 por núcleo			1	0,5						1							1				0,5	1
Máxima cantidad total de caché L2 de APU (MiB)			4					2				4			16		1	2			1			2
Asociatividad de caché L2 (vías)			16							8							16					8
Caché L3 integrado máximo por CCX (MiB)			—							4			16		32		—						4
Máximo V-Cache 3D por CCD (MiB)										—					64	—							—
Máximo total de caché L3 en CCD por APU (MiB)										4		8	16		64								4
Máx. V-Cache 3D total por APU (MiB)										—					64	—							—
Máxima memoria caché L3 de la placa por APU (MiB)										—													—
Máximo total de caché L3 por APU (MiB)										4		8	16		128								4
Asociatividad de caché L3 de APU (vías)										16													16
Esquema de caché L3										Víctima													Víctima
Máx. caché L4			—														—
Compatibilidad máxima con DRAM de serie			DDR3-1866		DDR3-2133			DDR3-2133 , DDR4-2400	DDR4-2400	DDR4-2933		DDR4-3200 , LPDDR4-4266		DDR5-4800 , LPDDR5-6400	DDR5-5200	DDR5-5600 , LPDDR5x -7500	DDR3L -1333	DDR3L-1600	DDR3L-1866		DDR3-1866 , DDR4-2400	DDR4-2400	DDR4-1600	DDR4-3200	LPDDR5-5500
Máximo de canales DRAM por APU			2														1					2	1	2
Ancho de banda máximo de DRAM (GB/s) por APU			29.866		34.132			38.400		46.932		68.256		102.400	83.200	120.000	10.666	12.800	14.933		19.200	38.400	12.800	51.200	88.000
Microarquitectura de GPU			TeraScale 2 (VLIW5)	TeraScale 3 (VLIW4)		GCN 2da generación		GCN de tercera generación		GCN 5ta generación ^[19]				ADNr 2		ADNr 3	TeraScale 2 (VLIW5)	GCN 2da generación			GCN 3ra generación ^[19]	GCN 5ta generación			ADNr 2
Conjunto de instrucciones de la GPU			Conjunto de instrucciones de TeraScale			Conjunto de instrucciones GCN								Conjunto de instrucciones RDNA			Conjunto de instrucciones de TeraScale	Conjunto de instrucciones GCN							Conjunto de instrucciones RDNA
Reloj base de GPU de serie máximo (MHz)			600	800	844	866		1108		1250	1400	2100		2400	400		538	600	?	847	900	1200	600	1300	1900
GFLOPS base de GPU de serie máximos ^[g]			480	614.4	648.1	886.7		1134.5		1760	1971.2	2150.4		3686.4	102.4		86	?	?	?	345.6	460.8	230.4	1331.2	486,4
Motor 3D ^[h]			Hasta 400:20:8	Hasta 384:24:6		Hasta 512:32:8				Hasta 704:44:16 ^[20]		Hasta 512:32:8		768:48:8	128:8:4		80:8:4	128:8:4			Hasta 192:12:8	Hasta 192:12:4	192:12:4	Hasta 512:?:?	128:?:?
Motor 3D ^[h]			IOMMUv1			IOMMUV2											IOMMUv1		?		IOMMUV2
Descodificador de vídeo			UVD3.0			UVD 4.2		UVD6.0		VCN 1.0 ^[21]		VCN 2.1 ^[22]	VCN2.2 ^[22]	VCN 3.1		?	UVD3.0	UVD 4.0	UVD 4.2		UVD6.2	VCN 1.0			VCN 3.1
Codificador de vídeo			—	VCE 1.0		VCE 2.0		VCE 3.1		VCN 1.0 ^[21]		VCN 2.1 ^[22]	VCN2.2 ^[22]	VCN 3.1		?	—	VCE 2.0			VCE 3.4	VCN 1.0			VCN 3.1
Movimiento fluido AMD
Ahorro de energía de la GPU			Juego de poder	Sintonizador de potencia													Juego de poder	PotenciaTune ^[23]
Audio verdadero			—			^[24]							?				—
Sincronización gratuita			—			1 2											—	1 2
HDCP ^[i]			?			1.4				2.2				2.3			?	1.4				2.2			2.3
Listo para jugar ^[i]			—							3.0 aún no							—					3.0 aún no
Pantallas compatibles ^[j]			2–3	2–4				3		3 (computadora de escritorio) 4 (móvil, integrado)		4					2				3	4		4
`/drm/radeon`^[k]^[26]^[27]									—												—
`/drm/amdgpu`^[k]^[28]			—			^[29]											—	^[29]

^ Para los modelos de excavadoras FM2+: A8-7680, A6-7480 y Athlon X4 845.
^ Una PC sería un nodo.
^ Una APU combina una CPU y una GPU. Ambas tienen núcleos.
^ Requiere soporte de firmware.
^ ab Requiere soporte de firmware.
^ Sin SSE4. Sin SSSE3.
^ El rendimiento de precisión simple se calcula a partir de la velocidad del reloj del núcleo base (o aumentada) en función de una operación FMA .
^ Sombreadores unificados : unidades de mapeo de texturas : unidades de salida de renderizado
^ ab Para reproducir contenido de video protegido, también se requiere compatibilidad con tarjeta, sistema operativo, controlador y aplicaciones. Para esto también se necesita una pantalla compatible con HDCP. HDCP es obligatorio para la salida de ciertos formatos de audio, lo que impone restricciones adicionales a la configuración multimedia.
^ Para alimentar más de dos pantallas, los paneles adicionales deben tener soporte nativo para DisplayPort . ^[25] Alternativamente, se pueden emplear adaptadores activos de DisplayPort a DVI/HDMI/VGA.
^ab DRM ( Direct Rendering Manager ) es un componente del núcleo de Linux. La compatibilidad que se muestra en esta tabla se refiere a la versión más actual.

BRAZO

La microarquitectura Bifrost de ARM , tal como se implementó en el Mali-G71, ^[30] es totalmente compatible con las especificaciones de hardware HSA 1.1. A junio de 2016 ^[actualizar], ARM no ha anunciado soporte de software que utilice esta característica de hardware.

Véase también

Referencias

^ Tarun Iyer (30 de abril de 2013). "AMD presenta su tecnología de acceso uniforme a memoria heterogénea (hUMA)". Tom's Hardware .
^ ab George Kyriazis (30 de agosto de 2012). Arquitectura de sistemas heterogéneos: una revisión técnica (PDF) (Informe). AMD. Archivado desde el original (PDF) el 28 de marzo de 2014. Consultado el 26 de mayo de 2014 .
^ "¿Qué es la arquitectura de sistemas heterogéneos (HSA)?". AMD. Archivado desde el original el 21 de junio de 2014. Consultado el 23 de mayo de 2014 .
^ Joel Hruska (26 de agosto de 2013). "Configuración de HSAIL: AMD explica el futuro de la cooperación entre CPU y GPU". ExtremeTech . Ziff Davis .
^ Linaro (21 de marzo de 2014). "LCE13: Arquitectura de sistemas heterogéneos (HSA) en ARM". slideshare.net .
^ ab "Arquitectura de sistemas heterogéneos: propósito y perspectivas". gpuscience.com . 9 de noviembre de 2012. Archivado desde el original el 1 de febrero de 2014 . Consultado el 24 de mayo de 2014 .
^ "Arquitectura de sistema heterogéneo: procesamiento de imágenes multinúcleo utilizando una combinación de elementos de CPU y GPU". Diseño de computación integrada . Consultado el 23 de mayo de 2014 .
^ "Microarquitectura de Kaveri". SemiAccurate . 15 de enero de 2014.
^ Michael Larabel (21 de julio de 2014). "El controlador AMDKFD sigue evolucionando para HSA de código abierto en Linux". Phoronix . Consultado el 21 de enero de 2015 .
^ ab "Linux kernel 3.19, Sección 1.3. Controlador HSA para dispositivos GPU AMD". kernelnewbies.org . 8 de febrero de 2015 . Consultado el 12 de febrero de 2015 .
^ "HSA-Runtime-Reference-Source/README.md at master". github.com . 14 de noviembre de 2014 . Consultado el 12 de febrero de 2015 .
^ "Se anuncia el kernel Linux 4.14 con cifrado de memoria seguro y más". 13 de noviembre de 2017.^{[ enlace muerto permanente ]}
^ Alex Woodie (26 de agosto de 2013). "La Fundación HSA tiene como objetivo impulsar la capacidad de procesamiento gráfico de Java". HPCwire .
^ "Bolt en GitHub". GitHub . 11 de enero de 2022.
^ AMD GPUOpen (19 de abril de 2016). «CodeXL 2.0 incluye el generador de perfiles HSA». Archivado desde el original el 27 de junio de 2018. Consultado el 21 de abril de 2016 .
^ "AMD anuncia la séptima generación de APU: Excavator mk2 en Bristol Ridge y Stoney Ridge para portátiles". 31 de mayo de 2016. Consultado el 3 de enero de 2020 .
^ "La familia de APU "Carrizo" de AMD Mobile está diseñada para ofrecer un salto significativo en rendimiento y eficiencia energética en 2015" (Nota de prensa). 20 de noviembre de 2014 . Consultado el 16 de febrero de 2015 .
^ "Guía de comparación de CPU para dispositivos móviles Rev. 13.0 Página 5: Lista completa de CPU para dispositivos móviles AMD". TechARP.com . Consultado el 13 de diciembre de 2017 .
^ ab "GPU AMD VEGA10 y VEGA11 detectadas en el controlador OpenCL". VideoCardz.com . Consultado el 6 de junio de 2017 .
^ Cutress, Ian (1 de febrero de 2018). "Zen Cores y Vega: APU Ryzen para AM4 – AMD Tech Day en CES: se revela la hoja de ruta para 2018, con APU Ryzen, Zen+ en 12 nm, Vega en 7 nm". Anandtech . Consultado el 7 de febrero de 2018 .
^ Larabel, Michael (17 de noviembre de 2017). "Radeon VCN Encode Support Lands in Mesa 17.4 Git". Phoronix . Consultado el 20 de noviembre de 2017 .
^ ab "La APU AMD Ryzen 5000G 'Cezanne' obtiene las primeras imágenes de matriz de alta resolución, 10,7 mil millones de transistores en un paquete de 180 mm2". wccftech . 12 de agosto de 2021 . Consultado el 25 de agosto de 2021 .
^ Tony Chen; Jason Greaves, "Arquitectura Graphics Core Next (GCN) de AMD" (PDF) , AMD , consultado el 13 de agosto de 2016
^ "Una mirada técnica a la arquitectura Kaveri de AMD". Semi Accurate . Consultado el 6 de julio de 2014 .
^ "¿Cómo conecto tres o más monitores a una tarjeta gráfica AMD Radeon™ HD 5000, HD 6000 y HD 7000 Series?". AMD . Consultado el 8 de diciembre de 2014 .
^ Airlie, David (26 de noviembre de 2009). "DisplayPort compatible con el controlador KMS integrado en el kernel de Linux 2.6.33" . Consultado el 16 de enero de 2016 .
^ "Matriz de características de Radeon". freedesktop.org . Consultado el 10 de enero de 2016 .
^ Deucher, Alexander (16 de septiembre de 2015). «XDC2015: AMDGPU» (PDF) . Consultado el 16 de enero de 2016 .
^ ab Michel Dänzer (17 de noviembre de 2016). "[ANUNCIO] xf86-video-amdgpu 1.2.0". listas.x.org .
^ "Arquitectura de GPU ARM Bifrost". 30 de mayo de 2016.

Enlaces externos

Descripción general de la arquitectura de sistemas heterogéneos de HSA en YouTube por Vinod Tipparaju en SC13 en noviembre de 2013
HSA y el ecosistema de software
2012 – HSA por Michael Houston Archivado el 5 de marzo de 2016 en Wayback Machine

[18] Para los modelos de excavadoras FM2+: A8-7680, A6-7480 y Athlon X4 845.

[nodedef-20] Una PC sería un nodo.

[apudef-21] Una APU combina una CPU y una GPU. Ambas tienen núcleos.

[iommubios-22] Requiere soporte de firmware.

[firmware-23] Requiere soporte de firmware.

[sse4a-24] Sin SSE4. Sin SSSE3.

[SFLOPS-26] ^ El rendimiento de precisión simple se calcula a partir de la velocidad del reloj del núcleo base (o aumentada) en función de una operación FMA .

[27] Sombreadores unificados : unidades de mapeo de texturas : unidades de salida de renderizado

[DRM-33] Para reproducir contenido de video protegido, también se requiere compatibilidad con tarjeta, sistema operativo, controlador y aplicaciones. Para esto también se necesita una pantalla compatible con HDCP. HDCP es obligatorio para la salida de ciertos formatos de audio, lo que impone restricciones adicionales a la configuración multimedia.

[35] Para alimentar más de dos pantallas, los paneles adicionales deben tener soporte nativo para DisplayPort . ^[25] Alternativamente, se pueden emplear adaptadores activos de DisplayPort a DVI/HDMI/VGA.

[drm-36] DRM ( Direct Rendering Manager ) es un componente del núcleo de Linux. La compatibilidad que se muestra en esta tabla se refiere a la versión más actual.

[1] Tarun Iyer (30 de abril de 2013). "AMD presenta su tecnología de acceso uniforme a memoria heterogénea (hUMA)". Tom's Hardware .

[whitepaper-2] George Kyriazis (30 de agosto de 2012). Arquitectura de sistemas heterogéneos: una revisión técnica (PDF) (Informe). AMD. Archivado desde el original (PDF) el 28 de marzo de 2014. Consultado el 26 de mayo de 2014 .

[whatis-3] "¿Qué es la arquitectura de sistemas heterogéneos (HSA)?". AMD. Archivado desde el original el 21 de junio de 2014. Consultado el 23 de mayo de 2014 .

[4] Joel Hruska (26 de agosto de 2013). "Configuración de HSAIL: AMD explica el futuro de la cooperación entre CPU y GPU". ExtremeTech . Ziff Davis .

[5] Linaro (21 de marzo de 2014). "LCE13: Arquitectura de sistemas heterogéneos (HSA) en ARM". slideshare.net .

[gpuscience-6] "Arquitectura de sistemas heterogéneos: propósito y perspectivas". gpuscience.com . 9 de noviembre de 2012. Archivado desde el original el 1 de febrero de 2014 . Consultado el 24 de mayo de 2014 .

[7] "Arquitectura de sistema heterogéneo: procesamiento de imágenes multinúcleo utilizando una combinación de elementos de CPU y GPU". Diseño de computación integrada . Consultado el 23 de mayo de 2014 .

[8] "Microarquitectura de Kaveri". SemiAccurate . 15 de enero de 2014.

[9] Michael Larabel (21 de julio de 2014). "El controlador AMDKFD sigue evolucionando para HSA de código abierto en Linux". Phoronix . Consultado el 21 de enero de 2015 .

[kernelnewbies-3.19-10] "Linux kernel 3.19, Sección 1.3. Controlador HSA para dispositivos GPU AMD". kernelnewbies.org . 8 de febrero de 2015 . Consultado el 12 de febrero de 2015 .

[11] "HSA-Runtime-Reference-Source/README.md at master". github.com . 14 de noviembre de 2014 . Consultado el 12 de febrero de 2015 .

[12] "Se anuncia el kernel Linux 4.14 con cifrado de memoria seguro y más". 13 de noviembre de 2017.^{[ enlace muerto permanente ]}

[13] Alex Woodie (26 de agosto de 2013). "La Fundación HSA tiene como objetivo impulsar la capacidad de procesamiento gráfico de Java". HPCwire .

[14] "Bolt en GitHub". GitHub . 11 de enero de 2022.

[15] AMD GPUOpen (19 de abril de 2016). «CodeXL 2.0 incluye el generador de perfiles HSA». Archivado desde el original el 27 de junio de 2018. Consultado el 21 de abril de 2016 .

[16] "AMD anuncia la séptima generación de APU: Excavator mk2 en Bristol Ridge y Stoney Ridge para portátiles". 31 de mayo de 2016. Consultado el 3 de enero de 2020 .

[17] "La familia de APU "Carrizo" de AMD Mobile está diseñada para ofrecer un salto significativo en rendimiento y eficiencia energética en 2015" (Nota de prensa). 20 de noviembre de 2014 . Consultado el 16 de febrero de 2015 .

[19] "Guía de comparación de CPU para dispositivos móviles Rev. 13.0 Página 5: Lista completa de CPU para dispositivos móviles AMD". TechARP.com . Consultado el 13 de diciembre de 2017 .

[Vega_codenames-25] "GPU AMD VEGA10 y VEGA11 detectadas en el controlador OpenCL". VideoCardz.com . Consultado el 6 de junio de 2017 .

[28] Cutress, Ian (1 de febrero de 2018). "Zen Cores y Vega: APU Ryzen para AM4 – AMD Tech Day en CES: se revela la hoja de ruta para 2018, con APU Ryzen, Zen+ en 12 nm, Vega en 7 nm". Anandtech . Consultado el 7 de febrero de 2018 .

[29] Larabel, Michael (17 de noviembre de 2017). "Radeon VCN Encode Support Lands in Mesa 17.4 Git". Phoronix . Consultado el 20 de noviembre de 2017 .

[wccftechCezanne-30] "La APU AMD Ryzen 5000G 'Cezanne' obtiene las primeras imágenes de matriz de alta resolución, 10,7 mil millones de transistores en un paquete de 180 mm2". wccftech . 12 de agosto de 2021 . Consultado el 25 de agosto de 2021 .

[31] Tony Chen; Jason Greaves, "Arquitectura Graphics Core Next (GCN) de AMD" (PDF) , AMD , consultado el 13 de agosto de 2016

[32] "Una mirada técnica a la arquitectura Kaveri de AMD". Semi Accurate . Consultado el 6 de julio de 2014 .

[34] "¿Cómo conecto tres o más monitores a una tarjeta gráfica AMD Radeon™ HD 5000, HD 6000 y HD 7000 Series?". AMD . Consultado el 8 de diciembre de 2014 .

[37] Airlie, David (26 de noviembre de 2009). "DisplayPort compatible con el controlador KMS integrado en el kernel de Linux 2.6.33" . Consultado el 16 de enero de 2016 .

[Radeon_Feature_Matrix-38] "Matriz de características de Radeon". freedesktop.org . Consultado el 10 de enero de 2016 .

[39] Deucher, Alexander (16 de septiembre de 2015). «XDC2015: AMDGPU» (PDF) . Consultado el 16 de enero de 2016 .

[amdgpu_1.2-40] Michel Dänzer (17 de noviembre de 2016). "[ANUNCIO] xf86-video-amdgpu 1.2.0". listas.x.org .

[41] "Arquitectura de GPU ARM Bifrost". 30 de mayo de 2016.