This article needs additional citations for verification. (July 2016) |
En el estándar Unicode , un plano es un grupo contiguo de 65.536 (2 16 ) puntos de código . Hay 17 planos, identificados por los números del 0 al 16, que corresponden a los posibles valores 00–10 16 de las dos primeras posiciones en formato hexadecimal de seis posiciones (U+ hh hhhh ). El plano 0 es el plano multilingüe básico (BMP), que contiene los caracteres más utilizados. Los planos superiores del 1 al 16 se denominan "planos suplementarios". [1] El último punto de código en Unicode es el último punto de código en el plano 16, U+10FFFF. A partir de la versión 16.0 de Unicode, cinco de los planos tienen puntos de código asignados (caracteres) y siete tienen nombre.
El límite de 17 planos se debe a UTF-16 , que puede codificar 2 20 puntos de código (16 planos) como pares de palabras , más el BMP como una sola palabra. [2] UTF-8 fue diseñado con un límite mucho mayor de 2 31 (2.147.483.648) puntos de código (32.768 planos), y aún podría codificar 2 21 (2.097.152) puntos de código (32 planos) incluso con el límite actual de 4 bytes . [3]
Los 17 planos pueden albergar 1.114.112 puntos de código. De ellos, 2.048 son sustitutos (utilizados para formar los pares en UTF-16), 66 son caracteres no codificados y 137.468 están reservados para uso privado , dejando 974.530 para asignación pública.
Los planos se subdividen en bloques Unicode que, a diferencia de los planos, no tienen un tamaño fijo. Los 338 bloques definidos en Unicode 16.0 cubren el 27% del espacio de puntos de código posible y varían en tamaño desde un mínimo de 16 puntos de código (dieciséis bloques) hasta un máximo de 65.536 puntos de código (Área de uso privado suplementario A y B, que constituyen la totalidad de los planos 15 y 16). Para uso futuro, se han trazado provisionalmente rangos de caracteres para la mayoría de los sistemas de escritura actuales y antiguos conocidos. [4]
Avión | Puntos de código asignados [nota 1] versión 16.0 | Personajes asignados |
---|---|---|
0 BMP | 65.520 | 55.656 |
1 paquete de leche desnatada | 31,424 | 28.444 |
2 sorbos | 61.536 | 61,495 |
3 CONSEJO | 9,136 | 9,131 |
14 SSP | 368 | 337 |
15 SPUA-A | 65.536 | 0 (por definición) |
16 SPUA-B | 65.536 | 0 (por definición) |
Totales | 299.056 | 155.063 |
El primer plano, el plano 0 , el plano multilingüe básico ( BMP ), contiene caracteres para casi todos los idiomas modernos y una gran cantidad de símbolos . Un objetivo principal del BMP es respaldar la unificación de conjuntos de caracteres anteriores, así como caracteres para escritura . La mayoría de los puntos de código asignados en el BMP se utilizan para codificar caracteres chinos, japoneses y coreanos ( CJK ).
Los códigos de sustitución alta ( U+D800–U+DBFF ) y de sustitución baja ( U+DC00–U+DFFF ) están reservados para codificar caracteres que no sean BMP en UTF-16 mediante un par de códigos de 16 bits : un código de sustitución alta y un código de sustitución baja. Nunca se asignará un carácter a un único punto de código de sustitución.
De los 65.536 puntos de código de este plano, se han asignado 65.520 a un bloque Unicode, dejando solo 16 puntos de código en un único rango sin asignar (2FE0..2FEF).
A partir de Unicode 16.0 [update], el BMP comprende los siguientes 164 bloques:
El plano 1 , el plano multilingüe suplementario ( SMP ), contiene escrituras históricas (excepto la ideográfica CJK), y símbolos y notaciones utilizadas en ciertos campos. Las escrituras incluyen el Lineal B , los jeroglíficos egipcios y las escrituras cuneiformes . También incluye ortografías reformistas inglesas como Shavian y Deseret , y algunas escrituras modernas como Osage , Warang Citi , Adlam , Wancho y Toto . Los símbolos y notaciones incluyen notación musical histórica y moderna ; alfanuméricos matemáticos ; taquigrafías; Emoji y otros conjuntos pictográficos; y símbolos de juegos para naipes , mahjong y dominó .
A partir de Unicode 16.0 [update], el SMP comprende los siguientes 161 bloques:
El plano 2 , el plano ideográfico suplementario ( SIP ), se utiliza para los ideogramas CJK, principalmente los ideogramas unificados CJK , que no se incluyeron en los estándares de codificación de caracteres anteriores.
A partir de Unicode 16.0 [update], el SIP comprende los siete bloques siguientes:
El plano 3 es el plano ideográfico terciario (TIP). La extensión G de ideogramas unificados de CJK se agregó al TIP en Unicode 13.0, lanzado en marzo de 2020. [5] También está asignado provisionalmente para la escritura Oracle Bone y la escritura Small Seal . [6]
A partir de Unicode 16.0 [update], el TIP comprende los dos bloques siguientes:
Planos 4 a 13 (planos 4 a D en hexadecimal ): Aún no se han asignado ni propuesto caracteres para su asignación a los planos 4 a 13.
El plano 14 ( E en hexadecimal) se designa como plano suplementario de propósito especial ( SSP ). A partir de Unicode 16.0, comprende los dos bloques siguientes :[update]
Los dos planos 15 y 16 (planos F y 10 en hexadecimal) contienen cada uno un " Área de uso privado ". Contienen bloques denominados Área de uso privado suplementaria-A ( PUA-A ) y -B ( PUA-B ). Las Áreas de uso privado están disponibles para su uso por terceros ajenos a ISO y Unicode (codificación de caracteres de uso privado).