Propiedad de carácter Unicode

Nombres de propiedades de puntos de código Unicode

El estándar Unicode asigna varias propiedades a cada carácter y punto de código Unicode . [1] [2]

Las propiedades se pueden utilizar para manejar caracteres (puntos de código) en procesos, como en saltos de línea, dirección de script de derecha a izquierda o aplicación de controles. Algunas "propiedades de caracteres" también se definen para puntos de código que no tienen ningún carácter asignado y puntos de código que están etiquetados como "<no es un carácter>". Las propiedades de caracteres se describen en el Anexo estándar n.° 44. [2]

Las propiedades tienen niveles de fuerza: normativa, informativa, contributiva o provisional. Para simplificar la especificación, se puede asignar una propiedad de carácter especificando un rango continuo de puntos de código que tengan la misma propiedad. [3]

Elementos semánticos

Las propiedades se muestran en el siguiente orden: [4]

[código];[nombre];[gc];[cc];[bc];[descomposición];[nv-dec];[nv-dig];[nv-num];[bm];[alias];;[mayúsculas];[minúsculas];[título en mayúsculas]
  • 'alias' = nombre corregido. Obsoleto. Ahora se rastrea con una base de datos separada, pero se mantiene para nombres Unicode 1, etc.
  • 'bc' = categoría bidi (bidireccional) [L, R, etc.]
  • 'bm' = bidireccional reflejado [N o Y]
  • 'cc' = clase de combinación [posición del diacrítico]
  • tipo de descomposición o <mapping> = letra + diacrítico, ligadura XY, superíndice X, fuente X, inicial X, medial X, final X, aislada X, vertical X, etc.
  • 'gc' = categoría general [letra, símbolo, dígito, puntuación, comportamiento de mayúsculas y minúsculas, etc.]
  • 'nv' = tipo numérico y valor [de un dígito]. Si el tipo numérico es 'decimal', se llenan las 3 ranuras. Si es 'dígito', la primera será nula. (Esto ya no se usa). Si es 'numérico', las dos primeras serán nulas y solo se usará la última.

La propiedad entre 'alias' y 'mayúsculas' está obsoleta y ahora es nula para todos los caracteres Unicode.

Código

La primera propiedad es el punto de código hexadecimal .

Nombre y alias

A cada carácter Unicode se le asigna un nombre único (na). [1] El nombre se compone de letras mayúsculas A–Z, dígitos 0–9, guión-menos y espacio . Se excluyen algunas secuencias: no se permiten nombres que comiencen con un espacio o guión, nombres que terminen con un espacio o guión, espacios o guiones repetidos y espacios después de un guión. Se garantiza que el nombre sea único dentro de Unicode y se puede usar para identificar un punto de código y su carácter. Los caracteres ideográficos, de los cuales hay decenas de miles, se nombran según el patrón " cjk unified ideograph - hhhh ". Por ejemplo, U+4E00 CJK UNIFIED IDEOGRAPH-4E00 . Los caracteres de formato también se nombran: U+00A0 NO-BREAK SPACE .  

Las siguientes clases de puntos de código no tienen un Nombre (na=""): Controles (Categoría general: Cc), Uso privado (Co), Sustituto (Cs), No caracteres (Cn) y Reservado (Cn). Se puede hacer referencia a ellos, de manera informal, mediante un metanombre genérico o específico, llamado "Etiquetas de puntos de código": <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > o <surrogate>. Dado que estas etiquetas contienen corchetes <>, nunca pueden aparecer como un Nombre, lo que evita confusiones.

Nombres de la versión 1.0

En la versión 2.0 de Unicode, se cambiaron muchos nombres. A partir de entonces entró en vigor la regla de que "un nombre nunca cambiará", incluido el uso estricto (normativo) de los nombres alias. Los nombres en desuso de la versión 1.0 se trasladaron a la propiedad Alias ​​para proporcionar cierta compatibilidad con versiones anteriores.

Alias ​​del nombre del personaje

A partir de la versión 2.0 de Unicode, el nombre publicado para un punto de código nunca cambiará. Por lo tanto, en caso de que el nombre de un carácter esté mal escrito o si el nombre del carácter es completamente incorrecto o muy engañoso, se puede asignar un alias de nombre de carácter formal al carácter, y las aplicaciones pueden usar este alias en lugar del nombre de carácter defectuoso real. [1] Por ejemplo, U+FE18FORMA DE PRESENTACIÓN PARA BRAZO LENTICULAR BLANCO DERECHO VERTICAL tiene el alias de nombre de carácter " FORMA DE PRESENTACIÓN PARA BRAZO LENTICULAR BLANCO DERECHO VERTICAL " para mitigar la ortografía incorrecta de "bracket" como "brakcet" [ sic ] en el nombre de carácter real; U+A015YI SÍLABA WU tiene el alias de nombre de carácter "MARCA DE ITERACIÓN DE SÍLABA YI" porque, a diferencia del nombre del carácter, no tiene un valor silábico fijo.

Además de los alias de nombres de caracteres, que son correcciones a nombres de caracteres defectuosos, a algunos caracteres se les asignan alias, que son nombres alternativos o abreviaturas. En el estándar Unicode se definen cinco tipos de alias de nombres de caracteres:

  • Corrección: correcciones de nombres de personajes mal escritos o muy incorrectos;
  • Control: nombres ISO 6429 para funciones de control C0 y C1 (a las que no se les asignan nombres de caracteres en el estándar Unicode);
  • Alternativo: nombres alternativos para algunos caracteres de formato (solo U+FEFF ANCHO CERO SIN ESPACIO DE SALTO que tiene el alias "MARCA DE ORDEN DE BYTE" );
  • Figment: Etiquetas documentadas para algunas funciones del código de control C1 que no son nombres reales en ningún estándar;
  • Abreviatura: Abreviaturas o acrónimos de códigos de control, caracteres de formato, espacios y selectores de variación.

Todos los alias de nombres de caracteres formales siguen las reglas para nombres de caracteres permitidos y se garantiza que son únicos tanto dentro del alias de nombre de carácter como dentro de los espacios de nombres de caracteres (por este motivo, el nombre ISO 6429 "BELL" no está definido como un alias para U+0007 <control-0007> porque U+1F514 se llama "BELL"). [1]

A partir de la versión 16.0 de Unicode, se definen treinta y cinco alias de nombres de caracteres formales como correcciones para nombres de caracteres defectuosos. [5]

Además de estos nombres normativos, en las tablas de códigos Unicode se pueden mostrar nombres informales . Se trata de otros nombres de uso común para un carácter y no tienen la misma restricción de caracteres. No se garantiza que estos nombres informales sean únicos y pueden modificarse o eliminarse en versiones posteriores del estándar.

Categoría general

A cada punto de código se le asigna un valor para la categoría general. Esta es una de las propiedades de caracteres que también se definen para los puntos de código no asignados y los puntos de código que se definen como "no caracteres".

Categoría general (propiedad de carácter Unicode) [a]
ValorCategoría Mayor, menorTipo básico [b]Personaje asignado [b]Conde [c] (a partir de 16.0)
Observaciones
 
L , letra; LC , letra mayúscula (sólo Lu, Ll y Lt) [d]
LuLetra, mayúsculaGráficoPersonaje1.858
YoLetra, minúsculaGráficoPersonaje2.258
TenienteCarta, título en mayúsculaGráficoPersonaje31Ligaduras o dígrafos que contienen una letra mayúscula seguida de una minúscula (por ejemplo, Dž , Lj , Nj y Dz )
LágrimasLetra, modificadorGráficoPersonaje404Una letra modificadora
LoCarta, otraGráficoPersonaje136.477Un ideograma o una letra de un alfabeto unicase
M , Marcos
MinnesotaMarca, sin espaciosGráficoPersonaje2.020
McMarca, espaciado combinandoGráficoPersonaje468
A míMarca, adjuntandoGráficoPersonaje13
N , Número
Dakota del NorteNúmero, dígito decimalGráficoPersonaje760Todos estos, y sólo estos, tienen Tipo Numérico = De [e]
En inglésNúmero, letraGráficoPersonaje236Números compuestos de letras o símbolos similares a letras (por ejemplo, números romanos )
NoNúmero, otroGráficoPersonaje915Por ejemplo, fracciones vulgares , dígitos superíndices y subíndices , dígitos vigesimales.
P , Puntuación
Ordenador personalPuntuación, conectorGráficoPersonaje10Incluye caracteres de subrayado y espaciado , como "_", y otros caracteres de unión de espacios. A diferencia de otros caracteres de puntuación, las bibliotecas de expresiones regulares pueden clasificarlos como caracteres de "palabra" . [f]
PdPuntuación, guiónGráficoPersonaje27Incluye varios caracteres de guion .
PDPuntuación, abiertaGráficoPersonaje79Caracteres del corchete de apertura
PePuntuación, cerrarGráficoPersonaje77Caracteres de corchete de cierre
PiPuntuación, cita inicialGráficoPersonaje12Comillas de apertura . No incluye las comillas "neutrales" ASCII. Puede comportarse como Ps o Pe según el uso
PfPuntuación, cita finalGráficoPersonaje10Comillas de cierre. Puede comportarse como Ps o Pe según el uso.
CorreosPuntuación, otrosGráficoPersonaje640
S , Símbolo
PequeñoSímbolo, matemáticasGráficoPersonaje950Símbolos matemáticos (p. ej., + , , = , × , ÷ , , , ). No incluye paréntesis ni corchetes, que se encuentran en las categorías Ps y Pe. Tampoco incluye ! , * , - o / , que, a pesar de su uso frecuente como operadores matemáticos, se consideran principalmente "signos de puntuación".
Carolina del SurSímbolo, monedaGráficoPersonaje63Símbolos monetarios
EsSímbolo, modificadorGráficoPersonaje125
EntoncesSímbolo, otroGráficoPersonaje7,376
Z , Separador
ZsSeparador, espacioGráficoPersonaje17Incluye el espacio, pero no TAB , CR o LF , que son Cc
ZlSeparador, líneaFormatoPersonaje1Solo U+2028 SEPARADOR DE LÍNEA (LSEP)
ZpSeparador, párrafoFormatoPersonaje1Solo U+2029 SEPARADOR DE PÁRRAFO (PSEP)
C , Otro
CcOtros, controlControlPersonaje65 (nunca cambiará) [e]Sin nombre, [g] <control>
CfOtro, formatoFormatoPersonaje170Incluye el guión suave , caracteres de control de unión ( ZWNJ y ZWJ ), caracteres de control para admitir texto bidireccional y caracteres de etiqueta de idioma.
CsOtro, sustitutoSustitutoNo (solo se usa en UTF-16 )2.048 (nunca cambiará) [e]Sin nombre, [g] <sustituto>
CoOtros, uso privadoUso privadoCarácter (pero sin interpretación especificada)137.468 en total (nunca cambiará) [e] ( 6.400 en BMP , 131.068 en Planes 15-16 )Sin nombre, [g] <private-use>
EnOtros, no asignadosNo personajeNo66 (no cambiará a menos que se amplíe el rango de puntos de código Unicode) [e]Sin nombre, [g] <no personaje>
ReservadoNo819.467Sin nombre, [g] <reservado>
  1. ^ "Tabla 4-4: Categoría general". El estándar Unicode . Consorcio Unicode. Septiembre de 2024.
  2. ^ ab "Tabla 2-3: Tipos de puntos de código". El estándar Unicode . Consorcio Unicode. Septiembre de 2024.
  3. ^ "DerivedGeneralCategory.txt". El Consorcio Unicode. 30 de abril de 2024.
  4. ^ "5.7.1 Valores de categoría general". UTR #44: Base de datos de caracteres Unicode . Consorcio Unicode. 27 de agosto de 2024.
  5. ^ Políticas de estabilidad de codificación de caracteres Unicode abcde : Estabilidad del valor de la propiedad Política de estabilidad: Algunos grupos gc nunca cambiarán. gc=Nd corresponde con Tipo numérico=De (decimal).
  6. ^ "Anexo C: Propiedades de compatibilidad (§ palabra)". Expresiones regulares Unicode . Versión 23. Consorcio Unicode . 2022-02-08. Estándar técnico Unicode n.º 18.
  7. ^ abcde "Tabla 4-9: Construcción de etiquetas de puntos de código". El estándar Unicode . Consorcio Unicode. Septiembre de 2024.Se puede utilizar una etiqueta de punto de código para identificar un punto de código sin nombre. Por ejemplo, <control- hhhh >, <control-0088>. El nombre permanece en blanco, lo que puede evitar que se reemplace inadvertidamente, en la documentación, un nombre de control con un código de control verdadero. Unicode también utiliza <not a character> para <noncharacter>.

Puntuación

Los caracteres tienen propiedades independientes para indicar que son un carácter de puntuación . Todas las propiedades tienen valores Sí/No : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation . La propiedad Puntuación se refiere a los caracteres que se utilizan para dividir o estructurar el texto y se clasifican en diferentes tipos según sus funciones. Unicode asigna categorías específicas a estos caracteres de puntuación.

Espacio en blanco

El espacio en blanco es un concepto que se utiliza con frecuencia para designar un efecto tipográfico. Básicamente, abarca caracteres invisibles que tienen un efecto de espaciado en el texto representado. Incluye espacios , tabulaciones y controles de formato de nueva línea. En Unicode, este tipo de caracteres tiene la propiedad "WSpace=yes". En la versión 16.0, hay 25 caracteres de espacio en blanco.

NombrePunto de códigoCaja de ancho¿ Puede romperse ?¿ En
IDN ?
GuionBloquear
Categoría general
Notas
tabulación de caracteresU+00099NoComúnLatín básicoOtros,
control
HT, pestaña horizontal . Entidad con nombre HTML/XML : &Tab;, LaTeX : \tab, escape C :\t
avance de líneaU+000A10Es un salto de líneaComúnLatín básicoOtros,
control
LF, Salto de línea . Entidad con nombre HTML/XML: &NewLine;, Escape C:\n
tabulación de líneaU+000B11Es un salto de líneaComúnLatín básicoOtros,
control
VT, Tabulación vertical . C escape:\v
avance de formularioU+000C12Es un salto de líneaComúnLatín básicoOtros,
control
FF, Avance de página . Escape C:\f
retorno de carroU+000D13Es un salto de líneaComúnLatín básicoOtros,
control
CR, Retorno de carro . C escape:\r
espacioU+002032 NoComúnLatín básicoSeparador,
espacio
El más común (espacio ASCII normal). LaTeX:
siguiente lineaU+0085133Es un salto de líneaComún
Suplemento de latín-1
Otros,
control
NEL, Siguiente línea . LaTeX:\\
espacio sin interrupciónU+00A0160 NoNoComún
Suplemento de latín-1
Separador,
espacio
Espacio indivisible : idéntico a U+0020, pero no es un punto en el que se pueda dividir una línea.
Entidad con nombre HTML/XML: &nbsp;, &NonBreakingSpace;, LaTeX:~
marca espacial oghamU+16805760NoOgamOgamSeparador,
espacio
Se utiliza para separar palabras en textos Ogham . Normalmente, se trata de una línea vertical en texto vertical o de una línea horizontal en texto horizontal, pero también puede ser un espacio en blanco en fuentes "sin tallo". Requiere una fuente Ogham.
en quadU+20008192 NoComún
Puntuación general
Separador,
espacio
Ancho de un en . U+2002 es canónicamente equivalente a este carácter; se prefiere U+2002.
en cuadriláteroU+20018193NoComún
Puntuación general
Separador,
espacio
También conocido como "mutton quad". Ancho de un em . U+2003 es canónicamente equivalente a este carácter; se prefiere U+2003.
en el espacioU+20028194NoComún
Puntuación general
Separador,
espacio
También conocido como "nut". Ancho de un en . U+2000 En Quad es canónicamente equivalente a este carácter; se prefiere U+2002.
Entidad con nombre HTML/XML: &ensp;, LaTeX: \enspace(el espacio en LaTeX es un espacio sin interrupción)
espacio emU+20038195NoComún
Puntuación general
Separador,
espacio
También conocido como "mutton". Ancho de un em . U+2001 Em Quad es canónicamente equivalente a este carácter; se prefiere U+2003.
Entidad con nombre HTML/XML: &emsp;, LaTeX:\quad
espacio de tres por emU+20048196NoComún
Puntuación general
Separador,
espacio
También conocido como "espacio grueso". Un tercio de un em de ancho.
Entidad con nombre HTML/XML: &emsp13;, LaTeX: \;(el espacio grueso de LaTeX es un espacio sin interrupción)
espacio de cuatro por emU+20058197NoComún
Puntuación general
Separador,
espacio
También conocido como "espacio intermedio". Un cuarto de un em de ancho.
Entidad con nombre HTML/XML:&emsp14;
espacio de seis por emU+20068198NoComún
Puntuación general
Separador,
espacio
Un sexto de un em de ancho. En tipografía informática, a veces se lo equipara a U+2009.
espacio de figuraU+20078199NoNoComún
Puntuación general
Separador,
espacio
Espacio entre cifras . En fuentes con dígitos monoespaciados, igual al ancho de un dígito.
Entidad con nombre HTML/XML:&numsp;
espacio de puntuaciónU+20088200NoComún
Puntuación general
Separador,
espacio
Tan ancho como la puntuación estrecha en una fuente, es decir, el ancho avanzado del punto o la coma. [6]
Entidad nombrada HTML/XML:&puncsp;
espacio delgadoU+20098201NoComún
Puntuación general
Separador,
espacio
Espacio fino ; un quinto (a veces un sexto) de un em de ancho. Recomendado para usar como separador de miles para medidas hechas con unidades del SI . A diferencia de U+2002 a U+2008, su ancho puede ajustarse en la composición tipográfica. [7]
Entidad con nombre HTML/XML: &thinsp;, &ThinSpace;, LaTeX: \,(el espacio fino LaTeX es un espacio sin saltos)
espacio para el cabelloU+200A8202NoComún
Puntuación general
Separador,
espacio
Más delgado que un espacio delgado. Entidad con nombre HTML/XML: &hairsp;,&VeryThinSpace;
separador de líneaU+20288232Es un salto de líneaComún
Puntuación general
Separador,
línea
separador de párrafoU+20298233Es un salto de líneaComún
Puntuación general
Separador,
párrafo
espacio estrecho sin interrupciónU+202F8239NoNoComún
Puntuación general
Separador,
espacio
Espacio estrecho sin interrupción . Similar en función al espacio sin interrupción U+00A0. Cuando se utiliza con mongol, su ancho suele ser un tercio del espacio normal; en otros contextos, su ancho a veces se asemeja al del espacio delgado (U+2009). LaTeX:\,
espacio matemático medioU+205F8287NoComún
Puntuación general
Separador,
espacio
MMSP. Se utiliza en fórmulas matemáticas. Cuatro dieciochoavos de un em. [8] En tipografía matemática, los anchos de los espacios se dan normalmente en múltiplos enteros de un dieciochoavo de un em, y 4/18 em se puede utilizar en varias situaciones, por ejemplo entre la a y el + y entre el + y la b en la expresión a + b . [9]
Entidad nombrada HTML/XML: &MediumSpace;, LaTeX: \:(el espacio medio LaTeX es un espacio sin interrupción)
espacio ideográficoU+300012288 NoComúnSímbolos
y
puntuación del CJK
Separador,
espacio
Tan ancho como una celda de carácter CJK ( ancho completo ). Se utiliza, por ejemplo, en tai tou .
 Nombre Punto de códigoCaja de ancho¿ Puede romperse ?¿ En
IDN ?
GuionBloquear
Categoría general
Notas
separador de vocales mongolU+180E6158NomongolmongolOtro,
Formato
MVS. Carácter de espacio angosto, utilizado en mongol para hacer que los dos últimos caracteres de una palabra adopten formas diferentes. [10] Ya no se clasifica como carácter de espacio (es decir, en la categoría Zs) en Unicode 6.3.0, aunque lo estaba en versiones anteriores del estándar.
espacio de ancho ceroU+200B8203No?
Puntuación general
Otro,
Formato
ZWSP, espacio de ancho cero . Se utiliza para indicar límites de palabras a los sistemas de procesamiento de texto cuando se utilizan scripts que no utilizan espaciado explícito. Es similar al guión suave , con la diferencia de que este último se utiliza para indicar límites de sílabas y debe mostrar un guión visible cuando la línea se divide en él. Entidad nombrada
HTML/XML : [11] [c]&ZeroWidthSpace;
Sin unión de ancho ceroU+200C8204Depende del contexto [16]?
Puntuación general
Otro,
Formato
ZWNJ, non-joiner de ancho cero . Cuando se coloca entre dos caracteres que de otro modo estarían conectados, un ZWNJ hace que se impriman en sus formas final e inicial, respectivamente.
Entidad con nombre HTML/XML:&zwnj;
ensamblador de ancho ceroU+200D8205Depende del contexto [17]?
Puntuación general
Otro,
Formato
ZWJ, conector de ancho cero . Cuando se coloca entre dos caracteres que de otro modo no estarían conectados, un ZWJ hace que se impriman en sus formas conectadas. También se puede utilizar para mostrar formas de unión de forma aislada. Dependiendo de si se espera una ligadura o conjunción de forma predeterminada, puede inducir (como en emoji y en cingalés ) o suprimir (como en devanagari ) la sustitución con un solo glifo, al tiempo que permite el uso de formas de unión individuales (a diferencia de ZWNJ).
Entidad nombrada HTML/XML:&zwj;
ensamblador de palabrasU+20608288NoNo?
Puntuación general
Otro,
Formato
WJ, conector de palabras . Similar a U+200B, pero no es un punto en el que se pueda dividir una línea.
Entidad con nombre HTML/XML:&NoBreak;
espacio irrompible de ancho ceroU+FEFF65279NoNo?
Formularios de presentación en árabe
-B
Otro,
Formato
Espacio indivisible de ancho cero . Se utiliza principalmente como marca de orden de bytes . Su uso como indicación de indivisible está en desuso a partir de Unicode 3.2; consulte U+2060 en su lugar.
  1. ^ White_Space es una propiedad binaria Unicode. [18]
  2. ^ "PropList-16.0.0.txt". Unicode . 2024-05-31 . Consultado el 2024-09-13 .
  3. ^ Aunque &ZeroWidthSpace;es una entidad nombrada HTML5 para U+200B, los nombres adicionales NegativeMediumSpace, NegativeThickSpace, NegativeThinSpacey NegativeVeryThinSpace(que son nombres utilizados en el lenguaje Wolfram para espacios de avance negativo, que asigna al Área de uso privado ) [12] [13] [14] [15] también están definidos por HTML5 como alias para U+200B (por ejemplo &NegativeMediumSpace;). [11]


Caja

El valor de mayúsculas y minúsculas es normativo en Unicode. Se aplica a los alfabetos con letras mayúsculas y minúsculas. La diferencia entre mayúsculas y minúsculas se da en los alfabetos adlam, armenio, cherokee, copto, cirílico, deseret, garay, glagolítico, griego, khutsuri y mkhedruli georgiano, latín, medefaidrin, húngaro antiguo, osage, vithkuqi y warang citi.

(superior, inferior, título, plegable, tanto simple como completo)

Otras características generales

Ideográfico, alfabético, no característico.

Combinando clases

Algunos códigos comunes:

0 = espaciado entre letras, símbolos o modificadores (por ejemplo, a, (, ʰ)
1 = superposición
6 = Lectura Han (marcas diacríticas de lectura CJK)
7 = nukta ( nukta diacrítico en escrituras brahmicas )
8 = signos sonoros de kana
9 = virama

10–199 = varias clases de posición fija

Marcas que se adhieren a la letra base:

200 = adjunto en la parte inferior izquierda
202 = se adjunta directamente debajo (p. ej. cedilla en ç)
204 = adjunto en la parte inferior derecha
208 = adjunto a la izquierda
210 = adjunto a la derecha
212 = adjunto en la parte superior izquierda
214 = adjunto directamente encima
216 = adjunto en la parte superior derecha

Marcas que no se adhieren a la letra base:

218 = abajo a la izquierda
220 = directamente debajo (por ejemplo, anillo en n̥)
222 = abajo a la derecha
224 = izquierda
226 = correcto
228 = arriba a la izquierda
230 = arriba (p.ej. acento agudo en á)
232 = arriba a la derecha
233 = doble abajo (subtiende dos bases)
234 = doble arriba (extiende dos bases)
240 = iota subíndice (solo ese diacrítico griego)

Escritura bidireccional

Hay seis propiedades de caracteres que pertenecen a la escritura bidireccional: Bidi_Class , Bidi_Control , Bidi_Mirrored , Bidi_Mirroring_Glyph , Bidi_Paired_Bracket y Bidi_Paired_Bracket_Type .

Una de las principales características de Unicode es la compatibilidad con la visualización de texto bidireccional ( Bidi ) de derecha a izquierda (R-to-L) y de izquierda a derecha (L-to-R). El algoritmo bidireccional Unicode UAX9 [19] describe el proceso de presentación de texto con direcciones de escritura alteradas. Por ejemplo, permite una cita en hebreo en un texto en inglés. El Bidi_Character_Type marca el comportamiento de un carácter en la escritura direccional. Para anular una dirección, Unicode ha definido caracteres de control de formato especiales ( Bidi-Control ). Estos caracteres pueden imponer una dirección y, por definición, solo afectan a la escritura bidireccional.

Cada punto de código tiene una propiedad denominada Bidi_Class , que define su comportamiento en un texto bidireccional tal como lo interpreta el algoritmo:

Tipo de carácter bidireccional ( propiedad de carácter Unicode Bidi_Class ) [1]
Tipo [2]DescripciónFortalezaDireccionalidadÁmbito generalCarácter Bidi_Control [3]
yoDe izquierda a derechaFuerteDe izquierda a derechaLa mayoría de los caracteres alfabéticos y silábicos, caracteres chinos, dígitos no europeos o no árabes, caracteres LRM,...U+200E MARCA DE IZQUIERDA A DERECHA (LRM)
RDe derecha a izquierdaFuerteDe derecha a izquierdaAdlam, Garay, hebreo, mandaico, mende kikakui, n'ko, samaritano, escrituras antiguas como kharoshthi y nabateo, carácter RLM, ...U+200F MARCA DE DERECHA A IZQUIERDA (RLM)
AlabamaLetra árabeFuerteDe derecha a izquierdaAlfabetos árabe, hanifi, rohingya, sogdiano, siríaco y thaana, y la mayoría de los signos de puntuación específicos de esas escrituras, carácter ALM, ...U+061C MARCA DE LETRA ÁRABE (ALM)
ESNúmero europeoDébilCifras europeas, cifras árabes-índicas orientales, números epactos coptos, ...
ESSeparador europeoDébilsigno más , signo menos , ...
YTerminador de número europeoDébilsigno de grado , símbolos monetarios, ...
UNNúmero árabeDébilDígitos árabe-índicos, separadores decimales y de miles árabes, dígitos Rumi, dígitos Hanifi Rohingya, ...
CSSeparador de números comunesDébildos puntos , coma , punto , espacio sin interrupción , ...
NSMMarca sin espaciadoDébilCaracteres en categorías generales Marca, sin espacio y Marca, que encierra (Mn, Me)
BNNeutralidad de límitesDébilIgnorables predeterminados, no caracteres, caracteres de control distintos de los dados explícitamente a otros tipos
BSeparador de párrafosNeutralSeparador de párrafos , funciones de nueva línea apropiadas, determinación de párrafos mediante protocolo de nivel superior
SSeparador de segmentosNeutralCortina a la italiana
WSEspacio en blancoNeutralespacio , espacio de figura , separador de línea , avance de página , bloque de puntuación general espacios (conjunto más pequeño que la lista de espacios en blanco de Unicode)
ENOtros neutralesNeutralTodos los demás caracteres, incluido el carácter de reemplazo de objeto.
LREIncrustación de izquierda a derechaExplícitoDe izquierda a derechaSólo carácter LREINCRUSTACIÓN DE IZQUIERDA A DERECHA (LRE) U+202A
LROAnulación de izquierda a derechaExplícitoDe izquierda a derechaSólo carácter LROU+202D ANULACIÓN DE IZQUIERDA A DERECHA (LRO)
RLEIncrustación de derecha a izquierdaExplícitoDe derecha a izquierdaSólo carácter RLEU+202B INCORPORACIÓN DE DERECHA A IZQUIERDA (RLE)
ORLAnulación de derecha a izquierdaExplícitoDe derecha a izquierdaCarácter RLO únicamenteU+202E ANULACIÓN DE DERECHA A IZQUIERDA (RLO)
PDFFormato direccional popExplícitoSólo caracteres PDFFORMATO DIRECCIONAL POP U+202C (PDF)
LRIAislamiento de izquierda a derechaExplícitoDe izquierda a derechaSólo caracteres LRIU+2066 AISLAMIENTO DE IZQUIERDA A DERECHA (LRI)
RLIAislamiento de derecha a izquierdaExplícitoDe derecha a izquierdaSólo caracteres RLIU+2067 AISLAMIENTO DE DERECHA A IZQUIERDA (RLI)
FSIPrimer aislado fuerteExplícitoSólo carácter FSIU+2068 PRIMER AISLAMIENTO FUERTE (FSI)
PDIAislamiento direccional popExplícitoSólo caracteres PDIAislamiento direccional de pop (PDI) U+2069
Notas
1. ^ Algoritmo bidireccional Unicode (UAX#9), a partir de la versión Unicode 16.0
2. ^ Posibles tipos de caracteres bidireccionales para la propiedad de carácter: Bidi_Class o 'type'
3. ^ Caracteres Bidi_Control: Se definen doce caracteres de formato Bidi_Control. Son invisibles y no tienen ningún efecto aparte de la direccionalidad. Nueve de ellos tienen un tipo BiDi único y dominante que es utilizado por el algoritmo. Su tipo es también su acrónimo (por ejemplo, el carácter 'LRE' tiene el tipo BiDi 'LRE').

En situaciones normales, el algoritmo puede determinar la dirección de un texto mediante esta propiedad de carácter. Para controlar situaciones Bidi más complejas, por ejemplo, cuando un texto en inglés tiene una cita en hebreo, se agregan opciones adicionales a Unicode. Doce caracteres tienen la propiedad Bidi_Control=Yes: ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM y RLO como se nombra en la tabla. Estos son caracteres de control de formato invisibles, solo utilizados por el algoritmo y sin efecto fuera del formato bidireccional. [19] A pesar del nombre, son caracteres de formato, no caracteres de control, y tienen la categoría general Otro, formato (Cf) en la definición Unicode.

Básicamente, el algoritmo determina una secuencia de caracteres con el mismo tipo de dirección fuerte (R-a-L o L-a-R), teniendo en cuenta la anulación de los controles Bidi especiales. A las cadenas de números (tipos débiles) se les asigna una dirección de acuerdo con su entorno fuerte, al igual que a los caracteres neutrales. Finalmente, los caracteres se muestran según la dirección de una cadena.

Hay dos propiedades de caracteres que son relevantes para determinar una imagen reflejada de un glifo en un texto bidireccional: Bidi_Mirrored=Yesindica que el glifo debe reflejarse cuando se escribe de derecha a izquierda. La propiedad Bidi_Mirroring_Glyph=U+hhhhpuede entonces señalar el carácter reflejado. Por ejemplo, los paréntesis ( , ) se reflejan de esta manera. Dar forma a las escrituras cursivas, como la árabe, y reflejar glifos que tienen una dirección no es parte del algoritmo.

Valores numéricos y tipos

Decimal

Los caracteres se clasifican con un tipo numérico . [1] Los caracteres como fracciones, subíndices, superíndices, números romanos, numeradores de moneda, números encerrados en un círculo y dígitos específicos de la escritura son de tipo numérico. Tienen un valor numérico que puede ser decimal, incluidos cero y negativos, o una fracción vulgar. Si no existe dicho valor, como ocurre con la mayoría de los caracteres, el tipo numérico es "Ninguno".

Los caracteres que tienen un valor numérico se dividen en tres grupos: decimal (De), dígito (Di) y numérico (Nu, es decir, todos los demás). "Decimal" significa que el carácter es un dígito decimal. Solo los caracteres que forman parte de un rango codificado contiguo de 0 a 9 tienen el tipo numérico decimal. Otros dígitos, como los superíndices, tienen el tipo numérico dígito. Todos los caracteres numéricos, como las fracciones y los números romanos, terminan con el tipo "numérico". El efecto deseado es que un analizador simple pueda usar estos valores numéricos decimales, sin distraerse con, por ejemplo, un superíndice numérico o una fracción. Ochenta y tres ideogramas CJK que representan un número, incluidos los utilizados para contabilidad, se escriben como numéricos.

Por otra parte, los caracteres que podrían tener un valor numérico como segundo significado siguen estando marcados como de tipo numérico None y no tienen valor numérico. Por ejemplo, se pueden utilizar letras latinas en la numeración de párrafos como "II.A.1.b", pero las letras "I", "A" y "b" no son numéricas (tipo None ) y no tienen valor numérico.

Tipo numérico [a] [b]  ( propiedad de carácter Unicode )
Tipo numéricoCódigoTiene valor numéricoEjemploObservaciones
No numérico<none>No
  • A
  • X  (latín)
  • !
  • D
  • micras
  • Yo
Valor numérico="NaN"
DecimalDe
  • 0
  • 1
  • 9
  •  (Devanagari 6)
  •  (Canarés 6)
  • 𝟨  (matemática, estilo sans serif)
Dígito recto (decimal- raíz ). Corresponde en ambos sentidos con la categoría general = Nd [a]
DígitoDi
  • ¹  (superíndice)
  •  (dígito con punto)
Decimal, pero en contexto tipográfico
NuméricoNu
  • ¾
  •  (número diez en tamil)
  •  (número romano)
  •  (Número Han 6)
Valor numérico, pero no base decimal
a. ^ "Sección 4.6: Valor numérico". El estándar Unicode . Consorcio Unicode. Septiembre de 2024.
b. ^ "Tipos numéricos derivados de Unicode 16.0". Base de datos de caracteres Unicode . Consorcio Unicode. 30 de abril de 2024.

Dígitos hexadecimales

Los caracteres hexadecimales son aquellos que se encuentran en la serie con valores hexadecimales 0...9ABCDEF (dieciséis caracteres, valor decimal 0-15). La propiedad de carácter Hex_Digit se establece en Sí cuando un carácter se encuentra en una de estas series:

Caracteres en Unicode marcados [a]Hex_Digit=Yes
0123456789ABCDEFLatín básico, mayúsculasTambiénASCII_Hex_Digit=Yes
0123456789abcdefLatín básico, letras minúsculasTambiénASCII_Hex_Digit=Yes
0123456789ABCDEFFormularios de ancho completo , mayúsculas
0123456789abcdefFormularios de ancho completo, letras pequeñas
a. ^ "Unicode 16.0 UCD: PropList.txt". 2024-05-31 . Consultado el 2024-09-13 .

Cuarenta y cuatro caracteres están marcados como Hex_Digit . Los del bloque de latín básico también están marcados como ASCII_Hex_Digit .

Unicode no tiene caracteres separados para los valores hexadecimales. Una consecuencia es que, cuando se utilizan caracteres regulares, no es posible determinar si se pretende un valor hexadecimal, o incluso si se pretende un valor en absoluto. Esto se debe determinar en un nivel superior, por ejemplo, anteponiendo 0x a un número hexadecimal o por contexto. La única característica es que Unicode puede indicar que una secuencia puede o no ser un valor hexadecimal.

Bloquear

Un bloque es un rango de puntos de código contiguos y con un nombre único. Se identifica por su primer y último punto de código. Los bloques no se superponen . Un bloque puede contener puntos de código reservados, no asignados, etc. Cada carácter asignado tiene un único valor de "nombre de bloque" de los 338 nombres asignados a partir de la versión 16.0 de Unicode. Los puntos de código no asignados fuera de un bloque existente tienen el valor predeterminado "No_block".

AviónRango de bloquesNombre del bloquePuntos de código [a]Personajes asignadosGuiones [b] [c] [d] [e] [f]
 0 BMPU+0000..U+007FLatín básico [g]128128Latín (52 caracteres), común (76 caracteres)
 0 BMPU+0080..U+00FFSuplemento latino-1 [h]128128Latín (64 caracteres), Común (64 caracteres)
 0 BMPU+0100..U+017FLatín extendido-A128128latín
 0 BMPU+0180..U+024FLatín extendido-B208208latín
 0 BMPU+0250..U+02AFExtensiones de IPA9696latín
 0 BMPU+02B0..U+02FFLetras modificadoras de espaciado8080Bopomofo (2 caracteres), latín (14 caracteres), común (64 caracteres)
 0 BMPU+0300..U+036FCombinación de signos diacríticos112112Heredado
 0 BMPU+0370..U+03FFGriego y copto144135Copto (14 caracteres), Griego (117 caracteres), Común (4 caracteres)
 0 BMPU+0400..U+04FFcirílico256256Cirílico (254 caracteres), Heredado (2 caracteres)
 0 BMPU+0500..U+052FSuplemento cirílico4848cirílico
 0 BMPU+0530..U+058Farmenio9691armenio
 0 BMPU+0590..U+05FFhebreo11288hebreo
 0 BMPU+0600..U+06FFárabe256256Árabe (238 caracteres), Común (6 caracteres), Heredado (12 caracteres)
 0 BMPU+0700..U+074FSiríaco8077Siríaco
 0 BMPU+0750..U+077FSuplemento árabe4848árabe
 0 BMPU+0780..U+07BFTaana6450Taana
 0 BMPU+07C0..U+07FFNko6462N'Ko
 0 BMPU+0800..U+083Fsamaritano6461samaritano
 0 BMPU+0840..U+085FMandaico3229Mandaico
 0 BMPU+0860..U+086FSuplemento siríaco1611Siríaco
 0 BMPU+0870..U+089FÁrabe ampliado-B4842árabe
 0 BMPU+08A0..U+08FFÁrabe extendido-A9696Árabe (95 caracteres), común (1 carácter)
 0 BMPU+0900..U+097FDevanagari128128Devanagari (122 caracteres), Común (2 caracteres), Heredado (4 caracteres)
 0 BMPU+0980..U+09FFbengalí12896bengalí
 0 BMPU+0A00..U+0A7FGurmukhi12880Gurmukhi
 0 BMPU+0A80..U+0AFFGujarati12891Gujarati
 0 BMPU+0B00..U+0B7FOriya12891Oriya
 0 BMPU+0B80..U+0BFFTamil12872Tamil
 0 BMPU+0C00..U+0C7FTélugu128100Télugu
 0 BMPU+0C80..U+0CFFCanarés12891Canarés
 0 BMPU+0D00..U+0D7FMalabar128118Malabar
 0 BMPU+0D80..U+0DFFCingalés12891Cingalés
 0 BMPU+0E00..U+0E7Ftailandés12887Tailandés (86 caracteres), común (1 carácter)
 0 BMPU+0E80..U+0EFFLaosiano12883Laosiano
 0 BMPU+0F00..U+0FFFtibetano256211Tibetano (207 caracteres), Común (4 caracteres)
 0 BMPU+1000..U+109FBirmania160160Birmania
 0 BMPU+10A0..U+10FFgeorgiano9688Georgiano (87 caracteres), Común (1 carácter)
 0 BMPU+1100..U+11FFHangul Jamo256256Hangul
 0 BMPU+1200..U+137FEtíope384358Etíope
 0 BMPU+1380..U+139FSuplemento etíope3226Etíope
 0 BMPU+13A0..U+13FFCherokee9692Cherokee
 0 BMPU+1400..U+167FSílabas aborígenes canadienses unificadas640640Aborigen canadiense
 0 BMPU+1680..U+169FOgam3229Ogam
 0 BMPU+16A0..U+16FFRúnico9689Rúnico (86 caracteres), Común (3 caracteres)
 0 BMPU+1700..U+171FTagalo3223Tagalo
 0 BMPU+1720..U+173FHanunoo3223Hanunoo (21 caracteres), Común (2 caracteres)
 0 BMPU+1740..U+175FBuhid3220Buhid
 0 BMPU+1760..U+177FTagbanwa3218Tagbanwa
 0 BMPU+1780..U+17FFJemer128114Jemer
 0 BMPU+1800..U+18AFmongol176158Mongol (155 caracteres), Común (3 caracteres)
 0 BMPU+18B0..U+18FFSílabas aborígenes canadienses unificadas ampliadas8070Aborigen canadiense
 0 BMPU+1900..U+194FLimbu8068Limbu
 0 BMPU+1950..U+197FTai Le4835Tai Le
 0 BMPU+1980..U+19DFNuevo Tai Lue9683Nuevo Tai Lue
 0 BMPU+19E0..U+19FFSímbolos jemeres3232Jemer
 0 BMPU+1A00..U+1A1Fbuginés3230buginés
 0 BMPU+1A20..U+1AAFTai Tham144127Tai Tham
 0 BMPU+1AB0..U+1AFFCombinación de signos diacríticos ampliada8031Heredado
 0 BMPU+1B00..U+1B7Fbalinés128127balinés
 0 BMPU+1B80..U+1BBFSundanés6464Sundanés
 0 BMPU+1BC0..U+1BFFBatak6456Batak
 0 BMPU+1C00..U+1C4FLepcha8074Lepcha
 0 BMPU+1C50..U+1C7FOl Chiki4848Ol Chiki
 0 BMPU+1C80..U+1C8FCirílico extendido-C1611cirílico
 0 BMPU+1C90..U+1CBFGeorgiano extendido4846georgiano
 0 BMPU+1CC0..U+1CCFSuplemento Sundanés168Sundanés
 0 BMPU+1CD0..U+1CFFExtensiones védicas4843Común (16 caracteres), Heredado (27 caracteres)
 0 BMPU+1D00..U+1D7FExtensiones fonéticas128128Cirílico (2 caracteres), griego (15 caracteres), latín (111 caracteres)
 0 BMPU+1D80..U+1DBFSuplemento de extensiones fonéticas6464Griego (1 carácter), latín (63 caracteres)
 0 BMPU+1DC0..U+1DFFSuplemento de combinación de signos diacríticos6464Heredado
 0 BMPU+1E00..U+1EFFLatín extendido adicional256256latín
 0 BMPU+1F00..U+1FFFGriego extendido256233Griego
 0 BMPU+2000..U+206FPuntuación general112111Común (109 caracteres), Heredado (2 caracteres)
 0 BMPU+2070..U+209FSuperíndices y subíndices4842Latín (15 caracteres), común (27 caracteres)
 0 BMPU+20A0..U+20CFSímbolos monetarios4833Común
 0 BMPU+20D0..U+20FFCombinación de signos diacríticos para símbolos4833Heredado
 0 BMPU+2100..U+214FSímbolos similares a letras8080Griego (1 carácter), latín (4 caracteres), común (75 caracteres)
 0 BMPU+2150..U+218FFormas numéricas6460Latín (41 caracteres), común (19 caracteres)
 0 BMPU+2190..U+21FFFlechas112112Común
 0 BMPU+2200..U+22FFOperadores matemáticos256256Común
 0 BMPU+2300..U+23FFVarios Técnicos256256Común
 0 BMPU+2400..U+243FImágenes de control6442Común
 0 BMPU+2440..U+245FReconocimiento óptico de caracteres3211Común
 0 BMPU+2460..U+24FFAlfanuméricos cerrados160160Común
 0 BMPU+2500..U+257FDibujo de caja128128Común
 0 BMPU+2580..U+259FElementos de bloque3232Común
 0 BMPU+25A0..U+25FFFormas geométricas9696Común
 0 BMPU+2600..U+26FFSímbolos varios256256Común
 0 BMPU+2700..U+27BFSimbolos192192Común
 0 BMPU+27C0..U+27EFSímbolos matemáticos varios-A4848Común
 0 BMPU+27F0..U+27FFFlechas suplementarias-A1616Común
 0 BMPU+2800..U+28FFPatrones Braille256256Braille
 0 BMPU+2900..U+297FFlechas suplementarias B128128Común
 0 BMPU+2980..U+29FFSímbolos matemáticos varios-B128128Común
 0 BMPU+2A00..U+2AFFOperadores matemáticos suplementarios256256Común
 0 BMPU+2B00..U+2BFFSímbolos y flechas varios256253Común
 0 BMPU+2C00..U+2C5FGlagolítico9696Glagolítico
 0 BMPU+2C60..U+2C7FLatín extendido-C3232latín
 0 BMPU+2C80..U+2CFFcopto128123copto
 0 BMPU+2D00..U+2D2FSuplemento georgiano4840georgiano
 0 BMPU+2D30..U+2D7FTifinagh8059Tifinagh
 0 BMPU+2D80..U+2DDFEtíope ampliado9679Etíope
 0 BMPU+2DE0..U+2DFFCirílico extendido-A3232cirílico
 0 BMPU+2E00..U+2E7FPuntuación suplementaria12894Común
 0 BMPU+2E80..U+2EFFSuplemento de radicales CJK128115Han
 0 BMPU+2F00..U+2FDFRadicales de Kangxi224214Han
 0 BMPU+2FF0..U+2FFFCaracteres de descripción ideográfica1616Común
 0 BMPU+3000..U+303FSímbolos y puntuación del CJK6464Han (15 caracteres), Hangul (2 caracteres), Común (43 caracteres), Heredado (4 caracteres)
 0 BMPU+3040..U+309FHiragana9693Hiragana (89 caracteres), Común (2 caracteres), Heredado (2 caracteres)
 0 BMPU+30A0..U+30FFKatakana9696Katakana (93 caracteres), Común (3 caracteres)
 0 BMPU+3100..U+312FBopomofo4843Bopomofo
 0 BMPU+3130..U+318FCompatibilidad con Hangul Jamo9694Hangul
 0 BMPU+3190..U+319FCanbún1616Común
 0 BMPU+31A0..U+31BFBopomofo ampliado3232Bopomofo
 0 BMPU+31C0..U+31EFTrazos de CJK4839Común
 0 BMPU+31F0..U+31FFExtensiones fonéticas del katakana1616Katakana
 0 BMPU+3200..U+32FFLetras y meses CJK adjuntos256255Hangul (62 caracteres), Katakana (47 caracteres), Común (146 caracteres)
 0 BMPU+3300..U+33FFCompatibilidad con CJK256256Katakana (88 caracteres), Común (168 caracteres)
 0 BMPU+3400..U+4DBFIdeogramas unificados del CJK, extensión A6,5926,592Han
 0 BMPU+4DC0..U+4DFFSímbolos del hexagrama de Yijing6464Común
 0 BMPU+4E00..U+9FFFIdeogramas unificados del CJK20,99220,992Han
 0 BMPU+A000..U+A48FSílabas Yi1.1681.165Y
 0 BMPU+A490..U+A4CFRadicales Yi6455Y
 0 BMPU+A4D0..U+A4FFLisu4848Lisu
 0 BMPU+A500..U+A63FVai320300Vai
 0 BMPU+A640..U+A69FCirílico extendido-B9696cirílico
 0 BMPU+A6A0..U+A6FFBambú9688Bambú
 0 BMPU+A700..U+A71FLetras de tono modificador3232Común
 0 BMPU+A720..U+A7FFLatín extendido-D224199Latín (194 caracteres), común (5 caracteres)
 0 BMPU+A800..U+A82FSyloti Nagri4845Syloti Nagri
 0 BMPU+A830..U+A83FFormas comunes de números índicos1610Común
 0 BMPU+A840..U+A87FFags-pa6456Phags Pa
 0 BMPU+A880..U+A8DFSaurastra9682Saurastra
 0 BMPU+A8E0..U+A8FFDevanagari extendido3232Devanagari
 0 BMPU+A900..U+A92FKayah Li4848Kayah Li (47 caracteres), común (1 carácter)
 0 BMPU+A930..U+A95FReenganche4837Reenganche
 0 BMPU+A960..U+A97FHangul Jamo Extendido-A3229Hangul
 0 BMPU+A980..U+A9DFjavanés9691Javanés (90 caracteres), común (1 carácter)
 0 BMPU+A9E0..U+A9FFMyanmar ampliado-B3231Birmania
 0 BMPU+AA00..U+AA5FCham9683Cham
 0 BMPU+AA60..U+AA7FMyanmar ampliado-A3232Birmania
 0 BMPU+AA80..U+AADFTai Vietnam9672Tai Vietnam
 0 BMPU+AAE0..U+AAFFExtensiones de Meetei Mayek3223Meetei Mayek
 0 BMPU+AB00..U+AB2FEtíope ampliado-A4832Etíope
 0 BMPU+AB30..U+AB6FLatín extendido-E6460Latín (56 caracteres), Griego (1 carácter), Común (3 caracteres)
 0 BMPU+AB70..U+ABBFSuplemento Cherokee8080Cherokee
 0 BMPU+ABC0..U+ABFFMeetei Mayek6456Meetei Mayek
 0 BMPU+AC00..U+D7AFSílabas del hangul11,18411,172Hangul
 0 BMPU+D7B0..U+D7FFHangul Jamo Extendido-B8072Hangul
 0 BMPU+D800..U+DB7FSustitutos elevados8960Desconocido
 0 BMPU+DB80..U+DBFFSubrogantes de alto uso privado1280Desconocido
 0 BMPU+DC00..U+DFFFSustitutos bajos1.0240Desconocido
 0 BMPU+E000..U+F8FFÁrea de uso privado6.4006.400Desconocido
 0 BMPU+F900..U+FAFFIdeogramas de compatibilidad CJK512472Han
 0 BMPU+FB00..U+FB4FFormularios de presentación alfabéticos8058Armenio (5 caracteres), hebreo (46 caracteres), latín (7 caracteres)
 0 BMPU+FB50..U+FDFFFormularios de presentación en árabe-A688631Árabe (629 caracteres), común (2 caracteres)
 0 BMPU+FE00..U+FE0FSelectores de variación1616Heredado
 0 BMPU+FE10..U+FE1FFormas verticales1610Común
 0 BMPU+FE20..U+FE2FCombinando medias marcas1616Cirílico (2 caracteres), Heredado (14 caracteres)
 0 BMPU+FE30..U+FE4FFormularios de compatibilidad CJK3232Común
 0 BMPU+FE50..U+FE6FVariantes de formato pequeño3226Común
 0 BMPU+FE70..U+FEFFFormularios de presentación en árabe-B144141Árabe (140 caracteres), común (1 carácter)
 0 BMPU+FF00..U+FFEFFormularios de ancho medio y ancho completo240225Hangul (52 caracteres), Katakana (55 caracteres), Latín (52 caracteres), Común (66 caracteres)
 0 BMPU+FFF0..U+FFFFEspeciales165Común
 1 paquete de leche desnatadaU+10000..U+1007FSilabario lineal B12888Lineal B
 1 paquete de leche desnatadaU+10080..U+100FFIdeogramas lineales B128123Lineal B
 1 paquete de leche desnatadaU+10100..U+1013FNúmeros del Egeo6457Común
 1 paquete de leche desnatadaU+10140..U+1018FNúmeros griegos antiguos8079Griego
 1 paquete de leche desnatadaU+10190..U+101CFSímbolos antiguos6414Griego (1 carácter), Común (13 caracteres)
 1 paquete de leche desnatadaU+101D0..U+101FFDisco de Festos4846Común (45 caracteres), Heredado (1 carácter)
 1 paquete de leche desnatadaU+10280..U+1029FLicio3229Licio
 1 paquete de leche desnatadaU+102A0..U+102DFCariano6449Cariano
 1 paquete de leche desnatadaU+102E0..U+102FFNúmeros coptos de Epact3228Común (27 caracteres), Heredado (1 carácter)
 1 paquete de leche desnatadaU+10300..U+1032Fcursiva antigua4839cursiva antigua
 1 paquete de leche desnatadaU+10330..U+1034Fgótico3227gótico
 1 paquete de leche desnatadaU+10350..U+1037FPérmico antiguo4843Pérmico antiguo
 1 paquete de leche desnatadaU+10380..U+1039FUgarítico3231Ugarítico
 1 paquete de leche desnatadaU+103A0..U+103DFPersa antiguo6450Persa antiguo
 1 paquete de leche desnatadaU+10400..U+1044FDesierto8080Desierto
 1 paquete de leche desnatadaU+10450..U+1047FShaviano4848Shaviano
 1 paquete de leche desnatadaU+10480..U+104AFOsmania4840Osmania
 1 paquete de leche desnatadaU+104B0..U+104FFOsage8072Osage
 1 paquete de leche desnatadaU+10500..U+1052FElbasan4840Elbasan
 1 paquete de leche desnatadaU+10530..U+1056FAlbanés caucásico6453Albanés caucásico
 1 paquete de leche desnatadaU+10570..U+105BFVithkuqi8070Vithkuqi
 1 paquete de leche desnatadaU+105C0..U+105FFTodhri6452Todhri
 1 paquete de leche desnatadaU+10600..U+1077FLineal A384341Lineal A
 1 paquete de leche desnatadaU+10780..U+107BFLatín extendido-F6457latín
 1 paquete de leche desnatadaU+10800..U+1083FSilabario chipriota6455Chipriota
 1 paquete de leche desnatadaU+10840..U+1085FArameo imperial3231Arameo imperial
 1 paquete de leche desnatadaU+10860..U+1087FPalmira3232Palmira
 1 paquete de leche desnatadaU+10880..U+108AFNabateo4840Nabateo
 1 paquete de leche desnatadaU+108E0..U+108FFHatran3226Hatran
 1 paquete de leche desnatadaU+10900..U+1091FFenicio3229Fenicio
 1 paquete de leche desnatadaU+10920..U+1093FLidio3227Lidio
 1 paquete de leche desnatadaU+10980..U+1099FJeroglíficos meroíticos3232Jeroglíficos meroíticos
 1 paquete de leche desnatadaU+109A0..U+109FFCursiva meroítica9690Cursiva meroítica
 1 paquete de leche desnatadaU+10A00..U+10A5FKharoshti (Jaroshti)9668Kharoshti (Jaroshti)
 1 paquete de leche desnatadaU+10A60..U+10A7FAntiguo sur de Arabia3232Antiguo sur de Arabia
 1 paquete de leche desnatadaU+10A80..U+10A9FAntiguo norte de Arabia3232Antiguo norte de Arabia
 1 paquete de leche desnatadaU+10AC0..U+10AFFmaniqueo6451maniqueo
 1 paquete de leche desnatadaU+10B00..U+10B3FAvestano6461Avestano
 1 paquete de leche desnatadaU+10B40..U+10B5FParto inscriptivo3230Parto inscriptivo
 1 paquete de leche desnatadaU+10B60..U+10B7FPahlavi inscriptivo3227Pahlavi inscriptivo
 1 paquete de leche desnatadaU+10B80..U+10BAFSalterio Pahlavi4829Salterio Pahlavi
 1 paquete de leche desnatadaU+10C00..U+10C4FTurco antiguo8073Turco antiguo
 1 paquete de leche desnatadaU+10C80..U+10CFFHúngaro antiguo128108Húngaro antiguo
 1 paquete de leche desnatadaU+10D00..U+10D3FRohingyas hanifi6450Rohingyas hanifi
 1 paquete de leche desnatadaU+10D40..U+10D8FGaray8069Garay
 1 paquete de leche desnatadaU+10E60..U+10E7FSímbolos numéricos de Rumi3231árabe
 1 paquete de leche desnatadaU+10E80..U+10EBFYezidí6447Yezidí
 1 paquete de leche desnatadaU+10EC0..U+10EFFÁrabe extendido-C647árabe
 1 paquete de leche desnatadaU+10F00..U+10F2FSogdiano antiguo4840Sogdiano antiguo
 1 paquete de leche desnatadaU+10F30..U+10F6FSogdiano6442Sogdiano
 1 paquete de leche desnatadaU+10F70..U+10FAFViejo uigur6426Viejo uigur
 1 paquete de leche desnatadaU+10FB0..U+10FDFCorasmiano4828Corasmiano
 1 paquete de leche desnatadaU+10FE0..U+10FFFElímaco3223Elímaco
 1 paquete de leche desnatadaU+11000..U+1107FBrahmi128115Brahmi
 1 paquete de leche desnatadaU+11080..U+110CFKaithi8068Kaithi
 1 paquete de leche desnatadaU+110D0..U+110FFSora Sompeng4835Sora Sompeng
 1 paquete de leche desnatadaU+11100..U+1114FChakma8071Chakma
 1 paquete de leche desnatadaU+11150..U+1117FMahajani4839Mahajani
 1 paquete de leche desnatadaU+11180..U+111DFSharada9696Sharada
 1 paquete de leche desnatadaU+111E0..U+111FFNúmeros arcaicos cingaleses3220Cingalés
 1 paquete de leche desnatadaU+11200..U+1124FKhojki8065Khojki
 1 paquete de leche desnatadaU+11280..U+112AFMultaní4838Multaní
 1 paquete de leche desnatadaU+112B0..U+112FFJudawadi8069Judawadi
 1 paquete de leche desnatadaU+11300..U+1137FGrantha12886Grantha (85 caracteres), Heredado (1 carácter)
 1 paquete de leche desnatadaU+11380..U+113FFTulu-Tigalari12880Tulu Tigalari
 1 paquete de leche desnatadaU+11400..U+1147FNueva12897Nueva
 1 paquete de leche desnatadaU+11480..U+114DFTirhuta9682Tirhuta
 1 paquete de leche desnatadaU+11580..U+115FFSiddham12892Siddham
 1 paquete de leche desnatadaU+11600..U+1165FModificar9679Modificar
 1 paquete de leche desnatadaU+11660..U+1167FSuplemento de Mongolia3213mongol
 1 paquete de leche desnatadaU+11680..U+116CFTakri8068Takri
 1 paquete de leche desnatadaU+116D0..U+116FFMyanmar ampliado-C4820Birmania
 1 paquete de leche desnatadaU+11700..U+1174FAhom8065Ahom
 1 paquete de leche desnatadaU+11800..U+1184FPerro8060Perro
 1 paquete de leche desnatadaU+118A0..U+118FFCiudad del centro9684Ciudad del centro
 1 paquete de leche desnatadaU+11900..U+1195FInmersiones en Akuru9672Inmersiones en Akuru
 1 paquete de leche desnatadaU+119A0..U+119FFNandinagari9665Nandinagari
 1 paquete de leche desnatadaU+11A00..U+11A4FPlaza Zanabazar8072Plaza Zanabazar
 1 paquete de leche desnatadaU+11A50..U+11AAFSoyombo9683Soyombo
 1 paquete de leche desnatadaU+11AB0..U+11ABFSílabas aborígenes canadienses unificadas extendidas-A1616Aborigen canadiense
 1 paquete de leche desnatadaU+11AC0..U+11AFFPau Cin Hau6457Pau Cin Hau
 1 paquete de leche desnatadaU+11B00..U+11B5FDevanagari ampliado-A9610Devanagari
 1 paquete de leche desnatadaU+11BC0..U+11BFFSunuwar6444Sunuwar
 1 paquete de leche desnatadaU+11C00..U+11C6FBhaiksuki11297Bhaiksuki
 1 paquete de leche desnatadaU+11C70..U+11CBFMárquen8068Márquen
 1 paquete de leche desnatadaU+11D00..U+11D5FMasaram Gondi9675Masaram Gondi
 1 paquete de leche desnatadaU+11D60..U+11DAFGondi de Gunjala8063Gondi de Gunjala
 1 paquete de leche desnatadaU+11EE0..U+11EFFMakasar3225Makasar
 1 paquete de leche desnatadaU+11F00..U+11F5FKawi9687Kawi
 1 paquete de leche desnatadaU+11FB0..U+11FBFSuplemento de Lisu161Lisu
 1 paquete de leche desnatadaU+11FC0..U+11FFFSuplemento tamil6451Tamil
 1 paquete de leche desnatadaU+12000..U+123FFCuneiforme1.024922Cuneiforme
 1 paquete de leche desnatadaU+12400..U+1247FNúmeros cuneiformes y puntuación128116Cuneiforme
 1 paquete de leche desnatadaU+12480..U+1254FEscritura cuneiforme dinástica temprana208196Cuneiforme
 1 paquete de leche desnatadaU+12F90..U+12FFFCipro-minoico11299Chipre minoico
 1 paquete de leche desnatadaU+13000..U+1342FJeroglíficos egipcios1.0721.072Jeroglíficos egipcios
 1 paquete de leche desnatadaU+13430..U+1345FControles del formato de jeroglíficos egipcios4838Jeroglíficos egipcios
 1 paquete de leche desnatadaU+13460..U+143FFJeroglíficos egipcios ampliados-A4.0003.995Jeroglíficos egipcios
 1 paquete de leche desnatadaU+14400..U+1467FJeroglíficos de Anatolia640583Jeroglíficos de Anatolia
 1 paquete de leche desnatadaU+16100..U+1613FGurung Khema6458Gurung Khema
 1 paquete de leche desnatadaU+16800..U+16A3FSuplemento de bambú576569Bambú
 1 paquete de leche desnatadaU+16A40..U+16A6FSeñor4843Señor
 1 paquete de leche desnatadaU+16A70..U+16ACFTangsa9689Tangsa
 1 paquete de leche desnatadaU+16AD0..U+16AFFBajo Vah4836Bajo Vah
 1 paquete de leche desnatadaU+16B00..U+16B8FHmong pahawh144127Hmong pahawh
 1 paquete de leche desnatadaU+16D40..U+16D7FKirat Rai6458Kirat Rai
 1 paquete de leche desnatadaU+16E40..U+16E9FMedefaidrina9691Medefaidrina
 1 paquete de leche desnatadaU+16F00..U+16F9FMiao160149Miao
 1 paquete de leche desnatadaU+16FE0..U+16FFFSímbolos ideográficos y puntuación327Han (4 caracteres), escritura pequeña khitan (1 carácter), nushu (1 carácter), tangut (1 carácter)
 1 paquete de leche desnatadaU+17000..U+187FFTangut6,1446.136Tangut
 1 paquete de leche desnatadaU+18800..U+18AFFComponentes de Tangut768768Tangut
 1 paquete de leche desnatadaU+18B00..U+18CFFEscritura pequeña khitan512471Escritura pequeña khitan
 1 paquete de leche desnatadaU+18D00..U+18D7FSuplemento Tangut1289Tangut
 1 paquete de leche desnatadaU+1AFF0..U+1AFFFKana extendida-B1613Katakana
 1 paquete de leche desnatadaU+1B000..U+1B0FFSuplemento de Kana256256Hiragana (255 caracteres), Katakana (1 carácter)
 1 paquete de leche desnatadaU+1B100..U+1B12FKana Extendido-A4835Hiragana (32 caracteres), Katakana (3 caracteres)
 1 paquete de leche desnatadaU+1B130..U+1B16FPequeña extensión de Kana649Hiragana (4 caracteres), Katakana (5 caracteres)
 1 paquete de leche desnatadaU+1B170..U+1B2FFNushu400396Nushu
 1 paquete de leche desnatadaU+1BC00..U+1BC9FDuployan160143Duployan
 1 paquete de leche desnatadaU+1BCAF0..U+1BCAFControles de formato abreviado164Común
 1 paquete de leche desnatadaU+1CC00..U+1CEBFSuplemento de símbolos para computación heredada704686Común
 1 paquete de leche desnatadaU+1CF00..U+1CFCFNotación musical Znamenny208185Común (116 caracteres), Heredado (69 caracteres)
 1 paquete de leche desnatadaU+1D000..U+1D0FFSímbolos musicales bizantinos256246Común
 1 paquete de leche desnatadaU+1D100..U+1D1FFSímbolos musicales256233Común (211 caracteres), Heredado (22 caracteres)
 1 paquete de leche desnatadaU+1D200..U+1D24FNotación musical griega antigua8070Griego
 1 paquete de leche desnatadaU+1D2C0..U+1D2DFNumerales de Kaktovik3220Común
 1 paquete de leche desnatadaU+1D2E0..U+1D2FFNumerales mayas3220Común
 1 paquete de leche desnatadaU+1D300..U+1D35FSímbolos del Tai Xuan Jing9687Común
 1 paquete de leche desnatadaU+1D360..U+1D37FContando numerales de varilla3225Común
 1 paquete de leche desnatadaU+1D400..U+1D7FFSímbolos Alfanuméricos Matemáticos1.024996Común
 1 paquete de leche desnatadaU+1D800..U+1DAAFEscritura de letreros de Sutton688672Escritura de signos
 1 paquete de leche desnatadaU+1DF00..U+1DFFFLatín G extendido25637latín
 1 paquete de leche desnatadaU+1E000..U+1E02FSuplemento glagolítico4838Glagolítico
 1 paquete de leche desnatadaU+1E030..U+1E08FCirílico extendido-D9663cirílico
 1 paquete de leche desnatadaU+1E100..U+1E14FPueblo hmong de Nyiakeng Puachue8071Pueblo hmong de Nyiakeng Puachue
 1 paquete de leche desnatadaU+1E290..U+1E2BFToto4831Toto
 1 paquete de leche desnatadaU+1E2C0..U+1E2FFWancho6459Wancho
 1 paquete de leche desnatadaU+1E4D0..U+1E4FFNag Mundari4842Mundari
 1 paquete de leche desnatadaU+1E5D0..U+1E5FFOl Onal4844Ol Onal
 1 paquete de leche desnatadaU+1E7E0..U+1E7FFEtíope ampliado-B3228Etíope
 1 paquete de leche desnatadaU+1E800..U+1E8DFMende Kikakui224213Mende Kikakui
 1 paquete de leche desnatadaU+1E900..U+1E95FAdlam9688Adlam
 1 paquete de leche desnatadaU+1EC70..U+1ECBFNúmeros de Siyaq índicos8068Común
 1 paquete de leche desnatadaU+1ED00..U+1ED4FNúmeros de Siyaq otomanos8061Común
 1 paquete de leche desnatadaU+1EE00..U+1EEFFSímbolos alfabéticos matemáticos árabes256143árabe
 1 paquete de leche desnatadaU+1F000..U+1F02FFichas de Mahjong4844Común
 1 paquete de leche desnatadaU+1F030..U+1F09FFichas de dominó112100Común
 1 paquete de leche desnatadaU+1F0A0..U+1F0FFNaipes9682Común
 1 paquete de leche desnatadaU+1F100..U+1F1FFSuplemento alfanumérico adjunto256200Común
 1 paquete de leche desnatadaU+1F200..U+1F2FFSuplemento ideográfico adjunto25664Hiragana (1 carácter), común (63 caracteres)
 1 paquete de leche desnatadaU+1F300..U+1F5FFSímbolos y pictogramas varios768768Común
 1 paquete de leche desnatadaU+1F600..U+1F64FEmoticones8080Común
 1 paquete de leche desnatadaU+1F650..U+1F67FDingbats ornamentales4848Común
 1 paquete de leche desnatadaU+1F680..U+1F6FFSímbolos de transporte y mapas128118Común
 1 paquete de leche desnatadaU+1F700..U+1F77FSímbolos alquímicos128124Común
 1 paquete de leche desnatadaU+1F780..U+1F7FFFormas geométricas extendidas128103Común
 1 paquete de leche desnatadaU+1F800..U+1F8FFFlechas suplementarias-C256162Común
 1 paquete de leche desnatadaU+1F900..U+1F9FFSímbolos y pictogramas complementarios256256Común
 1 paquete de leche desnatadaU+1FA00..U+1FA6FSímbolos del ajedrez11298Común
 1 paquete de leche desnatadaU+1FA70..U+1FAFFSímbolos y pictogramas ampliados-A144114Común
 1 paquete de leche desnatadaU+1FB00..U+1FBFFSímbolos para la informática tradicional256249Común
 2 sorbosU+20000..U+2A6DFIdeogramas unificados del CJK, extensión B42.72042.720Han
 2 sorbosU+2A700..U+2B73FExtensión C de los ideogramas unificados del CJK4.1604.154Han
 2 sorbosU+2B740..U+2B81FExtensión D de los ideogramas unificados del CJK224222Han
 2 sorbosU+2B820..U+2CEAFExtensión E de los ideogramas unificados del CJK5.7765.762Han
 2 sorbosU+2CEB0..U+2EBEFExtensión F de los ideogramas unificados del CJK7,4887,473Han
 2 sorbosU+2EBF0..U+2EE5FExtensión I de los ideogramas unificados del CJK624622Han
 2 sorbosU+2F800..U+2FA1FSuplemento de ideogramas de compatibilidad CJK544542Han
 3 CONSEJOU+30000..U+3134FExtensión G de los ideogramas unificados del CJK4.9444.939Han
 3 CONSEJOU+31350..U+323AFExtensión H de los ideogramas unificados del CJK4.1924.192Han
14 SSPU+E0000..U+E007FEtiquetas12897Común
14 SSPU+E0100..U+E01EFSuplemento de selectores de variación240240Heredado
15 PUA-AU+F0000..U+FFFFFÁrea de uso privado suplementario-A65.53665.534Desconocido
16 PUA-BU+100000..U+10FFFFÁrea de Uso Privado Suplementario-B65.53665.534Desconocido
  1. ^ El recuento de puntos de código incluye puntos de código no asignados: no caracteres , reservados , etc.
  2. ^ El script tiene uno o varios caracteres en el bloque, según lo definido por la propiedad Script. Esto es independiente del nombre del bloque
  3. ^ "Común", "Desconocido" (Zyyy) y "Heredado" (Zinh o Qaai) hacen referencia a los scripts en ISO 15924
  4. ^ Archivo de datos de bloques Unicode. A partir de la versión Unicode 16.0
  5. ^ UAX 24: Propiedad de la escritura Unicode (código alfa 4)
  6. ^ UAX 24: Archivo de datos de script
  7. ^ Llamado "Controles C0 y latín básico" en ISO/IEC 10646
  8. ^ Llamado "Controles C1 y Suplemento Latin-1" en ISO/IEC 10646

Guion

Cada carácter asignado puede tener un único valor para su propiedad "Script", que indica a qué script pertenece. [20] El valor es un código de cuatro letras en el rango Aaaa-Zzzz, tal como está disponible en ISO 15924, que se asigna a un sistema de escritura . Aparte de cuando se describe el contexto y el uso de un script, Unicode no utiliza una conexión entre un script y los idiomas que lo utilizan. Por lo tanto, "hebreo" se refiere al script hebreo, no al idioma hebreo.

El código especial Zyyy para "Común" permite un valor único para un carácter que se utiliza en múltiples escrituras. El código Zinh "Escritura heredada", utilizado para combinar caracteres y otros puntos de código de propósito especial, indica que un carácter "hereda" su identidad de escritura del carácter con el que se combina. (Unicode anteriormente utilizaba el código privado Qaai para este propósito). El código Zzzz "Desconocido" se utiliza para todos los caracteres que no pertenecen a una escritura (es decir, el valor predeterminado), como símbolos y caracteres de formato. En general, los caracteres de una sola escritura pueden estar dispersos en varios bloques, como los caracteres latinos . Y al revés también: pueden estar presentes varias escrituras en un solo bloque, por ejemplo, el bloque Símbolos similares a letras contiene caracteres de las escrituras latina, griega y común.

Cuando el Script está en blanco, según Unicode el carácter no pertenece a un script. Esto se aplica a los símbolos, porque los códigos de script ISO existentes "Zmth" (notación matemática), "Zsym" (símbolo) y "Zsye" (símbolo, variante de emoji) no se utilizan en Unicode. La propiedad "Script" también está en blanco para los puntos de código que no son un carácter tipográfico, como controles, sustitutos y puntos de código de uso privado.

Si hay un nombre de alias de script específico en ISO 15924, se utiliza en el nombre del carácter: U+0041 A LETRA MAYÚSCULA LATINA A , y U+05D0 א LETRA HEBREA ALEF .

ISO 15924Escritura en Unicode [e]
CódigoNúmero ISONombre formal ISODireccionalidadAlias ​​Unicode [f]VersiónPersonajesNotasDescripción
Adlm166Adlamescritura de derecha a izquierda Adlam9.088Cap. 19.9
Que se joda439AfakavaríaZZ — No está en Unicode, se explora la propuesta [i]
Aghb239Albanés caucásicoDe izquierda a derecha Albanés caucásico7.053Antiguo/históricoCap. 8.11
Ahom338Ahom, Tai AhomDe izquierda a derecha Ahom8.065Antiguo/históricoCap. 15.16
árabe160árabeescritura de derecha a izquierda árabe1.01.373Cap. 9.2
Arán161Árabe (variante nastaliq)mezcladoZZ — Variante tipográfica del árabe (véase § Árabe)
Armas124Arameo imperialescritura de derecha a izquierda Arameo imperial5.231Antiguo/históricoCap. 10.4
Armonía230armenioDe izquierda a derecha armenio1.096Cap. 7.6
Adelante134Avestanoescritura de derecha a izquierda Avestano5.261Antiguo/históricoCap. 10.7
Bali360balinésDe izquierda a derecha balinés5.0127Cap. 17.3
Bamú435BambúDe izquierda a derecha Bambú5.2657Cap. 19.6
Bajo259Bajo VahDe izquierda a derecha Bajo Vah7.036Antiguo/históricoCap. 19.7
Murciélago365BatakDe izquierda a derecha Batak6.056Cap. 17.6
Ben325Bengalí (Bangla)De izquierda a derecha bengalí1.096Cap. 12.2
BHKS334BhaiksukiDe izquierda a derecha Bhaiksuki9.097Antiguo/históricoCap. 14.3
Felicidad550Símbolos de felicidadvaríaZZ — No está en Unicode, se explora la propuesta [i]
Bopo285Bopomofoescritura de izquierda a derecha, de derecha a izquierda Bopomofo1.077Cap. 18.3
hermano300BrahmiDe izquierda a derecha Brahmi6.0115Antiguo/históricoCap. 14.1
Cerdo570BrailleDe izquierda a derecha Braille3.0256Cap. 21.1
Error367buginésDe izquierda a derecha buginés4.130Cap. 17.2
Buhd372BuhidDe izquierda a derecha Buhid3.220Cap. 17.1
Cakm349ChakmaDe izquierda a derecha Chakma6.171Cap. 13.11
Latas440Sílabas aborígenes canadienses unificadasDe izquierda a derecha Aborigen canadiense3.0726Cap. 20.2
Cari201Carianoescritura de izquierda a derecha, de derecha a izquierda Cariano5.149Antiguo/históricoCap. 8.5
Cham358ChamDe izquierda a derecha Cham5.183Cap. 16.10
Querida445CherokeeDe izquierda a derecha Cherokee3.0172Cap. 20.1
Chis298ChisooDe izquierda a derechaZZ — No está en Unicode, la propuesta está madura [ii]
Cristos109Corasmianoescritura de derecha a izquierda , de arriba a abajo Corasmiano13.028Antiguo/históricoCap. 10.8
Circo291CircovaríaZZ — No está en Unicode
copto204coptoDe izquierda a derecha copto1.0137Antiguo/histórico, desunificado del griego en 4.1Cap. 7.3
Cpmn402Cipro-minoicoDe izquierda a derechaChipre minoico14.099Antiguo/históricoCap. 8.4
Cprt403Silabario chipriotaescritura de derecha a izquierda Chipriota4.055Antiguo/históricoCap. 8.3
Cirilo220cirílicoDe izquierda a derecha cirílico1.0508Incluye la variante tipográfica del antiguo eslavo eclesiástico (véase § Cyrs)Cap. 7.4
Ciros221Cirílico (variante del antiguo eslavo eclesiástico)varíaZZ — Variante tipográfica del cirílico (véase § Cyrl); antiguo/histórico
Deva315Devanagari (Nagari)De izquierda a derecha Devanagari1.0164Cap. 12.1
Diak342Inmersiones en AkuruDe izquierda a derecha Inmersiones en Akuru13.072Antiguo/históricoCap. 15.15
Perro328PerroDe izquierda a derecha Perro11.060Antiguo/históricoCap. 15.18
Dr.250Deseret (mormón)De izquierda a derecha Desierto3.180Cap. 20.4
Duplicar755Taquigrafía Duployan, taquigrafía DuployanDe izquierda a derecha Duployan7.0143Cap. 21.6
Egipcio070Demótico egipciomezcladoZZ — No está en Unicode
Egipcio060Hierático egipciomezcladoZZ — No está en Unicode
Egipto050Jeroglíficos egipciosescritura de derecha a izquierda , de izquierda a derecha Jeroglíficos egipcios5.25,105Antiguo/históricoCap. 11.4
Elba226ElbasanDe izquierda a derecha Elbasan7.040Antiguo/históricoCap. 8.10
Elym128Elímacoescritura de derecha a izquierda Elímaco12.023Antiguo/históricoCap. 10.9
Eti430Etíope (Ge'ez)De izquierda a derecha Etíope3.0523Cap. 19.1
Gara164GarayDe derecha a izquierdaGaray16.069
Geok241Khutsuri (Asomtavruli y Nuskhuri)De izquierda a derecha georgianoUnicode agrupa a Khutsori, Asomtavruli y Nuskhuri en 'georgiano' (ver § Geok). De manera similar, Mkhedruli y Mtavruli son 'georgianos' (ver § Geor)Cap. 7.7
Geor240Georgiano (Mkhedruli y Mtavruli)De izquierda a derecha georgiano1.0173En Unicode esto también incluye Nuskhuri ( Geok ).Cap. 7.7
Glaciar225GlagolíticoDe izquierda a derecha Glagolítico4.1134Antiguo/históricoCap. 7.5
Gong312Gondi de GunjalaDe izquierda a derecha Gondi de Gunjala11.063Cap. 13.15
Gonm313Masaram GondiDe izquierda a derecha Masaram Gondi10.075Cap. 13.14
godo206góticoDe izquierda a derecha gótico3.127Antiguo/históricoCap. 8.9
Gran343GranthaDe izquierda a derecha Grantha7.085Antiguo/históricoCap. 15.14
griego200GriegoDe izquierda a derecha Griego1.0518Direccionalidad a veces como bustrofedónCap. 7.2
Gujr320GujaratiDe izquierda a derecha Gujarati1.091Cap. 12.4
Gukh397Gurung KhemaDe izquierda a derechaGurung Khema16.058
Gurú310GurmukhiDe izquierda a derecha Gurmukhi1.080Cap. 12.3
Hanb503Han con Bopomofo (alias de Han + Bopomofo)mezcladoZZ — Véase § Hani, § Bopo
Colgar286Hangul (Hangul, Hangeul)De izquierda a derecha, vertical de derecha a izquierda Hangul1.011.739Sílabas del hangul reubicadas en 2.0Cap. 18.6
Hani500Han (Hanzi, Kanji, Hanja)De arriba a abajo, columnas de derecha a izquierda (históricamente)Han1.099.030Cap. 18.1
Hano371Hanunoo (Hanunóo)De izquierda a derecha, de abajo a arriba Hanunoo3.221Cap. 17.1
Hans501Han (variante simplificada)varíaZZ - Subconjunto de Han (Hanzi, Kanji, Hanja) (ver § Hani)
Hant502Han (variante tradicional)varíaZZ — Subconjunto de § Hani
Odio127Hatranescritura de derecha a izquierda Hatran8.026Antiguo/históricoCap. 10.12
Hebreo125hebreoescritura de derecha a izquierda hebreo1.0134Cap. 9.1
Hira410Hiraganavertical de derecha a izquierda, de izquierda a derecha Hiragana1.0381Cap. 18.4
Hluw080Jeroglíficos de Anatolia (jeroglíficos luvitas, jeroglíficos hititas)De izquierda a derecha Jeroglíficos de Anatolia8.0583Antiguo/históricoCap. 11.6
Hmmm450Hmong pahawhDe izquierda a derecha Hmong pahawh7.0127Cap. 16.11
Hmpp451Pueblo hmong de Nyiakeng PuachueDe izquierda a derecha Pueblo hmong de Nyiakeng Puachue12.071Cap. 16.12
Hrkt412Silabarios japoneses (alias Hiragana + Katakana)vertical de derecha a izquierda, de izquierda a derecha Katakana o HiraganaVéase § Hira, § KanaCap. 18.4
Colgado176Húngaro antiguo (rúnico húngaro)escritura de derecha a izquierda Húngaro antiguo8.0108Antiguo/históricoCap. 8.8
Inds610Indo (Harappa)mezcladoZZ — No está en Unicode, se explora la propuesta [i]
italiano210Itálico antiguo (etrusco, osco, etc.)escritura de derecha a izquierda , de izquierda a derecha cursiva antigua3.139Antiguo/históricoCap. 8.6
Jamón284Jamo (alias del subconjunto Jamo de Hangul)varíaZZ — Subconjunto de § Hang
Java361javanésDe izquierda a derecha javanés5.290Cap. 17.4
Japón413Japonés (alias de Han + Hiragana + Katakana)varíaZZ — Véase § Hani, § Hira y § Kana
Jurásico510JurchenDe izquierda a derechaZZ — No está en Unicode
Cali357Kayah LiDe izquierda a derecha Kayah Li5.147Cap. 16.9
Kana411Katakanavertical de derecha a izquierda, de izquierda a derecha Katakana1.0321Cap. 18.4
Kawi368KawiDe izquierda a derecha Kawi15.087Antiguo/históricoCap. 17.9
Khar305Kharoshti (Jaroshti)escritura de derecha a izquierda Kharoshti (Jaroshti)4.168Antiguo/históricoCap. 14.2
Jemer355JemerDe izquierda a derecha Jemer3.0146Cap. 16.4
Khoj322KhojkiDe izquierda a derecha Khojki7.065Antiguo/históricoCap. 15.7
Kitl505Escritura Khitan grandeDe izquierda a derechaZZ — No está en Unicode
Kits288Escritura pequeña khitanvertical de derecha a izquierda Escritura pequeña khitan13.0472Antiguo/históricoCap. 18.12
Knda345CanarésDe izquierda a derecha Canarés1.091Cap. 12.8
Corea287Coreano (alias de Hangul + Han)De izquierda a derechaZZ — Véase § Hani, § Hang
Kpel436KpelleDe izquierda a derechaZZ — No está en Unicode, se explora la propuesta [i]
Krai396Kirat RaiDe izquierda a derechaKirat Rai16.058
Kti317KaithiDe izquierda a derecha Kaithi5.268Antiguo/históricoCap. 15.2
Lana351Tai Tham (Lanna)De izquierda a derecha Tai Tham5.2127Cap. 16.7
Lao356LaosianoDe izquierda a derecha Laosiano1.083Cap. 16.2
Latf217Latín (variante Fraktur)varíaZZ — Variante tipográfica del latín (véase § Latn)
Latg216Latín (variante gaélica)De izquierda a derechaZZ — Variante tipográfica del latín (véase § Latn)
Latín215latínDe izquierda a derecha latín1.01,487Véase también: Escritura latina en UnicodeCap. 7.1
Leke364LekeDe izquierda a derechaZZ — No está en Unicode
Lepc335Lepcha (Róng)De izquierda a derecha Lepcha5.174Cap. 13.12
Miembro336LimbuDe izquierda a derecha Limbu4.068Cap. 13.6
Lina400Lineal ADe izquierda a derecha Lineal A7.0341Antiguo/históricoCap. 8.1
Lino401Lineal BDe izquierda a derecha Lineal B4.0211Antiguo/históricoCap. 8.2
Lisu399Lisu (Fraser)De izquierda a derecha Lisu5.249Cap. 18.9
Loma437LomaDe izquierda a derechaZZ — No está en Unicode, se explora la propuesta [i]
Lici202LicioDe izquierda a derecha Licio5.129Antiguo/históricoCap. 8.5
Lidi116Lidioescritura de derecha a izquierda Lidio5.127Antiguo/históricoCap. 8.5
Mahj314MahajaniDe izquierda a derecha Mahajani7.039Antiguo/históricoCap. 15.6
Maca366MakasarDe izquierda a derecha Makasar11.025Antiguo/históricoCap. 17.8
Mand140Mandaico, mandeoescritura de derecha a izquierda Mandaico6.029Cap. 9.5
Mani139maniqueoescritura de derecha a izquierda maniqueo7.051Antiguo/históricoCap. 10.5
Bagazo332MárquenDe izquierda a derecha Márquen9.068Antiguo/históricoCap. 14.5
maya090Jeroglíficos mayasmezcladoZZ — No está en Unicode
Medf265Medefaidrina (Oberi Okaime, Oberi Ɔkaimɛ)De izquierda a derecha Medefaidrina11.091Cap. 19.10
Remiendo438Mende Kikakuiescritura de derecha a izquierda Mende Kikakui7.0213Cap. 19.8
Merc101Cursiva meroíticaescritura de derecha a izquierda Cursiva meroítica6.190Antiguo/históricoCap. 11.5
Mero100Jeroglíficos meroíticosescritura de derecha a izquierda Jeroglíficos meroíticos6.132Antiguo/históricoCap. 11.5
Mlim347MalabarDe izquierda a derecha Malabar1.0118Cap. 12.9
Modificar324Modi, ModiDe izquierda a derecha Modificar7.079Antiguo/históricoCap. 15.12
Mongol145mongolvertical de izquierda a derecha, de izquierda a derecha mongol3.0168Mong incluye escrituras claras y manchúesCap. 13.5
Luna218Luna (Código lunar, Escritura lunar, Tipo lunar)mezcladoZZ — No está en Unicode, se explora la propuesta [i]
Señor264Señor, señorDe izquierda a derecha Señor7.043Cap. 13.8
Mtei337Meitei Mayek (Meitei, Meetei)De izquierda a derecha Meetei Mayek5.279Cap. 13.7
Multiplicar323MultaníDe izquierda a derecha Multaní8.038Antiguo/históricoCap. 15.10
Mi señor350Myanmar (Birmano)De izquierda a derecha Birmania3.0243Cap. 16.3
No me gusta295Nag MundariDe izquierda a derecha Nag Mundari15.042
NANDA311NandinagariDe izquierda a derecha Nandinagari12.065Antiguo/históricoCap. 15.13
Narb106Antiguo norte de Arabia (antiguo norte de Arabia)escritura de derecha a izquierda Antiguo norte de Arabia7.032Antiguo/históricoCap. 10.1
NBA159Nabateoescritura de derecha a izquierda Nabateo7.040Antiguo/históricoCap. 10.10
Nueva333Newa, Newar, Newari, Nepāla lipiDe izquierda a derecha Nueva9.097Cap. 13.3
Nkdb085Naxi Dongba (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba)De izquierda a derechaZZ — No está en Unicode
Nkgb420Naxi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba)De izquierda a derechaZZ — No está en Unicode, se explora la propuesta [i]
Nkoo165N'Koescritura de derecha a izquierda Nko5.062Cap. 19.4
Nshu499Nushuvertical de derecha a izquierda Nushu10.0397Cap. 18.8
Ogam212OgamDe abajo a arriba, de izquierda a derecha Ogam3.029Antiguo/históricoCap. 8.14
Olor261Ol Chiki (Ol Cemet', Ol, Santali)De izquierda a derecha Ol Chiki5.148Cap. 13.10
Onao296Ol OnalDe izquierda a derechaOl Onal16.044
Orkh175Turco antiguo, rúnico orkhonescritura de derecha a izquierda Turco antiguo5.273Antiguo/históricoCap. 14.8
Orya327Oriya (Odia)De izquierda a derecha Oriya1.091Cap. 12.5
Osge219OsageDe izquierda a derecha Osage9.072Cap. 20.3
Osma260OsmaniaDe izquierda a derecha Osmania4.040Cap. 19.2
Ougr143Viejo uigurmezcladoViejo uigur14.026Antiguo/históricoCap. 14.11
Palmera126Palmiraescritura de derecha a izquierda Palmira7.032Antiguo/históricoCap. 10.11
Pauc263Pau Cin HauDe izquierda a derecha Pau Cin Hau7.057Cap. 16.13
Pcun015Proto-cuneiformeDe izquierda a derechaZZ — No está en Unicode
Pelma016ProtoelamitaDe izquierda a derechaZZ — No está en Unicode
Permanente227Pérmico antiguoDe izquierda a derecha Pérmico antiguo7.043Antiguo/históricoCap. 8.13
Fago331Fags-pavertical de izquierda a derecha Fags-pa5.056Antiguo/históricoCap. 14.4
Fili131Pahlavi inscriptivoescritura de derecha a izquierda Pahlavi inscriptivo5.227Antiguo/históricoCap. 10.6
Phlp132Salterio Pahlaviescritura de derecha a izquierda Salterio Pahlavi7.029Antiguo/históricoCap. 10.6
Phlv133Libro PahlavimezcladoZZ — No está en Unicode
Phnx115Fenicioescritura de derecha a izquierda Fenicio5.029Antiguo/histórico [g]Cap. 10.3
Piqd293Klingon (KLI pIqaD)De izquierda a derecha ZZ — Rechazado para su inclusión en Unicode [iii] [iv]
Por favor282Miao (pollo)De izquierda a derecha Miao6.1149Cap. 18.10
Parte130Parto inscriptivoescritura de derecha a izquierda Parto inscriptivo5.230Antiguo/históricoCap. 10.6
Psina103ProtosinaíticomezcladoZZ — No está en Unicode
Qaaa-Qabx900-949Reservado para uso privado (rango)ZZ — No está en Unicode
Ranja303RanjanaDe izquierda a derechaZZ — No está en Unicode
Rjng363Rejang (Redjang, Kaganga)De izquierda a derecha Reenganche5.137Cap. 17.5
Rohg167Rohingyas hanifiescritura de derecha a izquierda Rohingyas hanifi11.050Cap. 16.14
Ro-ro620RongorongomezcladoZZ — No está en Unicode, se explora la propuesta [i]
Correr211RúnicoDe izquierda a derecha, bustrofedón Rúnico3.086Antiguo/históricoCap. 8.7
Samr123samaritanoescritura de derecha a izquierda , de arriba a abajo samaritano5.261Cap. 9.4
Sara292SaratimezcladoZZ — No está en Unicode
Sarb105Antiguo sur de Arabiaescritura de derecha a izquierda Antiguo sur de Arabia5.232Antiguo/históricoCap. 10.2
Saurio344SaurastraDe izquierda a derecha Saurastra5.182Cap. 13.13
Señal095Escritura de signosvertical de izquierda a derecha Escritura de signos8.0672Cap. 21.7
Shaw281Shavian (Shaw)De izquierda a derecha Shaviano4.048Cap. 8.15
Triturar319Sharada, SaradaDe izquierda a derecha Sharada6.196Cap. 15.3
Shui530shui shuDe izquierda a derechaZZ — No está en Unicode
Sidd302Siddham, Siddhaṃ, SiddhamātṛkāDe izquierda a derecha Siddham7.092Antiguo/históricoCap. 15.5
Sid180SideticoDe derecha a izquierdaZZ — No está en Unicode, la propuesta está madura [ii]
Sind318Khudawadi, sindhiDe izquierda a derecha Judawadi7.069Cap. 15.9
Sinh348CingalésDe izquierda a derecha Cingalés3.0111Cap. 13.2
Sogd141SogdianoEscritura horizontal y vertical en escrituras del este de Asia , de arriba a abajo. Sogdiano11.042Antiguo/históricoCap. 14.10
Sogo142Sogdiano antiguoescritura de derecha a izquierda Sogdiano antiguo11.040Antiguo/históricoCap. 14.9
Sora398Sora SompengDe izquierda a derecha Sora Sompeng6.135Cap. 15.17
Soy329SoyomboDe izquierda a derecha Soyombo10.083Antiguo/históricoCap. 14.7
Sol362SundanésDe izquierda a derecha Sundanés5.172Cap. 17.7
Sueño274SunuwarDe izquierda a derechaSunuwar16.044
Silòn316Syloti NagriDe izquierda a derecha Syloti Nagri4.145Antiguo/históricoCap. 15.1
Sirc135Siríacoescritura de derecha a izquierda Siríaco3.088Incluye variantes tipográficas Estrangelo (véase § Syre), occidental (§ Syrj) y oriental (§ Syrn)Cap. 9.3
Sirena138Siríaco (variante de Estrangelo)mezcladoZZ — Variante tipográfica del siríaco (véase § Syrc)
Siri137Siríaco (variante occidental)mezcladoZZ — Variante tipográfica del siríaco (véase § Syrc)
Sírvase136Siríaco (variante oriental)mezcladoZZ — Variante tipográfica del siríaco (véase § Syrc)
Etiqueta373TagbanwaDe izquierda a derecha Tagbanwa3.218Cap. 17.1
Takr321Takri, Ṭākrī, ṬāṅkrīDe izquierda a derecha Takri6.168Cap. 15.4
Cuento353Tai LeDe izquierda a derecha Tai Le4.035Cap. 16.5
Talú354Nuevo Tai LueDe izquierda a derecha Nuevo Tai Lue4.183Cap. 16.6
Tamil346TamilDe izquierda a derecha Tamil1.0123Cap. 12.6
Espiga520Tangutvertical de derecha a izquierda, de izquierda a derecha Tangut9.06,914Antiguo/históricoCap. 18.11
Tavt359Tai VietnamDe izquierda a derecha Tai Vietnam5.272Cap. 16.8
Tayo380TaiyoDe arriba a abajo, columnas de derecha a izquierdaZZ — No está en Unicode, la propuesta está madura [ii]
Telú340TéluguDe izquierda a derecha Télugu1.0100Cap. 12.7
Teng290TengwarDe izquierda a derechaZZ — No está en Unicode
Travesura120Tifinagh (bereber)escritura de izquierda a derecha, de derecha a izquierda , de arriba a abajo, de abajo a arriba Tifinagh4.159Cap. 19.3
Tglg370Tagalo (Baybayin, Alibata)De izquierda a derecha Tagalo3.223Cap. 17.1
Gracias170Taanaescritura de derecha a izquierda Taana3.050Cap. 13.1
tailandés352tailandésDe izquierda a derecha tailandés1.086Cap. 16.1
Tibio330tibetanoDe izquierda a derecha tibetano2.0207Agregado en 1.0, eliminado en 1.1 y reintroducido en 2.0Cap. 13.4
Tirh326TirhutaDe izquierda a derecha Tirhuta7.082Cap. 15.11
Tnsa275TangsaDe izquierda a derechaTangsa14.089Cap. 13.18
Todr229TodhriDe derecha a izquierdaTodhri16.052Antiguo/histórico
Tols299Tolong SikiDe izquierda a derechaZZ — No está en Unicode, la propuesta está madura [ii]
Toto294TotoDe izquierda a derechaToto14.031Cap. 13.17
Tutg341Tulu-TigalariDe izquierda a derechaTulu Tigalari16.080
Ugar040UgaríticoDe izquierda a derecha Ugarítico4.031Antiguo/históricoCap. 11.2
Vaii470VaiDe izquierda a derecha Vai5.1300Cap. 19.5
Visera280Discurso visibleDe izquierda a derechaZZ — No está en Unicode
Con228VithkuqiDe izquierda a derechaVithkuqi14.070Antiguo/históricoCap. 8.12
Guerra262Barrio Citi (Varang Kshiti)De izquierda a derecha Ciudad del centro7.084Cap. 13.9
¿Quién?283WanchoDe izquierda a derecha Wancho12.059Cap. 13.16
Lobo480WoleaimezcladoZZ — No está en Unicode, se explora la propuesta [i]
Xpeo030Persa antiguoDe izquierda a derecha Persa antiguo4.150Antiguo/históricoCap. 11.3
Xsux020Cuneiforme, sumero-acadioDe izquierda a derecha Cuneiforme5.01.234Antiguo/históricoCap. 11.1
Yezi192Yezidíescritura de derecha a izquierda Yezidí13.047Antiguo/históricoCap. 9.6
Yiii460YDe izquierda a derecha Y3.01.220Cap. 18.7
Zanb339Plaza Zanabazar (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, escritura cuadrada horizontal)De izquierda a derecha Plaza Zanabazar10.072Antiguo/históricoCap. 14.6
Zinh994Código para script heredadoHeredado657
Zmth995Notación matemáticaZZ — No es un 'script' en Unicode
Zsym996SímbolosZZ — No es un 'script' en Unicode
Zsye993Símbolos (variante emoji)ZZ — No es un 'script' en Unicode
Zxxx997Código para documentos no escritosZZ — No es un 'script' en Unicode
Zyyy998Código para script indeterminadoComún9,053
Zzzzz999Código para script sin codificarDesconocido959.049En Unicode: todos los demás puntos de código
Notas
  1. ^
    Publicaciones ISO 15924 A partir del 12 de septiembre de 2023[actualizar]
  2. ^
    Archivo de texto normativo ISO 15924 A partir del 12 de septiembre de 2023[actualizar]
  3. ^
    Cambios en la norma ISO 15924 (incluidos los alias para Unicode; a partir del 12 de septiembre de 2023 [actualizar])
  4. ^
    Versión Unicode 16.0
  5. ^
    Gráficos Unicode
  6. ^
    Unicode utiliza el "Alias ​​de valor de propiedad" (Alias) como nombre de script. Estos nombres de alias son parte de Unicode y se publican de manera informativa junto con la norma ISO 15924. Se puede utilizar un nombre de script de alias en el nombre de un carácter: Palm, Palmyrene → U+10860 𐡠 PALMYRENE LETTER ALEPH .
  7. ^
    En Unicode, la escritura fenicia está destinada a la representación de texto en paleohebreo , fenicio arcaico, fenicio , arameo temprano , cursiva fenicia tardía, papiros fenicios, hebreo de Siloé , sellos hebreos , amonita , moabita y púnico . [v]
Referencias
  1. ^ abcdefghi «Lista SEI de scripts aún no codificados». Consorcio Unicode . Marzo de 2023. Consultado el 25 de septiembre de 2023 .
  2. ^ abcd "Unicode Pipeline § Puntos de código asignados provisionalmente para propuestas maduras". Consorcio Unicode. 2023-09-12 . Consultado el 2023-09-25 .
  3. ^ Michael Everson (18 de septiembre de 1997). "Propuesta para codificar el klingon en el plano 1 de la norma ISO/IEC 10646-2".
  4. ^ El Consorcio Unicode (14 de agosto de 2001). "Actas aprobadas de la reunión conjunta UTC 87/L2 184".
  5. ^ "Oriente Medio II, Escrituras antiguas" (PDF) . 15.0.0. El Consorcio Unicode . Consultado el 25 de septiembre de 2023 .

Propiedades de normalización

Descomposiciones, tipo de descomposición, clase de combinación canónica, exclusiones de composición y más.

Edad

Age es la versión del estándar en la que se designó por primera vez el punto de código. El número de versión se abrevia con la numeración major.minor, aunque se utilizan números de versión más detallados: las versiones 4.0.0 y 4.0.1 se denominan 4.0 como Age. Según las versiones, Age puede ser del rango: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0, 12.0, 12.1, 13.0, 14.0, 15.0, 15.1 y 16.0. [21] Los valores largos para Edad comienzan con una V y utilizan un guión bajo en lugar de un punto: V1_1, por ejemplo. [2] Los puntos de código sin un valor de edad asignado específicamente tienen el valor "NA", con la forma larga "Sin asignar".

Obsoleto

Una vez que se ha definido un carácter, no se eliminará ni se reasignará. [22] Sin embargo, un carácter puede quedar obsoleto , lo que significa que "se desaconseja enérgicamente su uso". [23] A partir de la versión 15.1 de Unicode, los siguientes quince caracteres están obsoletos: [24]

Caracteres obsoletos en Unicode
Punto de códigoNombre del personajeAlternativa recomendadaObservaciones
U+0149LETRA N MINÚSCULA LATINA PRECEDIDA POR APÓSTROFEU+02BC U+006Enorte
U+0673LETRA ÁRABE ALEF CON HAMZA ONDULADA DEBAJOU+0627U+065Fاٟ
U+0F77SIGNO VOCAL TIBETANO VOCÁLICA RRU+0FB2U+0F81 [a]ྲཱྀ
U+0F79SIGNO VOCAL TIBETANO VOCÁLICA LLU+0FB3U+0F81 [a]ླཱྀ
U+17A3VOCAL INDEPENDIENTE KHMER QAQU+17A2
U+17A4VOCAL INDEPENDIENTE KHMER QAAU+17A2 U+17B6
U+206AINHIBIR EL INTERCAMBIO SIMÉTRICONinguna [b]
U+206BACTIVAR EL INTERCAMBIO SIMÉTRICONinguna [b]
U+206CINHIBIR LA CONFORMACIÓN DE FORMAS ÁRABESNinguna [b]
U+206DACTIVAR LA FORMA ÁRABENinguna [b]
U+206EFORMAS DE DÍGITOS NACIONALESNinguna [b]
U+206FFORMAS DE DÍGITOS NOMINALESNinguna [b]
U+2329SOPORTE ANGULAR QUE APUNTA A LA IZQUIERDAU+3008 [c]U+27E8 El SOPORTE ANGULAR IZQUIERDO MATEMÁTICO se recomienda para usos matemáticos y otros usos técnicos.
U+232ASOPORTE ANGULAR CON ORIENTACIÓN A LA DERECHAU+3009 [c] El soporte de ángulo recto U+27E9 se recomienda para usos matemáticos y otros usos técnicos.
U+E0001ETIQUETA DE IDIOMANinguna [d]
  1. ^ ab U+0F81 ཱ ྀ EL SIGNO VOCAL TIBETANO INVERTIDO II no se recomienda (pero no se desaprueba) y es canónicamente equivalente a la secuencia U+0F71 U+0F80.
  2. ^ abcdef En lugar de utilizar este carácter de control para indicar la apariencia apropiada del texto, se deben utilizar códigos de caracteres apropiados con el estado correcto. [25]
  3. ^ ab Este carácter alternativo se encuentra en el bloque de símbolos y puntuación CJK y no es adecuado para uso matemático o técnico.
  4. ^ Se deberían utilizar en su lugar medios alternativos de etiquetado de idioma. [26]

Límites

El estándar Unicode especifica las siguientes propiedades relacionadas con los límites:

  • Clúster de grafemas
  • Palabra
  • Línea
  • Oración

Nombre de alias

Unicode puede asignar nombres de alias a los puntos de código. Estos nombres son únicos respecto de todos los nombres (incluidos los normales), por lo que se pueden utilizar como identificadores. Existen cinco posibles motivos para añadir un alias:

1. Abreviatura
Abreviaturas o acrónimos comunes para códigos de control, caracteres de formato, espacios y selectores de variaciones.
Por ejemplo, U+00A0 NO-BREAK SPACE tiene el alias NBSP . A veces se presenta en un cuadro:  
PNBSP
.
2. Control
Los nombres ISO 6429 para las funciones de control C0 y C1 y otros nombres similares que aparecen comúnmente se agregan como un alias al carácter.
Por ejemplo, U+0008 <control-0008> tiene el alias BACKSPACE .
3. Corrección
Esta es una corrección de un "problema grave" en el nombre del personaje principal, generalmente un error.
Por ejemplo, U+2118SCRIPT CAPITAL P es en realidad una p minúscula , por lo que se le da el nombre de alias FUNCIÓN ELÍPTICA DE WEIERSTRASS : "en realidad, esto tiene la forma de una p caligráfica minúscula, a pesar de su nombre, y a través del alias se agrega la ortografía correcta". En las descripciones, con el símbolo precedente .
4. Alternativa
Un nombre alternativo ampliamente utilizado para un personaje.
Ejemplo: U+FEFF ESPACIO SIN INTERRUPCIÓN DE ANCHO CERO tiene MARCA DE ORDEN DE BYTES alternativa .
5. Figmento
Varias etiquetas documentadas para puntos de código de control C1 que en realidad nunca fueron aprobados en ninguna norma ( figment = fingido, en ficción).
Por ejemplo, U+0099 <control-0099> tiene el alias de figment SINGLE GRAPHIC CHARACTER INTRODUCER . Este nombre es un concepto arquitectónico de los primeros borradores de ISO/IEC 10646-1, pero nunca fue aprobado ni estandarizado.
  • Base de datos de caracteres Unicode, anexo n.° 44, que explica las diferentes propiedades
  • UnicodeData.txt: una lista de todos los caracteres Unicode, con sus propiedades

Referencias

  1. ^ abcde «El estándar Unicode versión 16». El Consorcio Unicode. Septiembre de 2024. Consultado el 13 de septiembre de 2024 .
  2. ^ abc "Anexo n.° 44 del estándar Unicode: Base de datos de caracteres Unicode". Unicode . 27 de agosto de 2024.
  3. ^ "Anexo n.° 44 del estándar Unicode: Base de datos de caracteres Unicode, 4.2.3 Rangos de puntos de código". Unicode . 27 de agosto de 2024.
  4. ^ Datos Unicode.txt
  5. ^ "UCD: alias de nombres". Base de datos de caracteres Unicode . Consorcio Unicode. 24 de abril de 2024.
  6. ^ "Estándares de diseño de personajes: personajes espaciales". Estándares de diseño de personajes . Microsoft . 1998–1999. Archivado desde el original el 14 de marzo de 2010 . Consultado el 18 de mayo de 2009 .
  7. ^ El estándar Unicode 5.0, edición impresa, pág. 205; también disponible en «Capítulo 6: sistemas de escritura y puntuación» (PDF) . El estándar Unicode 5.0, edición electrónica. Consorcio Unicode . 14 de julio de 2006. pág. 11 (205) . Consultado el 22 de diciembre de 2022 .
  8. ^ "Puntuación general" (PDF) . El estándar Unicode 5.1 . Unicode Inc . 1991–2008 . Consultado el 13 de mayo de 2009 .
  9. ^ Sargent, Murray III (29 de agosto de 2006). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)" (Codificación de texto casi sin formato Unicode de matemáticas (versión 2)). Nota técnica Unicode n.° 28. Unicode Inc. , págs. 19-20 . Consultado el 19 de mayo de 2009 .
  10. ^ Gillam, Richard (2002). Unicode desmitificado: una guía práctica para programadores sobre el estándar de codificación . Addison-Wesley. ISBN 0-201-70052-2.
  11. ^ ab Hickson, Ian . "12.5 Referencias de caracteres con nombre". Estándar HTML . WHATWG .
  12. ^ Wolfram . "\[NegativeThickSpace]". Documentación del lenguaje Wolfram .
  13. ^ Wolfram . "\[EspacioMedioNegativo]". Documentación del lenguaje Wolfram .
  14. ^ Wolfram . "\[NegativeThinSpace]". Documentación del lenguaje Wolfram .
  15. ^ Wolfram . "\[NegativeVeryThinSpace]". Documentación del lenguaje Wolfram .
  16. ^ Faltstrom, P., ed. (agosto de 2010). "Zero Width Non-Joiner". Puntos de código Unicode y nombres de dominio internacionalizados para aplicaciones (IDNA). IETF . sec. A.1. doi : 10.17487/RFC5892 . RFC 5892 . Consultado el 4 de septiembre de 2019 .
  17. ^ Faltstrom, P., ed. (agosto de 2010). "Zero Width Joiner". Puntos de código Unicode y nombres de dominio internacionalizados para aplicaciones (IDNA). IETF . sec. A.2. doi : 10.17487/RFC5892 . RFC 5892 . Consultado el 4 de septiembre de 2019 .
  18. ^ "Anexo n.° 44 del estándar Unicode, base de datos de caracteres Unicode".
  19. ^ ab "Anexo n.° 9 del estándar Unicode: algoritmo bidireccional Unicode". El estándar Unicode . 2 de septiembre de 2024.
  20. ^ "Anexo n.° 24 del estándar Unicode: propiedad de escritura Unicode". El estándar Unicode . 2024-07-31.
  21. ^ "UCD: Edad derivada". Base de datos de caracteres Unicode . Consorcio Unicode. 30 de abril de 2024.
  22. ^ "Políticas de estabilidad de codificación de caracteres Unicode". Unicode . Consorcio Unicode . 2024-01-09 . Consultado el 2024-01-13 . Una vez que se codifica un carácter, no se moverá ni se eliminará.
  23. ^ "El estándar Unicode, carácter D13 en desuso". 2024 . Consultado el 13 de septiembre de 2024 .
  24. ^ "PropList-16.0.0.txt". Unicode . Consorcio Unicode . 2024-05-31 . Consultado el 2024-09-13 .
  25. ^ "Capítulo 23.3: Caracteres de formato obsoletos". 2024 . Consultado el 13 de septiembre de 2024 .
  26. ^ "23.9: Caracteres de etiqueta, uso obsoleto para el etiquetado de idiomas". 2024 . Consultado el 13 de septiembre de 2024 .
Obtenido de "https://es.wikipedia.org/w/index.php?title=Propiedad_de_carácter_Unicode&oldid=1247233202"