Carácter precompuesto

Carácter acentuado con un único punto de código

Un carácter precompuesto (también llamado carácter compuesto o carácter descomponible ) es una entidad Unicode que también se puede definir como una secuencia de uno o más caracteres. Un carácter precompuesto puede representar típicamente una letra con un signo diacrítico , como é (letra latina e minúscula con acento agudo ). Técnicamente, é (U+00E9) es un carácter que se puede descomponer en una cadena equivalente de la letra base e (U+0065) y acento agudo combinado (U+0301). De manera similar, las ligaduras son precomposiciones de sus letras constituyentes o grafemas .

Los caracteres precompuestos son la solución tradicional para representar muchas letras especiales en varios conjuntos de caracteres . En Unicode, se incluyen principalmente para ayudar a los sistemas informáticos con compatibilidad Unicode incompleta, donde los caracteres descompuestos equivalentes pueden reproducirse de forma incorrecta.

Comparación de caracteres precompuestos y descompuestos

En el siguiente ejemplo, hay un apellido sueco común Åström escrito en dos métodos alternativos, el primero con una Å precompuesta (U+00C5) y ö (U+00F6), y el segundo usando una letra base descompuesta A (U+0041) con un anillo de combinación encima (U+030A) y una o (U+006F) con una diéresis de combinación (U+0308).

  1. Å str ö m (U+00C5U+0073 U+0074 U+0072U+00F6U+006D)
  2. Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

A excepción de los diferentes colores, las dos soluciones son equivalentes y deberían reproducirse de forma idéntica. Sin embargo, en la práctica, algunas implementaciones de Unicode aún tienen dificultades con los caracteres descompuestos. En el peor de los casos, la combinación de diacríticos puede ignorarse o reproducirse como caracteres no reconocidos después de sus letras base, ya que no están incluidos en todas las fuentes . Para superar los problemas, algunas aplicaciones pueden simplemente intentar reemplazar los caracteres descompuestos con los caracteres precompuestos equivalentes.

Sin embargo, con una fuente incompleta, los caracteres precompuestos también pueden ser problemáticos, especialmente si son más exóticos, como en el siguiente ejemplo (que muestra la palabra protoindoeuropea reconstruida para "perro"):

  1. ḱṷṓ n (U+1E31 U+1E77 U+1E53U+006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

En algunas situaciones, las letras k , u y o verdes precompuestas con diacríticos pueden aparecer como caracteres no reconocidos , o su apariencia tipográfica puede ser muy diferente de la letra n final sin diacrítico. En la segunda línea, las letras base deberían al menos aparecer correctamente incluso si no se pudieran reconocer los diacríticos combinados.

OpenType tiene la "etiqueta de característica" ccmp para definir glifos que son composiciones o descomposiciones que implican la combinación de caracteres.

Caracteres chinos

En teoría, la mayoría de los caracteres chinos codificados por la unificación Han y esquemas similares podrían tratarse como caracteres precompuestos, ya que pueden reducirse (descomponerse) a sus componentes radicales y fonéticos constituyentes con lenguajes de descripción de caracteres chinos . Tal enfoque podría reducir el número de caracteres en el conjunto de caracteres de decenas de miles a solo unos pocos miles. Por otro lado, un conjunto de caracteres descompuesto presentaría desafíos para el software de búsqueda y edición y requeriría más bytes de codificación por documento. Un desafío particular sería las proyecciones múltiples a múltiples entre el conjunto de caracteres descompuestos y el carácter precompuesto: un carácter precompuesto puede descomponerse en múltiples conjuntos diferentes de caracteres descompuestos, mientras que un conjunto de caracteres descompuestos podría contraerse en múltiples caracteres precompuestos diferentes. No hay ningún requisito estricto o restricciones con respecto a la posición relativa entre los componentes dentro de un carácter, la forma de variante y transformación (estrechar, ensanchar, estirar, rotar, etc.) aplicada a los componentes, ni el número de cada componente.

Véase también

Fuentes

  • El estándar Unicode, versión 5.2: conformidad (consulte la sección 3.7 para conocer la descomposición). El Consorcio Unicode, diciembre de 2009.
  • MSDN: Definición de un conjunto de caracteres. 8 de abril de 2010.
  • Formularios de normalización Unicode (Anexo n.° 15 del estándar Unicode®): http://unicode.org/reports/tr15/
  • Free Idg Serif, un derivado de la fuente FreeSerif con declaraciones añadidas de caracteres precompuestos.
Obtenido de "https://es.wikipedia.org/w/index.php?title=Carácter_precompuesto&oldid=1251024142"