Punto de código

Valor numérico que representa un carácter en un conjunto de caracteres codificados

Un punto de código , punto de código o posición de código es una posición particular en una tabla , a la que se le ha asignado un significado. La tabla puede ser unidimensional (una columna), bidimensional (como las celdas de una hoja de cálculo), tridimensional (las hojas de un libro de trabajo), etc., en cualquier número de dimensiones.

Técnicamente, un punto de código es una posición única en un espacio n-dimensional cuantificado, donde se le ha asignado un significado semántico. La tabla tiene posiciones discretas (enteras) y positivas (1, 2, 3, 4, pero no fracciones).

Los puntos de código se utilizan en una multitud de normas formales de procesamiento de información y telecomunicaciones. [1] [2] Por ejemplo, la Recomendación UIT-T T.35 [3] contiene un conjunto de códigos de país para equipos de telecomunicaciones (originalmente máquinas de fax) que permiten que los equipos indiquen su país de fabricación u operación. En la Recomendación T.35, Argentina está representada por el punto de código 0x07, Canadá por 0x20, Gambia por 0x41, etc.

En codificación de caracteres

Los puntos de código se utilizan comúnmente en la codificación de caracteres , donde un punto de código es un valor numérico que se asigna a un carácter específico . En la codificación de caracteres, los puntos de código suelen representar un solo grafema (normalmente una letra, un dígito, un signo de puntuación o un espacio en blanco), pero a veces representan símbolos, caracteres de control o formato. [4] El conjunto de todos los puntos de código posibles dentro de una codificación/conjunto de caracteres determinado compone el espacio de código de esa codificación . [5] [6]

Por ejemplo, el esquema de codificación de caracteres ASCII comprende 128 puntos de código en el rango de 0 hexadecimal a 7F hexadecimal , el ASCII extendido comprende 256 puntos de código en el rango de 0 hexadecimal a FF hexadecimal , y Unicode comprende 1.114.112 puntos de código en el rango de 0 hexadecimal a 10FFFF hexadecimal . El espacio de código Unicode se divide en diecisiete planos (el plano multilingüe básico y 16 planos suplementarios), cada uno con 65.536 (= 2 16 ) puntos de código. Por lo tanto, el tamaño total del espacio de código Unicode es 17 × 65.536 = 1.114.112.

En Unicode

En el caso de Unicode, la secuencia particular de bits se denomina unidad de código : en la codificación UCS-4 , cualquier punto de código se codifica como números binarios de 4 bytes ( octetos ) , mientras que en la codificación UTF-8 , los diferentes puntos de código se codifican como secuencias de uno a cuatro bytes de longitud, formando un código autosincronizado . Consulte la comparación de codificaciones Unicode para obtener más detalles. Los puntos de código normalmente se asignan a caracteres abstractos . Un carácter abstracto no es un glifo gráfico, sino una unidad de datos textuales. Sin embargo, los puntos de código también se pueden dejar reservados para una asignación futura (la mayor parte del espacio de código Unicode no está asignado) o se les pueden asignar otras funciones designadas. [ cita requerida ]

La distinción entre un punto de código y el carácter abstracto correspondiente no es pronunciada en Unicode, pero es evidente para muchos otros esquemas de codificación, donde pueden existir numerosas páginas de códigos para un único espacio de código. [ cita requerida ]

Historia

El concepto de punto de código se remonta a los primeros estándares para el procesamiento de información digital y las telecomunicaciones digitales.

En Unicode, los puntos de código son parte de la solución de Unicode a un enigma difícil que enfrentaron los desarrolladores de codificación de caracteres en la década de 1980. [7] Si agregaran más bits por carácter para dar cabida a conjuntos de caracteres más grandes, esa decisión de diseño también constituiría un desperdicio inaceptable de recursos informáticos entonces escasos para los usuarios de escritura latina (que constituían la gran mayoría de los usuarios de computadoras en ese momento), ya que esos bits adicionales siempre se pondrían a cero para dichos usuarios. [8] El punto de código evita este problema al romper la vieja idea de una correspondencia directa uno a uno entre caracteres y secuencias particulares de bits.

Véase también

Referencias

  1. ^ ETSI TS 101773 (sección 4), https://www.etsi.org/deliver/etsi_ts/101700_101799/101773/01.02.01_60/ts_101773v010201p.pdf
  2. ^ RFC4190 (sección 1), https://datatracker.ietf.org/doc/html/rfc4190
  3. ^ "T.35: Procedimiento para la asignación de códigos definidos por la UIT-T para instalaciones no estándar".
  4. ^ "The Unicode® Standard Version 11.0 – Core Specification" (PDF) . Consorcio Unicode . 30 de junio de 2018. p. 23. Archivado desde el original (PDF) el 19 de septiembre de 2018 . Consultado el 25 de diciembre de 2018 . Formato: Invisible pero afecta a los caracteres vecinos; incluye separadores de línea/párrafo
  5. ^ Unicode. «Glosario de términos Unicode». unicode.org . Consultado el 20 de marzo de 2023 .
  6. ^ "The Unicode® Standard Version 11.0 – Core Specification" (PDF) . Consorcio Unicode . 30 de junio de 2018. p. 22. Archivado desde el original (PDF) el 19 de septiembre de 2018 . Consultado el 25 de diciembre de 2018 . En una computadora, los caracteres abstractos se codifican internamente como números. Para crear una codificación de caracteres completa, es necesario definir la lista de todos los caracteres que se codificarán y establecer reglas sistemáticas sobre cómo los números representan los caracteres. El rango de números enteros que se utiliza para codificar los caracteres abstractos se denomina espacio de código. Un número entero particular en este conjunto se denomina punto de código. Cuando un carácter abstracto se asigna a un punto de código particular en el espacio de código, se lo denomina carácter codificado.
  7. ^ Constable, Peter (13 de junio de 2001). "Understanding Unicode™ - I". NRSI: Computers & Writing Systems . Archivado desde el original (html) el 16 de septiembre de 2010 . Consultado el 25 de diciembre de 2018 . A principios de la década de 1980, la industria del software estaba empezando a reconocer la necesidad de una solución a los problemas relacionados con el uso de múltiples estándares de codificación de caracteres. En Xerox se inició un trabajo particularmente innovador. La estación de trabajo Xerox Star utilizaba una codificación multibyte que le permitía admitir un único conjunto de caracteres con potencialmente millones de caracteres.
  8. ^ Mark Davis; Ken Whistler (23 de marzo de 2001). «Unicode Technical Standard #10 UNICODE COLLATION ALGORITHM». Consorcio Unicode . Archivado desde el original (html) el 25 de agosto de 2001. Consultado el 25 de diciembre de 2018. 6.2 Valores de peso grandes
  • Codepoints.net, un sitio dedicado a todo lo relacionado con caracteres, letras y Unicode
Obtenido de "https://es.wikipedia.org/w/index.php?title=Punto_código&oldid=1260544106"