El conjunto de caracteres MARC-8 es un estándar MARC utilizado en los registros bibliotecarios MARC-21 . [1] Los formatos MARC son estándares para la representación y comunicación de información bibliográfica y relacionada en forma legible por máquina, y se utilizan con frecuencia en los sistemas de bases de datos de bibliotecas . La codificación de caracteres ahora conocida como MARC-8 se introdujo en 1968 como parte del formato MARC. Originalmente basada en el alfabeto latino , de 1979 a 1983 la iniciativa JACKPHY amplió el repertorio para incluir caracteres japoneses, árabes, chinos y hebreos (entre otros), con la posterior adición de escrituras cirílicas y griegas. Si un carácter no es representable en MARC-8 de un registro MARC-21, entonces se debe utilizar UTF-8 en su lugar. UTF-8 tiene soporte para muchos más caracteres que MARC-8, que rara vez se utiliza fuera de los datos de la biblioteca.
MARC-8 utiliza una variante de la codificación ISO-2022 . Utiliza caracteres de escape para representar caracteres que van más allá del rango de caracteres ASCII de 7 bits .
Generalmente utiliza el mismo orden lógico BiDi que Unicode .
Los caracteres de combinación y los caracteres base se encuentran en un orden diferente al que se utiliza en Unicode. A continuación se muestran algunos ejemplos. Los caracteres de combinación no siempre se almacenan en orden inverso como en la normalización Unicode . El estándar MARC-21 describe los problemas de conversión a Unicode de MARC-8 con más detalle.
Desplegado Personaje | Unicode | MARC-8 |
---|---|---|
a | a | a |
a | a | a |
La codificación ISO/IEC 2022 especifica una asignación de dos capas entre los códigos de caracteres y los caracteres mostrados. En MARC-8, los códigos de caracteres del rango gráfico ASCII de 7 bits (0x20–0x7F) se denominan códigos "G0", mientras que los códigos del rango "ASCII alto" (0xA0–0xFF) se denominan códigos "G1". Los conjuntos de caracteres gráficos se designan e invocan mediante una secuencia de escape de varios bytes que consta del carácter de escape, una secuencia de caracteres intermedios y un carácter final en la forma ESC I F .
La siguiente tabla muestra el byte intermedio después del byte ESC (hexadecimal 1B) y los caracteres ASCII correspondientes.
Conjunto G0 | Conjunto G1 | |||||||
---|---|---|---|---|---|---|---|---|
Sociedad de Críticos de California (SBCC) | MBCS | Sociedad de Críticos de California (SBCC) | MBCS | |||||
Norma ISO-2022 | 28 | ( | 24 | $ | 29 | ) | 24 29 | $) |
ISO-2022 alternativo (conjuntos adicionales de 63+16) | 2C | , | 24 2C | $, | 2D | - | 24 2D | $- |
La siguiente tabla muestra los bytes finales en hexadecimal y los caracteres ASCII correspondientes después de los bytes intermedios.
Bytes | Personajes | Nombre | Tipo | Comentario |
---|---|---|---|---|
31 | 1 | Chino, japonés, coreano ( EACC ) | MBCS | |
32 | 2 | Hebreo básico | Sociedad de Críticos de California (SBCC) | |
33 | 3 | Árabe básico | Sociedad de Críticos de California (SBCC) | |
34 | 4 | Árabe extendido | Sociedad de Críticos de California (SBCC) | |
42 | B | Latín básico ( ASCII ) | Sociedad de Críticos de California (SBCC) | |
21 45 | !MI | Latín extendido ( ANSEL ) | Sociedad de Críticos de California (SBCC) | El 21(hex) técnicamente es un segundo byte del segmento intermedio de esta secuencia de escape. |
4E | norte | Cirílico básico | Sociedad de Críticos de California (SBCC) | |
51 | Q | Cirílico extendido | Sociedad de Críticos de California (SBCC) | |
53 | S | Griego básico ( ISO 5428 ) | Sociedad de Críticos de California (SBCC) |
EACC es la única codificación multibyte de MARC-8, codifica cada carácter CJK en tres bytes ASCII.
Por ejemplo, para codificar el carácter CJK U+4EBA (人) necesitará los siguientes bytes
\x1B\x24\x31\x21\x30\x64
El \x1B\x24\x31 cambia a EACC/CJK, y el \x21\x30\x64 corresponde al U+4EBA.
Además de los conjuntos de caracteres ISO-2022, también están disponibles los siguientes conjuntos personalizados. La designación del byte sigue al byte de escape (hexadecimal 1B). No hay ningún byte intermedio.
Bytes | Personajes | Nombre | Tipo | Comentario |
---|---|---|---|---|
62 | b | Conjunto de subíndices | Sociedad de Críticos de California (SBCC) | |
67 | gramo | Conjunto de símbolos griegos | Sociedad de Críticos de California (SBCC) | Los caracteres alfa, beta y gamma normalmente no se asignan en forma ida y vuelta a Unicode. |
70 | pag | Conjunto de superíndices | Sociedad de Críticos de California (SBCC) | |
73 | s | Latín básico ( ASCII ) | Sociedad de Críticos de California (SBCC) |
MARC 21 utiliza GS (0x1D) como terminador de registro, RS (0x1E) como terminador de campo y US (0x1F) como delimitador de subcampo. [3]
El siguiente conjunto de códigos de control C1 alternativos se define para aplicaciones bibliográficas como los sistemas de bibliotecas . Se ocupa principalmente de la intercalación de cadenas y del marcado de campos bibliográficos. Se definen variantes ligeramente diferentes en la norma alemana DIN 31626 [4] (publicada en 1978 y retirada desde entonces) [5] y en la norma ISO ISO 6630 [6] [ 7], la última de las cuales también se ha adoptado en Alemania como DIN ISO 6630 [8] . En la tabla siguiente se indica dónde difieren, cuando corresponde. MARC-8 utiliza la codificación de NSB y NSE de este conjunto, y añade algunos efectores de formato adicionales en ubicaciones no utilizadas por la versión ISO; sin embargo, MARC 21 utiliza este conjunto de control solo en registros MARC-8, no en registros con formato Unicode [3] .
Si se utiliza el mecanismo de extensión ISO/IEC 20220x1B 0x22 0x45
, el conjunto DIN 31626 se designa como el conjunto de caracteres de control C1 activo con la secuencia ( ESC " E
), [4] y el conjunto ISO 6630 / DIN ISO 6630 se designa con la secuencia 0x1B 0x22 0x42
( ESC " B
). [6] La expansión de 1985 del conjunto ISO 6630 también se puede especificar explícitamente utilizando la secuencia 0x1B 0x26 0x40 0x1B 0x22 0x42
( ESC & @ ESC " B
). [7]
Esc+ | Dic | Maleficio | Acro | Nombre | Descripción [4] [6] [7] |
---|---|---|---|---|---|
GRAMO | 135 | 87 | CUS | Primer plano para clasificar | (DIN 31626, ISO 6630) Declara que dos secuencias de caracteres sucesivas separadas por un espacio o separador deben tratarse como una sola palabra para fines de clasificación. |
yo | 136 | 88 | NSB | Los caracteres que no se clasifican comienzan | (DIN 31626, ISO 6630, MARC 21) Marca el comienzo de una secuencia de caracteres que se deben ignorar para fines de intercalación. MARC 21 utiliza este carácter en registros MARC-8, pero utiliza 0x98 ( SOS ) en registros Unicode para el mismo propósito. [3] [9] |
I | 137 | 89 | NSE | Final de caracteres no clasificados | (DIN 31626, ISO 6630, MARC 21) Marca el final de una secuencia de caracteres que se deben ignorar para fines de intercalación. MARC 21 utiliza este carácter en registros MARC-8, pero utiliza 0x9C ( ST ) en registros Unicode para el mismo propósito. [3] [9] |
Yo | 138 | 8A | FILIPINAS | Personaje de relleno | (DIN 31626) Sustituye un carácter alfanumérico obligatorio en un campo. |
K | 139 | 8B | TCI | Indicador de etiqueta en contexto | (DIN 31626) Dentro de un campo bibliográfico, se utiliza para referirse a datos en otro campo bibliográfico por su número de etiqueta. |
Partido Liberal Democrático | Línea parcial caída | (ISO 6630) No está en la edición original de ISO 6630. [6] En la edición de 1985 de ISO 6630, [7] se utiliza para línea parcial caída (ver PLD ). | |||
yo | 140 | 8C | ICI | Indicador de número de identificación en contexto | (DIN 31626) Dentro de un campo bibliográfico, se utiliza para referirse a datos de otro registro bibliográfico por su número de identificación. |
Más | Alineación parcial | (ISO 6630) No está en la edición original de ISO 6630. [6] En la edición de 1985 de ISO 6630, [7] se utiliza para alineación parcial (ver PLU ). | |||
METRO | 141 | 8D | OSC [a] | Silabificación opcional [b] Control | (DIN 31626) Marca el límite silábico de una palabra larga. Véase también guión suave . |
ZWJ | Carpintero | (MARC 21) En MARC-8, se utiliza para el conector de ancho cero , mientras que U+200D se utiliza en registros MARC con formato Unicode. [3] [9] | |||
norte | 142 | 8E | SS2 | Turno único 2 | (DIN 31626) Código de cambio sin bloqueo, ver SS2 . |
ZWNJ | No afiliado | (MARC 21) En MARC-8, se utiliza para el non-joiner de ancho cero , mientras que U+200C se utiliza en registros MARC con formato Unicode. [3] [9] | |||
Oh | 143 | 8F | SS3 | Turno único 3 | (DIN 31626) Código de cambio sin bloqueo, ver SS3 . |
PAG | 144 | 90 | - | (reservado) | |
Q | 145 | 91 | EAB | Anotación incrustada al principio | (DIN 31626, ISO 6630) Marca el inicio de una anotación de longitud variable que está incrustada dentro de un campo bibliográfico, en lugar de estar separada mediante la designación de contenido. |
R | 146 | 92 | EAE | Fin de anotación incrustada | (DIN 31626, ISO 6630) Marca el final de una anotación incrustada de longitud variable. |
S | 147 | 93 | BSI | Especificación del artículo Inicio | (DIN 31626) Marca el inicio de una cadena de información específica de algún tipo, distinta de una palabra clave o una cadena de permutación. |
yo | 148 | 94 | ISE | Fin de la especificación del artículo | (DIN 31626) Marca el final de una cadena de información específica. |
tú | 149 | 95 | HERMANO | Ordenación Interpolación Inicio | (ISO 6630) Marca el comienzo de una secuencia de caracteres que se utiliza únicamente con fines de clasificación. |
V | 150 | 96 | SIE | Fin de la interpolación de ordenación | (ISO 6630) Marca el final de una secuencia de caracteres utilizados únicamente con fines de clasificación. |
Yo | 151 | 97 | SSB | Valor de ordenación secundaria inicial | (ISO 6630) Marca el inicio de una cadena con un valor de intercalación subordinado. |
incógnita | 152 | 98 | ESS | Valor de ordenación secundaria final | (ISO 6630) Marca el final de una cadena con un valor de intercalación subordinado. |
Y | 153 | 99 | Cª | Indicador de carácter no estándar | (DIN 31626) Identifica un siguiente carácter no estándar. |
O | 154 | 9A | - | (reservado) | |
[ | 155 | 9B | - | (reservado) | |
\ | 156 | 9C | KWB | Comienzo de la palabra clave | (DIN 31626, ISO 6630) Marca el inicio de una palabra clave dentro de un campo bibliográfico. |
] | 157 | 9D | KWE | Palabra clave Fin | (DIN 31626, ISO 6630) Marca el final de una palabra clave dentro de un campo bibliográfico. |
^ | 158 | 9E | BSP | Permutación de cadena de inicio | (DIN 31626, ISO 6630) Marca el inicio de una cadena que se permutará al principio del elemento cuando se generen referencias o índices . Termina con PSE o con el final del elemento. |
_ | 159 | 9F | PSE | Fin de la cadena de permutación | (DIN 31626, ISO 6630) Marca el final de una cadena que se va a permutar al frente del elemento. |
{{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )