MARC-8

Estándar de metadatos

El conjunto de caracteres MARC-8 es un estándar MARC utilizado en los registros bibliotecarios MARC-21 . [1] Los formatos MARC son estándares para la representación y comunicación de información bibliográfica y relacionada en forma legible por máquina, y se utilizan con frecuencia en los sistemas de bases de datos de bibliotecas . La codificación de caracteres ahora conocida como MARC-8 se introdujo en 1968 como parte del formato MARC. Originalmente basada en el alfabeto latino , de 1979 a 1983 la iniciativa JACKPHY ​​amplió el repertorio para incluir caracteres japoneses, árabes, chinos y hebreos (entre otros), con la posterior adición de escrituras cirílicas y griegas. Si un carácter no es representable en MARC-8 de un registro MARC-21, entonces se debe utilizar UTF-8 en su lugar. UTF-8 tiene soporte para muchos más caracteres que MARC-8, que rara vez se utiliza fuera de los datos de la biblioteca.

Detalles técnicos

MARC-8 utiliza una variante de la codificación ISO-2022 . Utiliza caracteres de escape para representar caracteres que van más allá del rango de caracteres ASCII de 7 bits .

Generalmente utiliza el mismo orden lógico BiDi que Unicode .

Los caracteres de combinación y los caracteres base se encuentran en un orden diferente al que se utiliza en Unicode. A continuación se muestran algunos ejemplos. Los caracteres de combinación no siempre se almacenan en orden inverso como en la normalización Unicode . El estándar MARC-21 describe los problemas de conversión a Unicode de MARC-8 con más detalle.

Desplegado

Personaje

Unicode

DNF

MARC-8
aa  a
aa  a

Estructura del código

La codificación ISO/IEC 2022 especifica una asignación de dos capas entre los códigos de caracteres y los caracteres mostrados. En MARC-8, los códigos de caracteres del rango gráfico ASCII de 7 bits (0x20–0x7F) se denominan códigos "G0", mientras que los códigos del rango "ASCII alto" (0xA0–0xFF) se denominan códigos "G1". Los conjuntos de caracteres gráficos se designan e invocan mediante una secuencia de escape de varios bytes que consta del carácter de escape, una secuencia de caracteres intermedios y un carácter final en la forma ESC I F .

La siguiente tabla muestra el byte intermedio después del byte ESC (hexadecimal 1B) y los caracteres ASCII correspondientes.

Bytes intermedios [2]
Conjunto G0Conjunto G1
Sociedad de Críticos de California (SBCC)MBCSSociedad de Críticos de California (SBCC)MBCS
Norma ISO-202228(24$29)24 29$)
ISO-2022 alternativo (conjuntos adicionales de 63+16)2C,24 2C$,2D-24 2D$-

La siguiente tabla muestra los bytes finales en hexadecimal y los caracteres ASCII correspondientes después de los bytes intermedios.

Bytes finales [2]
BytesPersonajesNombreTipoComentario
311Chino, japonés, coreano ( EACC )MBCS
322Hebreo básicoSociedad de Críticos de California (SBCC)
333Árabe básicoSociedad de Críticos de California (SBCC)
344Árabe extendidoSociedad de Críticos de California (SBCC)
42BLatín básico ( ASCII )Sociedad de Críticos de California (SBCC)
21 45!MILatín extendido ( ANSEL )Sociedad de Críticos de California (SBCC)El 21(hex) técnicamente es un segundo byte del segmento intermedio de esta secuencia de escape.
4EnorteCirílico básicoSociedad de Críticos de California (SBCC)
51QCirílico extendidoSociedad de Críticos de California (SBCC)
53SGriego básico ( ISO 5428 )Sociedad de Críticos de California (SBCC)

EACC es la única codificación multibyte de MARC-8, codifica cada carácter CJK en tres bytes ASCII.

Por ejemplo, para codificar el carácter CJK U+4EBA (人) necesitará los siguientes bytes

\x1B\x24\x31\x21\x30\x64

El \x1B\x24\x31 cambia a EACC/CJK, y el \x21\x30\x64 corresponde al U+4EBA.

Extensión de conjunto personalizado

Además de los conjuntos de caracteres ISO-2022, también están disponibles los siguientes conjuntos personalizados. La designación del byte sigue al byte de escape (hexadecimal 1B). No hay ningún byte intermedio.

Bytes finales [2]
BytesPersonajesNombreTipoComentario
62bConjunto de subíndicesSociedad de Críticos de California (SBCC)
67gramoConjunto de símbolos griegosSociedad de Críticos de California (SBCC)Los caracteres alfa, beta y gamma normalmente no se asignan en forma ida y vuelta a Unicode.
70pagConjunto de superíndicesSociedad de Críticos de California (SBCC)
73sLatín básico ( ASCII )Sociedad de Críticos de California (SBCC)

Códigos de control de CO

MARC 21 utiliza GS (0x1D) como terminador de registro, RS (0x1E) como terminador de campo y US (0x1F) como delimitador de subcampo. [3]

Códigos de control C1

El siguiente conjunto de códigos de control C1 alternativos se define para aplicaciones bibliográficas como los sistemas de bibliotecas . Se ocupa principalmente de la intercalación de cadenas y del marcado de campos bibliográficos. Se definen variantes ligeramente diferentes en la norma alemana DIN 31626 [4] (publicada en 1978 y retirada desde entonces) [5] y en la norma ISO ISO 6630 [6] [ 7], la última de las cuales también se ha adoptado en Alemania como DIN ISO 6630 [8] . En la tabla siguiente se indica dónde difieren, cuando corresponde. MARC-8 utiliza la codificación de NSB y NSE de este conjunto, y añade algunos efectores de formato adicionales en ubicaciones no utilizadas por la versión ISO; sin embargo, MARC 21 utiliza este conjunto de control solo en registros MARC-8, no en registros con formato Unicode [3] .

Si se utiliza el mecanismo de extensión ISO/IEC 20220x1B 0x22 0x45 , el conjunto DIN 31626 se designa como el conjunto de caracteres de control C1 activo con la secuencia ( ESC " E), [4] y el conjunto ISO 6630 / DIN ISO 6630 se designa con la secuencia 0x1B 0x22 0x42( ESC " B). [6] La expansión de 1985 del conjunto ISO 6630 también se puede especificar explícitamente utilizando la secuencia 0x1B 0x26 0x40 0x1B 0x22 0x42( ESC & @ ESC " B). [7]

Esc+DicMaleficioAcroNombreDescripción [4] [6] [7]
GRAMO13587CUSPrimer plano para clasificar(DIN 31626, ISO 6630) Declara que dos secuencias de caracteres sucesivas separadas por un espacio o separador deben tratarse como una sola palabra para fines de clasificación.
yo13688NSBLos caracteres que no se clasifican comienzan(DIN 31626, ISO 6630, MARC 21) Marca el comienzo de una secuencia de caracteres que se deben ignorar para fines de intercalación. MARC 21 utiliza este carácter en registros MARC-8, pero utiliza 0x98 ( SOS ) en registros Unicode para el mismo propósito. [3] [9]
I13789NSEFinal de caracteres no clasificados(DIN 31626, ISO 6630, MARC 21) Marca el final de una secuencia de caracteres que se deben ignorar para fines de intercalación. MARC 21 utiliza este carácter en registros MARC-8, pero utiliza 0x9C ( ST ) en registros Unicode para el mismo propósito. [3] [9]
Yo1388AFILIPINASPersonaje de relleno(DIN 31626) Sustituye un carácter alfanumérico obligatorio en un campo.
K1398BTCIIndicador de etiqueta en contexto(DIN 31626) Dentro de un campo bibliográfico, se utiliza para referirse a datos en otro campo bibliográfico por su número de etiqueta.
Partido Liberal DemocráticoLínea parcial caída(ISO 6630) No está en la edición original de ISO 6630. [6] En la edición de 1985 de ISO 6630, [7] se utiliza para línea parcial caída (ver PLD ).
yo1408CICIIndicador de número de identificación en contexto(DIN 31626) Dentro de un campo bibliográfico, se utiliza para referirse a datos de otro registro bibliográfico por su número de identificación.
MásAlineación parcial(ISO 6630) No está en la edición original de ISO 6630. [6] En la edición de 1985 de ISO 6630, [7] se utiliza para alineación parcial (ver PLU ).
METRO1418DOSC [a]Silabificación opcional [b] Control(DIN 31626) Marca el límite silábico de una palabra larga. Véase también guión suave .
ZWJCarpintero(MARC 21) En MARC-8, se utiliza para el conector de ancho cero , mientras que U+200D se utiliza en registros MARC con formato Unicode. [3] [9]
norte1428ESS2Turno único 2(DIN 31626) Código de cambio sin bloqueo, ver SS2 .
ZWNJNo afiliado(MARC 21) En MARC-8, se utiliza para el non-joiner de ancho cero , mientras que U+200C se utiliza en registros MARC con formato Unicode. [3] [9]
Oh1438FSS3Turno único 3(DIN 31626) Código de cambio sin bloqueo, ver SS3 .
PAG14490-(reservado)
Q14591EABAnotación incrustada al principio(DIN 31626, ISO 6630) Marca el inicio de una anotación de longitud variable que está incrustada dentro de un campo bibliográfico, en lugar de estar separada mediante la designación de contenido.
R14692EAEFin de anotación incrustada(DIN 31626, ISO 6630) Marca el final de una anotación incrustada de longitud variable.
S14793BSIEspecificación del artículo Inicio(DIN 31626) Marca el inicio de una cadena de información específica de algún tipo, distinta de una palabra clave o una cadena de permutación.
yo14894ISEFin de la especificación del artículo(DIN 31626) Marca el final de una cadena de información específica.
14995HERMANOOrdenación Interpolación Inicio(ISO 6630) Marca el comienzo de una secuencia de caracteres que se utiliza únicamente con fines de clasificación.
V15096SIEFin de la interpolación de ordenación(ISO 6630) Marca el final de una secuencia de caracteres utilizados únicamente con fines de clasificación.
Yo15197SSBValor de ordenación secundaria inicial(ISO 6630) Marca el inicio de una cadena con un valor de intercalación subordinado.
incógnita15298ESSValor de ordenación secundaria final(ISO 6630) Marca el final de una cadena con un valor de intercalación subordinado.
Y15399Indicador de carácter no estándar(DIN 31626) Identifica un siguiente carácter no estándar.
O1549A-(reservado)
[1559B-(reservado)
\1569CKWBComienzo de la palabra clave(DIN 31626, ISO 6630) Marca el inicio de una palabra clave dentro de un campo bibliográfico.
]1579DKWEPalabra clave Fin(DIN 31626, ISO 6630) Marca el final de una palabra clave dentro de un campo bibliográfico.
^1589EBSPPermutación de cadena de inicio(DIN 31626, ISO 6630) Marca el inicio de una cadena que se permutará al principio del elemento cuando se generen referencias o índices . Termina con PSE o con el final del elemento.
_1599FPSEFin de la cadena de permutación(DIN 31626, ISO 6630) Marca el final de una cadena que se va a permutar al frente del elemento.

Notas

  1. ^ No es lo mismo que el comando del sistema operativo (OSC) en el conjunto de códigos ISO/IEC 6429 C1.
  2. ^ En el documento ISO-IR-040 se escribe "syllabication [ sic ]" y en la descripción "syllable" se escribe "syllabe [ sic ]". Se supone que se trata de errores tipográficos.

Referencias

  1. ^ "Conjuntos de caracteres: Introducción: Especificaciones MARC 21 para estructura de registros, conjuntos de caracteres y medios de intercambio (Biblioteca del Congreso)". Biblioteca del Congreso .
  2. ^ abc "Conjuntos de caracteres: entorno de codificación MARC-8: especificaciones MARC 21 para estructura de registros, conjuntos de caracteres y medios de intercambio (Biblioteca del Congreso)". Biblioteca del Congreso .
  3. ^ abcdef "Códigos de función de control". Especificaciones MARC 21 para estructura de registros, conjuntos de caracteres y medios de intercambio . Biblioteca del Congreso . 2007-12-04.
  4. ^ abc DIN (1979-07-15). Códigos de control adicionales para uso bibliográfico según la norma alemana DIN 31626 (PDF) . ITSCJ/ IPSJ . ISO-IR -40.
  5. ^ "Procesamiento de información; caracteres de control bibliográfico". Beuth: publicación DIN. DIN 31626:1978-12.
  6. ^ abcde ISO/TC 46 (1983-06-01). Códigos de control adicionales para uso bibliográfico según la norma internacional ISO 6630 (PDF) . ITSCJ/ IPSJ . ISO-IR -67.{{citation}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
  7. ^ abcde ISO/TC 46 (1986-02-01). Códigos de control adicionales para uso bibliográfico según la norma internacional ISO 6630 (PDF) . ITSCJ/ IPSJ . ISO-IR -124.{{citation}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
  8. ^ "DIN ISO 6630 diciembre de 1997". Tienda Online de Ediciones AFNOR .
  9. ^ abcd "Tabla de códigos latinos ampliada (ANSEL)". Especificaciones MARC 21 para estructura de registros, conjuntos de caracteres y medios de intercambio . Biblioteca del Congreso . 5 de diciembre de 2007.
Obtenido de "https://es.wikipedia.org/w/index.php?title=MARC-8&oldid=1248028862"