MIME / IANA | ISO-8859-1 |
---|---|
Alias(es) | iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819 |
Idioma(s) | Inglés , varios otros |
Estándar | ISO/IEC 8859 |
Clasificación | ASCII extendido , ISO/IEC 8859 |
Se extiende | ASCII de EE. UU. |
Residencia en | DEC MCS |
Sucedido por | |
Otras codificaciones relacionadas | |
ISO/IEC 8859-1:1998 , Tecnología de la información: Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits : Parte 1: Alfabeto latino n.º 1 , forma parte de la serie ISO/IEC 8859 de codificaciones de caracteres estándar basadas en ASCII , cuya primera edición se publicó en 1987. ISO/IEC 8859-1 codifica lo que denomina " alfabeto latino n.º 1 ", que consta de 191 caracteres del alfabeto latino . Este esquema de codificación de caracteres se utiliza en todo el continente americano , Europa occidental , Oceanía y gran parte de África . Es la base de algunos conjuntos de caracteres de 8 bits populares y de los dos primeros bloques de caracteres de Unicode .
A partir de julio de 2024 [actualizar], el 1,2% de todos los sitios web utilizan ISO/IEC 8859-1 . [1] [2] Es la codificación de caracteres de un solo byte más declarada, pero como los navegadores web y el estándar HTML5 [3] los interpretan como el superconjunto Windows-1252 , estos documentos pueden incluir caracteres de ese conjunto. Dependiendo del país o el idioma, el uso de sitios web puede ser superior al promedio mundial, en Brasil es del 3,4%, [4] y en Alemania del 2,7%. [5] [6]
ISO-8859-1 era (según el estándar, al menos) la codificación predeterminada de los documentos entregados a través de HTTP con un tipo MIME que comenzaba con text/
, la codificación predeterminada de los valores de ciertos encabezados HTTP descriptivos y definía el repertorio de caracteres permitidos en los documentos HTML 3.2. Está especificada por muchos otros estándares. [ ejemplo necesario ] En la práctica, la codificación de superconjunto Windows-1252 es la codificación predeterminada efectiva más probable [7] y es cada vez más común que los estándares (al menos de manera no oficial) [ aclaración necesaria ] establezcan de manera predeterminada UTF-8 .
ISO-8859-1 es el nombre preferido de IANA para este estándar cuando se complementa con los códigos de control C0 y C1 de ISO/IEC 6429. Los siguientes otros alias están registrados: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . La página de códigos 28591, también conocida como Windows-28591, se utiliza para este estándar en Windows. [8] IBM lo llama página de códigos 819 o CP819 ( CCSID 819 ). [9] [10] [11] [12] Oracle lo llama WE8ISO8859P1 . [13]
Cada carácter se codifica como un único valor de código de ocho bits. Estos valores de código se pueden utilizar en casi cualquier sistema de intercambio de datos para comunicarse en los siguientes idiomas (aunque pueden excluirse las comillas correctas , como en muchos idiomas, incluidos el alemán y el islandés ):
La norma ISO-8859-1 se utilizaba comúnmente [ cita requerida ] para ciertos idiomas, aunque carecía de caracteres utilizados por estos idiomas. En la mayoría de los casos, solo faltan algunas letras o se utilizan raramente, y se pueden reemplazar con caracteres que están en la norma ISO-8859-1 utilizando alguna forma de aproximación tipográfica . La siguiente tabla enumera dichos idiomas.
Idioma | Caracteres faltantes | Solución alternativa típica | Con el apoyo de |
---|---|---|---|
catalán | Ŀ , ŀ (en desuso) | L·, l· | |
danés | Ǿ , ǿ (el acento es opcional y ǿ es muy raro) | Ø, ø o øe | |
Holandés | IJ , ij (discutible); j́ en palabras enfatizadas como "blíj́f" | dígrafos IJ, ij o ÿ; blíjf | |
estonio , finlandés | Š , š, Ž , ž (solo presente en préstamos) | Sh, sh, zh, zh | ISO-8859-15 , Windows-1252 |
Francés | Œ , œ, y el muy raro Ÿ | dígrafos OE, oe; Y o Ý | ISO-8859-15 , Windows-1252 |
Alemán | ẞ (ß mayúscula, utilizada sólo en todas las mayúsculas) | dígrafo SS o SZ | |
húngaro | Ő , ő, Ű , ű | Ö, ö, Ü, ü Õ , õ, Û , û (los caracteres reemplazados en 8859-2 ) | ISO-8859-2 , Windows-1250 |
Irlandés ( ortografía tradicional ) | Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ | Bh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, th | ISO-8859-14 |
galés | Ẁ , ẁ, Ẃ , ẃ, Ŵ , ŵ, Ẅ , ẅ, Ỳ , ỳ, Ŷ , ŷ, Ÿ | W, w, Y, y, Ý, ý | ISO-8859-14 |
La letra ÿ , que en francés aparece muy raramente, sobre todo en nombres de ciudades como L'Haÿ-les-Roses y nunca al principio de palabras, se incluye únicamente en minúscula. El lugar correspondiente a su mayúscula lo ocupa la letra ß minúscula del idioma alemán, que no tenía mayúscula en el momento de la creación de la norma.
En algunos idiomas mencionados anteriormente, faltan las comillas« »
tipográficas correctas, ya que solo se incluyen , " "
y ' '
. Además, este esquema no permite comillas simples o dobles orientadas (en forma de 6 o 9). Algunas fuentes mostrarán el acento grave de espaciado (0x60) y el apóstrofo (0x27) como un par coincidente de comillas simples orientadas (consulte Comillas § Máquinas de escribir y primeras computadoras ), pero esto no se considera parte del estándar moderno.
La norma ISO 8859-1 se basó en el conjunto de caracteres multinacionales (MCS) utilizado por Digital Equipment Corporation (DEC) en el popular terminal VT220 en 1983. Se desarrolló en el seno de la Asociación Europea de Fabricantes de Ordenadores (ECMA) y se publicó en marzo de 1985 como ECMA-94 , [14] nombre por el que todavía se la conoce a veces. La segunda edición de ECMA-94 (junio de 1986) [15] también incluía las normas ISO 8859-2 , ISO 8859-3 e ISO 8859-4 como parte de la especificación.
El borrador original de la norma ISO 8859-1 colocaba las letras francesas Œ y œ en los puntos de código 215 (0xD7) y 247 (0xF7), como en el MCS. Sin embargo, el delegado de Francia, que no era ni lingüista ni tipógrafo, afirmó falsamente que no se trataba de letras francesas independientes por sí mismas, sino de simples ligaduras (como fi o fl ), con el apoyo del equipo de delegados de Bull Publishing Company, que no solía imprimir el francés con Œ/œ en su estilo de la casa en ese momento. Un delegado anglófono de Canadá insistió en conservar Œ/œ, pero fue rechazado por el delegado francés y el equipo de Bull. Estos puntos de código se rellenaron pronto con × y ÷ por sugerencia de la delegación alemana. El apoyo al francés se redujo aún más cuando se afirmó nuevamente falsamente que la letra ÿ "no es francesa", lo que dio como resultado la ausencia de la mayúscula Ÿ . De hecho, la letra ÿ se encuentra en varios nombres propios franceses, y la letra mayúscula se ha utilizado en diccionarios y enciclopedias. [16] Estos caracteres se agregaron a la norma ISO/IEC 8859-15:1999 . BraSCII coincide con el borrador original.
En 1985, Commodore adoptó ECMA-94 para su nuevo sistema operativo AmigaOS . [17] La impresora matricial de impacto Seikosha MP-1300AI, utilizada con el Amiga 1000, incluía esta codificación. [ cita requerida ]
En 1990, la primera versión de Unicode utilizó los puntos de código de ISO-8859-1 como los primeros 256 puntos de código Unicode.
En 1992, la IANA registró el mapa de caracteres ISO_8859-1:1987 , más conocido por su nombre MIME preferido de ISO-8859-1 (nótese el guión adicional sobre ISO 8859-1), un superconjunto de ISO 8859-1, para su uso en Internet . Este mapa asigna los códigos de control C0 y C1 a los valores de código no asignados, por lo que proporciona 256 caracteres a través de cada valor posible de 8 bits.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | do | D | mi | F | |
0x | ||||||||||||||||
1x | ||||||||||||||||
2x | ES | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | A | B | do | D | mi | F | GRAMO | yo | I | Yo | K | yo | METRO | norte | Oh |
5x | PAG | Q | R | S | yo | tú | V | Yo | incógnita | Y | O | [ | \ | ] | ^ | _ |
6x | ` | a | b | do | d | mi | F | gramo | yo | i | yo | a | yo | metro | norte | o |
7x | pag | q | a | s | a | tú | en | el | incógnita | y | el | { | | | } | ~ | |
8x | ||||||||||||||||
9x | ||||||||||||||||
Hacha | PNBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | TÍMIDO | ® | ¯ |
Bx | ° | ± | ² | ³ | " | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
Cx | A | A | A | A | A | A | A | DO | MI | MI | MI | MI | I | I | I | I |
Dx | D | NORTE | O | O | O | O | O | × | Ø | Ù | U | O | U | Yo | Þ | ß |
Ex | a | a | a | a | a | a | a | do | mi | mi | mi | mi | i | i | i | i |
Fx | d | norte | o | o | o | o | o | ÷ | ø | Un | tu | Un | ü | y | þ | ÿ |
Indefinido Símbolos y puntuación No definido en la primera versión de ECMA-94 (1985). [14] En el borrador original, Œ estaba en 0xD7 y œ estaba en 0xF7. |
La norma ISO/IEC 8859-15 se desarrolló en 1999 como una actualización de la norma ISO/IEC 8859-1. Proporciona algunos caracteres para texto en francés y finlandés y el símbolo del euro , que no se encuentran en la norma ISO/IEC 8859-1. Esto requirió la eliminación de algunos caracteres poco utilizados de la norma ISO/IEC 8859-1, incluidos los símbolos de fracción y los diacríticos sin letras: ¤
, ¦
, ¨
, ´
, ¸
, ¼
, ½
, y ¾
. Irónicamente, tres de los caracteres recientemente agregados ( Œ
, œ
, y Ÿ
) ya estaban presentes en el Conjunto de caracteres multinacionales (MCS) de DEC de 1983 , el predecesor de la norma ISO/IEC 8859-1 (1987). Dado que sus puntos de código originales ahora se reutilizaban para otros fines, los caracteres tuvieron que reintroducirse bajo puntos de código diferentes y menos lógicos.
ISO-IR-204, una modificación menor (llamada página de códigos 61235 por FreeDOS), [18] había sido registrada en 1998, alterando ISO-8859-1 al reemplazar el signo monetario universal (¤) con el signo del euro [19] (la misma sustitución realizada por ISO-8859-15).
El popular conjunto de caracteres Windows-1252 agrega todos los caracteres faltantes provistos por ISO/IEC 8859-15 , más una cantidad de símbolos tipográficos, reemplazando los controles C1 raramente utilizados en el rango 128 a 159 ( hexadecimal 80 a 9F). Es muy común etiquetar incorrectamente el texto Windows-1252 como si estuviera en ISO-8859-1. Un resultado común fue que todas las comillas y apóstrofos (producidos por "comillas inteligentes" en el software de procesamiento de textos) fueron reemplazados por signos de interrogación o cuadros en sistemas operativos que no eran Windows, lo que dificulta la lectura del texto. Muchos navegadores web y clientes de correo electrónico interpretarán los códigos de control ISO-8859-1 como caracteres Windows-1252, y ese comportamiento se estandarizó más tarde en HTML5 . [20]
En 1984, la computadora Apple Macintosh introdujo una codificación de caracteres llamada Mac Roman , que estaba pensada para ser adecuada para la autoedición en Europa occidental . Es un superconjunto de ASCII y tiene la mayoría de los caracteres que están en ISO-8859-1 y todos los caracteres adicionales de Windows-1252, pero en una disposición totalmente diferente. Los pocos caracteres imprimibles que están en ISO/IEC 8859-1, pero no en este conjunto, suelen ser una fuente de problemas al editar texto en sitios web que utilizan navegadores Macintosh más antiguos, incluida la última versión de Internet Explorer para Mac .
DOS tiene la página de códigos 850 , que tiene todos los caracteres imprimibles que tiene ISO-8859-1, aunque en una disposición totalmente diferente, además de los caracteres gráficos más utilizados de la página de códigos 437 .
Entre 1989 [21] y 2015, Hewlett-Packard utilizó otro superconjunto de ISO-8859-1 en muchas de sus calculadoras. Este conjunto de caracteres propietario también se conocía a veces simplemente como "ECMA-94". [21] HP también tiene la página de códigos 1053 , que agrega el tono medio (▒, U+2592) en 0x7F. [22]
Varias páginas de códigos EBCDIC fueron diseñadas deliberadamente para tener el mismo conjunto de caracteres que ISO-8859-1, para permitir una fácil conversión entre ellos.
[…] Desde 1982, la urgencia de la necesidad de un juego de caracteres codificados de un solo byte de 8 bits fue reconocida en ECMA así como en ANSI/X3L2 y se intercambiaron numerosos documentos de trabajo entre los dos grupos. En febrero de 1984, ECMA TC1 presentó a ISO/TC97/SC2 una propuesta para dicho juego de caracteres codificados. En su reunión de abril de 1984, SC decidió presentar a TC97 una propuesta para un nuevo elemento de trabajo para este tema. Las discusiones técnicas durante y después de esta reunión llevaron a TC1 a adoptar el esquema de codificación propuesto por X3L2. La Parte 1 del Proyecto de Norma Internacional DTS 8859 se basa en esta propuesta conjunta ANSI/ECMA. […] Adoptada como Norma ECMA por la Asamblea General del 13 y 14 de diciembre de 1984. […]