MIME / IANA | ventanas-1252 [1] |
---|---|
Alias(es) | cp1252 ( página de código 1252) |
Idioma(s) | Todos compatibles con ISO/IEC 8859-1 más soporte completo para francés y finlandés y formas de ligadura para inglés ; por ejemplo, danés (excepto una rara letra excepcional ) , irlandés, italiano, noruego, portugués, español, sueco, alemán (falta la ẞ mayúscula ), islandés, feroés, luxemburgués, albanés, estonio, suajili, setsuana, catalán, vasco, occitano, rotokas , toki pona, lojban, romanche, holandés (excepto el carácter IJ/ij, sustituido por IJ / ij o ÿ ) y esloveno (excepto el carácter č , sustituido por ç ). |
Creado por | Microsoft |
Estándar | Estándar de codificación WHATWG |
Clasificación | ASCII extendido , Windows-125x |
Se extiende | ISO 8859-1 (excluidos los controles C1) |
Transforma / Codifica | ISO 8859-15 |
Sucedido por | Unicode ( UTF-8 , UTF-16 ) |
Windows-1252 o CP-1252 ( página de códigos de Windows 1252) es una codificación de caracteres de un solo byte heredada [2] que se utiliza de forma predeterminada (como la "página de códigos ANSI") en Microsoft Windows en América , Europa Occidental , Oceanía y gran parte de África . [3]
Inicialmente era igual que ISO 8859-1 , pero comenzó a divergir a partir de Windows 2.0 al agregar caracteres adicionales en el rango de 0x80 a 0x9F ( hexadecimal ) (los estándares ISO reservan este rango para los códigos de control C1 ). Entre los caracteres adicionales notables se incluyen las comillas y todos los caracteres imprimibles de ISO 8859-15 .
Es la codificación de caracteres de un solo byte más utilizada en el mundo. Aunque casi todos los sitios web utilizan ahora la codificación de caracteres multibyte UTF-8 , en julio de 2024 el 1,2% [4] de los sitios web declararon ISO 8859-1, que es tratado como Windows-1252 por todos los navegadores modernos (como lo exige el estándar HTML5 [5] ), más el 0,3% declaró Windows-1252 directamente, [4] [6] para un total de 1,5%. Algunos países o idiomas muestran un uso superior al promedio mundial, en 2024 Brasil según el uso del sitio web, el uso es del 3,4%, [7] y en Alemania del 2,7%. [8] [9] (estas son las sumas de las declaraciones ISO-8859-1 y CP-1252).
Windows lo conoce por el número de página de códigos 1252 y por el nombre aprobado por IANA "windows-1252".
Históricamente, la frase "Página de códigos ANSI" se utilizaba en Windows para referirse a codificaciones que no eran de DOS; la intención era que la mayoría de ellas fueran estándares ANSI como ISO-8859-1 . Aunque Windows-1252 fue la primera y, con diferencia, la más popular página de códigos denominada así en el lenguaje de Microsoft Windows, la página de códigos nunca ha sido un estándar ANSI. Microsoft explica: "El término ANSI, tal como se utiliza para referirse a las páginas de códigos de Windows, es una referencia histórica, pero hoy en día es un nombre inapropiado que sigue persistiendo en la comunidad de Windows". [10]
LaTeX puede introducir Windows-1252 utilizando inputenc.sty con el parámetro ansinew (y más recientemente cp1252 ). [11] [12]
IBM utiliza la página de códigos 1252 ( CCSID 1252 y CCSID extendido con el símbolo del euro 5348) para Windows-1252. [13] [14] [15]
Oracle Database lo llama "WE8MSWIN1252" . [16]
A partir de la década de 1990, muchos productos de Microsoft que podían producir HTML incluían caracteres exclusivos de Windows-1252, pero marcaban la codificación como ISO-8859-1, ASCII o no declarada. [ cita requerida ] Los caracteres exclusivos de Windows-1252 se representaban incorrectamente en sistemas operativos que no fueran Windows (a menudo como signos de interrogación). [17] [18] En particular, las comillas tipográficas (variantes rizadas de los apóstrofos y comillas rectas estándar en US-ASCII) se usaban comúnmente en archivos producidos en aplicaciones de Windows como Microsoft Word debido a la función de comillas inteligentes , que puede convertir automáticamente los apóstrofos y comillas rectas en las variantes rizadas. [19] Para solucionar esto, en 2000 la mayoría de los navegadores web y clientes de correo electrónico trataron los conjuntos de caracteres ISO-8859-1 y US-ASCII como Windows-1252 [ cita requerida ] —este comportamiento ahora lo requiere la especificación HTML5. [5] También se supone que los conjuntos de caracteres no declarados en HTML son Windows-1252. [20] [21]
Aunque Windows NT admitía Unicode e intentaba alentar a los programas a usarlo, solo proporcionaba las unidades de código de 16 bits de UCS-2 / UTF-16 , a pesar de la compatibilidad existente con otras codificaciones de caracteres multibyte. Como muchas aplicaciones preferían usar cadenas de 8 bits, Windows-1252 siguió siendo la codificación más popular en Windows incluso después de que se agregara compatibilidad con UTF-16. La compatibilidad con Unicode en Windows ha mejorado con el tiempo, y la compatibilidad con UTF-8 está disponible a partir de Windows 10 .
La siguiente tabla muestra Windows-1252. Las diferencias con ISO-8859-1 tienen el número de punto de código Unicode debajo del carácter, según la asignación de Unicode.org de Windows-1252 con "mejor ajuste". Una información sobre herramientas, generalmente disponible solo cuando se apunta a la derecha inmediata del carácter, muestra el nombre del punto de código Unicode y el código Alt decimal .
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | do | D | mi | F | |
0_ | Nulo | SOL | Tx | ETX | ETE | ENQ | Acuse de recibo | BEL | Licenciatura en Ciencias | alta | Si | Vermont | FF | ES | ENTONCES | SI |
1_ | DLE | DC1 | DC2 | DC3 | DC4 | No se puede | SINÓNIMO | ETB | PODER | En | SUB | ESC | Es | GS | R.R. | A NOSOTROS |
2_ | ES | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3_ | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4_ | @ | A | B | do | D | mi | F | GRAMO | yo | I | Yo | K | yo | METRO | norte | Oh |
5_ | PAG | Q | R | S | yo | tú | V | Yo | incógnita | Y | O | [ | \ | ] | ^ | _ |
6_ | ` | a | b | do | d | mi | F | gramo | yo | i | yo | a | yo | metro | norte | o |
7_ | pag | q | a | s | a | tú | en | el | incógnita | y | el | { | | | } | ~ | DEL |
8_ | 20 € CA | 201A | ƒ 0192 | " 201E | … 2026 | † 2020 | ‡ 2021 | ˆ 02C6 | ‰ 2030 | Š 0160 | ‹ 2039 | Œ0152 | 017D | |||
9_ | ' 2018 | ' 2019 | “ 201C | " 201D | • 2022 | – 2013 | — 2014 | ˜ 02DC | ™ 2122 | š 0161 | › 203A | œ 0153 | Artículo 017E | Ÿ0178 | ||
A_ | PNBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | TÍMIDO | ® | ¯ |
B_ | ° | ± | ² | ³ | " | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
DO_ | A | A | A | A | A | A | A | DO | MI | MI | MI | MI | I | I | I | I |
D_ | D | NORTE | O | O | O | O | O | × | Ø | Ù | U | O | U | Yo | Þ | ß |
MI_ | a | a | a | a | a | a | a | do | mi | mi | mi | mi | i | i | i | i |
F_ | d | norte | o | o | o | o | o | ÷ | ø | Un | tu | Un | ü | y | þ | ÿ |
Según la información que aparece en los sitios web de Microsoft y del Consorcio Unicode, las posiciones 81, 8D, 8F, 90 y 9D no se utilizan; sin embargo, la API de Windows MultiByteToWideChar
las asigna a los códigos de control C1 correspondientes . La asignación de "mejor ajuste" también documenta este comportamiento. [22]
El sistema operativo OS/2 admite una codificación denominada Página de códigos 1004 ( CCSID 1004) o "Windows Extended". [27] [28] Esto coincide principalmente con la página de códigos 1252, con la excepción de ciertos caracteres de control C0 que se reemplazan por caracteres diacríticos .
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | do | D | mi | F | |
0_ | Nulo | SOL | Tx | ETX | ˉ 02C9 | ˘ 02D8 | ˙ 02D9 | BEL | ˚02DA | alta | ˝ 02DD | ˛ 02DB | ˇ 02C7 | ES | ENTONCES | SI |
Existe una página de códigos extendida para gráficos 1252, que se utiliza con poca frecuencia, pero que es útil, en la que los códigos 0x00 a 0x1f permiten dibujar cuadros como los que se utilizan en aplicaciones como MSDOS Edit y Codeview. Una de las aplicaciones que utilizaba esta página de códigos era una utilidad de imagen de disco de instalación/recuperación de Intel Corporation de mediados/finales de 1995. Estos programas se escribieron para sus máquinas del programa de prueba de usuario P6 (ejemplo de EE. UU. [33] ). Se utilizaba exclusivamente en su región EMEA (Europa, Oriente Medio y África) de entonces. Con el tiempo, los programas se cambiaron para utilizar la página de códigos 850 .
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | do | D | mi | F | |
0_ | ○ | ■ | ↑ | ↓ | → | ← | ║ | ═ | ╔ | ╗ | ╚ | ╝ | ░ | ▒ | ► | ◄ |
1_ | │ | ─ | ┌ | ┐ | └ | ┘ | ├ | ┤ | ┴ | ┬ | ♦ | ┼ | █ | ▄ | ▀ | ▬ |
Cada dispositivo Palm OS admite un único idioma y una única codificación de caracteres, dependiendo de su configuración regional. [34]
Para idiomas como inglés y francés, Palm OS utiliza una codificación de caracteres personalizada basada en Windows-1252. Para japonés, en cambio, utiliza una codificación de caracteres multibyte basada en la página de códigos 932. Independientemente de la configuración regional del sistema, se garantiza que todos los caracteres en el rango de 0x00 a 0x7F sean los mismos, excepto 0x5D, que es el signo del yen en japonés, y una barra invertida en todos los demás. [34]
Palm OS 3.1 introdujo varios cambios en la codificación de caracteres para alinearse mejor con Windows-1252: [35]
La siguiente es la variante de Windows-1252 utilizada por Palm OS 3.3 en adelante para inglés y varias otras configuraciones regionales. [36] Python le da la palmos
etiqueta y la describe como la codificación para Palm OS 3.5. [38] [39] Las diferencias con Windows-1252 tienen su punto de código Unicode.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | do | D | mi | F | |
8_ | € [a] | " | ƒ | " | … [b] | † | ‡ | ˆ | ‰ | S | ‹ | Œ | ♦ 2666 | ♣ 2663 | ♥ 2665 | |
9_ | ♠ 2660 | ' | ' | " | " | • | – | — | ˜ | ™ | s | › | - | [do] | [d] | Ÿ |
Si utiliza comillas tipográficas sin especificar la codificación de caracteres adecuada para su archivo HTML, algunos de sus lectores verán signos de interrogación, cuadros u otros símbolos extraños en lugar de las hermosas comillas en espiral que deseaba que vieran.
Si un documento no contiene un valor de codificación CHARSET, la codificación predeterminada para documentos HTML es ISO-8859-1, también conocida como Latin1. La codificación predeterminada para documentos de texto sin formato es US-ASCII.