Corrector ortográfico

Software para ayudar a corregir errores ortográficos

En el ámbito del software , un corrector ortográfico (o corrector ortográfico o corrector ortográfico ) es una función de software que comprueba si hay errores ortográficos en un texto . Las funciones de corrección ortográfica suelen estar integradas en software o servicios, como un procesador de textos , un cliente de correo electrónico , un diccionario electrónico o un motor de búsqueda .

Ojo tengo un corrector ortográfico,
Vino con mi Pea Sea.
Planea sotavento marcas cuatro mi revista
Miss Steaks Puedo anudar el mar.

Ojo golpea los muelles y escribe un zumbido
Y pesa cuatro es dos dice
Tiempo ojo estoy escribiendo mal
Me dice derecho un peso.

Ojo corrió este poema a través de él,
Tu orilla realmente se alegra dos no.
Varía pulido en su peso.
Mi corrector me tocó coser.

Un corrector es una cosa bendita,
Congela vetas de tomillo.
Me ayuda a enderezar todos los montantes,
Y me ayuda cuando el ojo es escarcha.

Cada deshilachado viene posado en mi pantalla
Ojo atado también puede ser un julio.
El corrector vierte sobre cada palabra
Dos sumas de verificación regla ortográfica.

La versión original de este poema fue escrita por Jerrold H. Zar en 1992. Un corrector ortográfico poco sofisticado no encontrará casi ningún defecto en este poema porque revisa las palabras de forma aislada. Un corrector ortográfico más sofisticado utilizará un modelo de lenguaje para tener en cuenta el contexto en el que aparece una palabra.

Diseño

Un corrector ortográfico básico realiza los siguientes procesos:

Escanea el texto y extrae las palabras que contiene.
Luego compara cada palabra con una lista conocida de palabras escritas correctamente (es decir, un diccionario). Esta lista puede contener solo una lista de palabras o también puede contener información adicional, como puntos de separación de palabras o atributos léxicos y gramaticales.
Un paso adicional es un algoritmo dependiente del idioma para manejar la morfología . Incluso para un idioma con poca inflexión como el inglés , el corrector ortográfico deberá considerar diferentes formas de la misma palabra, como plurales, formas verbales, contracciones y posesivos . Para muchos otros idiomas, como aquellos que presentan aglutinación y declinación y conjugación más complejas, esta parte del proceso es más complicada.

No está claro si el análisis morfológico —que permite muchas formas de una palabra dependiendo de su función gramatical— proporciona un beneficio significativo para el inglés, aunque sus beneficios para idiomas altamente sintéticos como el alemán, el húngaro o el turco son claros.

Como complemento a estos componentes, la interfaz de usuario del programa permite a los usuarios aprobar o rechazar reemplazos y modificar el funcionamiento del programa.

Los correctores ortográficos pueden utilizar algoritmos de coincidencia de cadenas aproximadas , como la distancia de Levenshtein , para encontrar la ortografía correcta de las palabras mal escritas. ^[1] Un tipo alternativo de corrector ortográfico utiliza únicamente información estadística, como n-gramas , para reconocer errores en lugar de palabras correctamente escritas. Este enfoque suele requerir mucho esfuerzo para obtener suficiente información estadística. Las principales ventajas incluyen la necesidad de menos almacenamiento en tiempo de ejecución y la capacidad de corregir errores en palabras que no están incluidas en un diccionario. ^[2]

En algunos casos, los correctores ortográficos utilizan una lista fija de errores ortográficos y sugerencias para corregirlos; este enfoque menos flexible se utiliza a menudo en métodos de corrección en papel, como las entradas "véase también" de las enciclopedias.

También se han utilizado algoritmos de agrupamiento para la corrección ortográfica ^[3] combinada con información fonética. ^[4]

Historia

Pre-PC

En 1961, Les Earnest , que encabezó la investigación sobre esta tecnología en ciernes, consideró necesario incluir el primer corrector ortográfico que accediera a una lista de 10.000 palabras aceptables. ^[5] Ralph Gorin, un estudiante de posgrado de Earnest en ese momento, creó el primer programa de corrección ortográfica verdadero escrito como un programa de aplicaciones (en lugar de investigación) para textos en inglés general: SPELL para el DEC PDP-10 en el Laboratorio de Inteligencia Artificial de la Universidad de Stanford, en febrero de 1971. ^[6] Gorin escribió SPELL en lenguaje ensamblador , para una acción más rápida; hizo el primer corrector ortográfico buscando en la lista de palabras ortografías correctas plausibles que difieren en una sola letra o transposiciones de letras adyacentes y presentándolas al usuario. Gorin hizo que SPELL fuera accesible al público, como se hizo con la mayoría de los programas SAIL (Laboratorio de Inteligencia Artificial de Stanford), y pronto se extendió por todo el mundo a través de la nueva ARPAnet, unos diez años antes de que las computadoras personales se generalizaran. ^[7] SPELL, sus algoritmos y estructuras de datos inspiraron el programa ispell de Unix .

Los primeros correctores ortográficos estuvieron ampliamente disponibles en los ordenadores centrales a finales de la década de 1970. Un grupo de seis lingüistas de la Universidad de Georgetown desarrolló el primer sistema de corrección ortográfica para la corporación IBM. ^[8]

Henry Kučera inventó uno para las máquinas VAX de Digital Equipment Corp en 1981. ^[9]

Unix

El programa International Ispell, que se utiliza habitualmente en Unix, se basa en SPELL de RE Gorin. Fue convertido a C por Pace Willisson en el MIT. ^[10]

El proyecto GNU cuenta con su propio corrector ortográfico GNU Aspell . La principal mejora de Aspell es que puede sugerir alternativas correctas con mayor precisión para palabras mal escritas en inglés. ^[11]

Debido a la incapacidad de los correctores ortográficos tradicionales para verificar palabras en idiomas con inflexiones complejas, el húngaro László Németh desarrolló Hunspell , un corrector ortográfico que admite idiomas aglutinantes y palabras compuestas complejas. Hunspell también utiliza Unicode en sus diccionarios. ^[12] Hunspell reemplazó al anterior MySpell en OpenOffice.org en la versión 2.0.2.

Enchant es otro corrector ortográfico general, derivado de AbiWord . Su objetivo es combinar programas que admiten distintos idiomas como Aspell, Hunspell, Nuspell, Hspell (hebreo), Voikko (finlandés), Zemberek (turco) y AppleSpell en una única interfaz. ^[13]

PC

Los primeros correctores ortográficos para ordenadores personales aparecieron en 1980, como "WordCheck" para sistemas Commodore, que se lanzó a finales de 1980, a tiempo para que los anuncios se imprimieran en enero de 1981. ^[14] Desarrolladores como Maria Mariani ^[8] y Random House ^[15] se apresuraron a introducir paquetes OEM o productos para el usuario final en el mercado de software en rápida expansión. En los PC anteriores a Windows, estos correctores ortográficos eran programas independientes, muchos de los cuales podían ejecutarse en modo de terminación y permanencia desde dentro de los paquetes de procesamiento de textos en PC con suficiente memoria.

Sin embargo, el mercado de paquetes independientes duró poco, ya que a mediados de la década de 1980 los desarrolladores de paquetes de procesamiento de textos populares como WordStar y WordPerfect habían incorporado correctores ortográficos en sus paquetes, en su mayoría con licencia de las empresas mencionadas anteriormente, que rápidamente ampliaron el soporte del inglés a muchos idiomas europeos y, finalmente, incluso asiáticos . Sin embargo, esto requirió una creciente sofisticación en las rutinas morfológicas del software, particularmente con respecto a idiomas muy aglutinantes como el húngaro y el finés . Aunque el tamaño del mercado de procesamiento de textos en un país como Islandia podría no haber justificado la inversión de implementar un corrector ortográfico, empresas como WordPerfect, no obstante, se esforzaron por localizar su software para tantos mercados nacionales como fuera posible como parte de su estrategia de marketing global .

Cuando Apple desarrolló "un corrector ortográfico para todo el sistema" para Mac OS X de modo que "el sistema operativo se hiciera cargo de las correcciones ortográficas", ^[16] fue una novedad: uno "no tenía que mantener un corrector ortográfico separado para cada" programa. ^{[17] La cobertura del corrector ortográfico de} Mac OS X incluye prácticamente todas las aplicaciones incluidas y de terceros.

VT Speller de Visual Tools , presentado en 1994, fue "diseñado para desarrolladores de aplicaciones compatibles con Windows". ^[18]^[19] Venía con un diccionario pero tenía la capacidad de crear e incorporar el uso de diccionarios secundarios. ^[20]

Navegadores

Los navegadores web como Firefox y Google Chrome ofrecen compatibilidad con la corrección ortográfica mediante Hunspell . Antes de utilizar Hunspell, Firefox y Chrome utilizaban MySpell y GNU Aspell , respectivamente. ^[21]

Especialidades

Algunos correctores ortográficos tienen soporte independiente para diccionarios médicos para ayudar a prevenir errores médicos. ^[22]^[23]^[24]

Funcionalidad

Los primeros correctores ortográficos eran "verificadores" en lugar de "correctores". No ofrecían sugerencias para las palabras mal escritas. Esto era útil para los errores tipográficos, pero no tanto para los errores lógicos o fonéticos. El desafío al que se enfrentaron los desarrolladores fue la dificultad de ofrecer sugerencias útiles para las palabras mal escritas. Esto requiere reducir las palabras a una forma esquemática y aplicar algoritmos de coincidencia de patrones.

Puede parecer lógico que, en lo que respecta a los diccionarios de corrección ortográfica, "cuanto más grandes, mejor", para que las palabras correctas no se marquen como incorrectas. Sin embargo, en la práctica, el tamaño óptimo para el inglés parece rondar las 90.000 entradas. Si hay más, es posible que se salten palabras mal escritas porque se las confunde con otras. Por ejemplo, un lingüista podría determinar, basándose en la lingüística de corpus , que la palabra baht es más frecuentemente una falta de ortografía de bath o bat que una referencia a la moneda tailandesa. Por lo tanto, normalmente sería más útil que unas pocas personas que escriben sobre la moneda tailandesa se sintieran ligeramente incómodas que si se pasaran por alto los errores ortográficos de muchas más personas que hablan de baths.

Los primeros correctores ortográficos de MS-DOS se utilizaban principalmente en modo de corrección desde paquetes de procesamiento de textos. Después de preparar un documento, el usuario escaneaba el texto en busca de errores ortográficos. Sin embargo, más tarde, se ofreció el procesamiento por lotes en paquetes como el efímero CoAuthor de Oracle y permitía al usuario ver los resultados después de procesar un documento y corregir solo las palabras que se sabía que estaban mal. Cuando la memoria y la capacidad de procesamiento se volvieron abundantes, la corrección ortográfica se realizó en segundo plano de forma interactiva, como ha sido el caso del programa Spellbound producido por Sector Software y lanzado en 1987 y Microsoft Word desde Word 95.

Los correctores ortográficos se han vuelto cada vez más sofisticados y ahora son capaces de reconocer errores gramaticales . Sin embargo, incluso en su mejor momento, rara vez detectan todos los errores de un texto (como los errores homófonos ) y marcan los neologismos y las palabras extranjeras como errores ortográficos. No obstante, los correctores ortográficos pueden considerarse un tipo de ayuda para la redacción en lenguas extranjeras en las que los estudiantes no nativos pueden confiar para detectar y corregir sus errores ortográficos en la lengua meta. ^[25]

Corrección ortográfica para idiomas distintos del inglés

El inglés es un idioma poco común, ya que la mayoría de las palabras que se usan en la escritura formal tienen una única ortografía que se puede encontrar en un diccionario típico, con la excepción de algunas jergas y palabras modificadas. En muchos idiomas, las palabras suelen concatenarse para formar nuevas combinaciones de palabras. En alemán, los sustantivos compuestos se acuñan con frecuencia a partir de otros sustantivos existentes. Algunas escrituras no separan claramente una palabra de otra, por lo que se requieren algoritmos de división de palabras. Cada uno de estos presenta desafíos únicos para los correctores ortográficos de idiomas distintos del inglés.

Correctores ortográficos sensibles al contexto

Se han realizado investigaciones para desarrollar algoritmos capaces de reconocer una palabra mal escrita, incluso si la palabra en sí está en el vocabulario, basándose en el contexto de las palabras circundantes. Esto no solo permite detectar palabras como las del poema anterior, sino que mitiga el efecto perjudicial de ampliar los diccionarios, lo que permite reconocer más palabras. Por ejemplo, baht en el mismo párrafo que Thai o Thailand no se reconocería como un error ortográfico de bath . El ejemplo más común de errores detectados por un sistema de este tipo son los errores homófonos , como las palabras en negrita de la siguiente oración:

Su llegada al mar si es su carrete .

El algoritmo más exitoso hasta la fecha es el " algoritmo de corrección ortográfica basado en Winnow " de Andrew Golding y Dan Roth, ^[26] publicado en 1999, que es capaz de reconocer aproximadamente el 96% de los errores ortográficos contextuales, además de los errores ortográficos comunes que no son palabras. Los correctores ortográficos contextuales aparecieron en las aplicaciones ahora descontinuadas Microsoft Office 2007 ^[27] y Google Wave . ^[28]

Los correctores gramaticales intentan corregir problemas gramaticales más allá de los errores ortográficos, incluida la elección incorrecta de palabras.

Véase también

Referencias

^ Perner, Petra (5 de julio de 2010). Avances en minería de datos: aplicaciones y aspectos teóricos: 10.ª conferencia industrial, ICDM 2010, Berlín, Alemania, del 12 al 14 de julio de 2010. Actas. Springer Science & Business Media. ISBN 978-3-642-14399-1.
^ Patente de EE. UU. 6618697, Método para la corrección basada en reglas de errores ortográficos y gramaticales
^ de Amorim, RC; Zampieri, M. (2013) Métodos efectivos de corrección ortográfica mediante algoritmos de agrupamiento. Archivado el 17 de agosto de 2017 en Wayback Machine . Actas de avances recientes en el procesamiento del lenguaje natural (RANLP2013). Hissar, Bulgaria. págs. 172-178.
^ Zampieri, M.; de Amorim, RC (2014) Entre el sonido y la ortografía: combinación de algoritmos fonéticos y de agrupamiento para mejorar la recuperación de palabras de destino. Actas de la 9.ª Conferencia internacional sobre procesamiento del lenguaje natural (PolTAL). Apuntes de clase en informática (LNCS). Springer. págs. 438-449.
^ Earnest, Les. "Los tres primeros correctores ortográficos" (PDF) . Universidad de Stanford. Archivado desde el original (PDF) el 22 de octubre de 2012. Consultado el 10 de octubre de 2011 .
^ Peterson, James (diciembre de 1980). Programas informáticos para detectar y corregir errores ortográficos (PDF) . Consultado el 18 de febrero de 2011 .
^ Earnest, Les. Legados visibles del Y3K (PDF) . Archivado desde el original (PDF) el 20 de julio de 2011 . Consultado el 18 de febrero de 2011 .
^ ab "Georgetown U Faculty & Staff: The Center for Language, Education & Development". Archivado desde el original el 2009-02-05 . Consultado el 2008-12-18 ., cita: "Maria Mariani... fue parte de un grupo de seis lingüistas de la Universidad de Georgetown que desarrollaron el primer sistema de revisión ortográfica para la corporación IBM".
^ Harvey, Charlotte Bruce (mayo-junio de 2010). "Enseñar a los ordenadores a deletrear (obituario de Henry Kučera)". Brown Alumni Magazine . pág. 79.
^ "International Ispell". www.cs.hmc.edu . Consultado el 19 de febrero de 2023 .
^ "GNU Aspell". aspell.net . Consultado el 19 de febrero de 2023 .
^ "Hunspell: Acerca de". hunspell.github.io . Consultado el 19 de febrero de 2023 .
^ AbiWord/enchant, AbiWord, 13 de febrero de 2023 , consultado el 19 de febrero de 2023
^ Anuncio (enero de 1981). "Micro Computer Industries, Ltd" (PDF) . Revista Compute!, número 8, vol. 3, n.º 1. pág. 119.
^ Anuncio (noviembre de 1982). "El concurso de ortografía ha terminado". PC Magazine . p. 165 . Consultado el 21 de octubre de 2013 .
^ David Pogue (2009). Mac OS X Snow Leopard: El manual perdido .
^ David Pogue (2015). Pasarse a Mac: el manual que faltaba. "O'Reilly Media, Inc." ISBN 9781491948125.
^ "VisualTools VT-Speller". Computerworld . 21 de febrero de 1994. pág. 68.
^ "Buscar el 27 de septiembre de 1993". VT-SPELLER
^ Peter G. Aitken (8 de noviembre de 1994). "Corrección ortográfica para sus aplicaciones". PC Magazine , pág. 299.
^ "Aspell y Hunspell: Una historia de dos correctores ortográficos". battlepenguin.com .
^ "Corrector ortográfico médico para Firefox y Thunderbird". e-MedTools. 2017. Archivado desde el original el 4 de mayo de 2019. Consultado el 29 de agosto de 2018 .
^ Quathamer, Dr. Tobias (2016). «Palabras del diccionario médico alemán». Dr. Tobias Quathamer . Consultado el 29 de agosto de 2018 .
^ Friedman, Richard A.; D, M (2003). "CASES; ¿Cuentan la ortografía y la caligrafía? En medicina, seguro que sí". The New York Times . Consultado el 29 de agosto de 2018 .
^ Banks, T. (2008). Dificultades en el aprendizaje de lenguas extranjeras y estrategias de enseñanza. (pp. 29). Tesis de maestría, Universidad Dominicana de California. Recuperado el 19 de marzo de 2012.
^ Golding, Andrew R.; Roth, Dan (1999). "Artículo de revista". Aprendizaje automático . 34 . SpringerLink: 107–130. doi :10.1023/A:1007545901558. S2CID 12283016.
^ Walt Mossberg (4 de enero de 2007). «Review». Wall Street Journal . Consultado el 24 de septiembre de 2010 .
^ "Sistema operativo de Google". googlesystem.blogspot.com. 29 de mayo de 2009. Consultado el 25 de septiembre de 2010 . "El corrector ortográfico contextual de Google". 29 de mayo de 2009. Consultado el 25 de septiembre de 2010 .

Enlaces externos

Norvig.com, "Cómo escribir un corrector ortográfico", por Peter Norvig
BBK.ac.uk, "Corrección ortográfica por ordenador", por Roger Mitton
CBSNews.com, El corrector ortográfico reduce la corrección, por Lloyd de Vries
Historia y texto de “Candidato a una Polla Sorpresa” de Mark Eckman y Jerrold H. Zar

[1] Perner, Petra (5 de julio de 2010). Avances en minería de datos: aplicaciones y aspectos teóricos: 10.ª conferencia industrial, ICDM 2010, Berlín, Alemania, del 12 al 14 de julio de 2010. Actas. Springer Science & Business Media. ISBN 978-3-642-14399-1.

[2] Patente de EE. UU. 6618697, Método para la corrección basada en reglas de errores ortográficos y gramaticales

[3] Amorim, RC; Zampieri, M. (2013) Métodos efectivos de corrección ortográfica mediante algoritmos de agrupamiento. Archivado el 17 de agosto de 2017 en Wayback Machine . Actas de avances recientes en el procesamiento del lenguaje natural (RANLP2013). Hissar, Bulgaria. págs. 172-178.

[4] Zampieri, M.; de Amorim, RC (2014) Entre el sonido y la ortografía: combinación de algoritmos fonéticos y de agrupamiento para mejorar la recuperación de palabras de destino. Actas de la 9.ª Conferencia internacional sobre procesamiento del lenguaje natural (PolTAL). Apuntes de clase en informática (LNCS). Springer. págs. 438-449.

[5] Earnest, Les. "Los tres primeros correctores ortográficos" (PDF) . Universidad de Stanford. Archivado desde el original (PDF) el 22 de octubre de 2012. Consultado el 10 de octubre de 2011 .

[6] Peterson, James (diciembre de 1980). Programas informáticos para detectar y corregir errores ortográficos (PDF) . Consultado el 18 de febrero de 2011 .

[7] Earnest, Les. Legados visibles del Y3K (PDF) . Archivado desde el original (PDF) el 20 de julio de 2011 . Consultado el 18 de febrero de 2011 .

[cled.georgetown.edu-8] "Georgetown U Faculty & Staff: The Center for Language, Education & Development". Archivado desde el original el 2009-02-05 . Consultado el 2008-12-18 ., cita: "Maria Mariani... fue parte de un grupo de seis lingüistas de la Universidad de Georgetown que desarrollaron el primer sistema de revisión ortográfica para la corporación IBM".

[9] Harvey, Charlotte Bruce (mayo-junio de 2010). "Enseñar a los ordenadores a deletrear (obituario de Henry Kučera)". Brown Alumni Magazine . pág. 79.

[10] "International Ispell". www.cs.hmc.edu . Consultado el 19 de febrero de 2023 .

[11] "GNU Aspell". aspell.net . Consultado el 19 de febrero de 2023 .

[12] "Hunspell: Acerca de". hunspell.github.io . Consultado el 19 de febrero de 2023 .

[13] AbiWord/enchant, AbiWord, 13 de febrero de 2023 , consultado el 19 de febrero de 2023

[14] Anuncio (enero de 1981). "Micro Computer Industries, Ltd" (PDF) . Revista Compute!, número 8, vol. 3, n.º 1. pág. 119.

[pc198211-15] Anuncio (noviembre de 1982). "El concurso de ortografía ha terminado". PC Magazine . p. 165 . Consultado el 21 de octubre de 2013 .

[16] David Pogue (2009). Mac OS X Snow Leopard: El manual perdido .

[17] David Pogue (2015). Pasarse a Mac: el manual que faltaba. "O'Reilly Media, Inc." ISBN 9781491948125.

[18] "VisualTools VT-Speller". Computerworld . 21 de febrero de 1994. pág. 68.

[19] "Buscar el 27 de septiembre de 1993". VT-SPELLER

[20] Peter G. Aitken (8 de noviembre de 1994). "Corrección ortográfica para sus aplicaciones". PC Magazine , pág. 299.

[21] "Aspell y Hunspell: Una historia de dos correctores ortográficos". battlepenguin.com .

[22] "Corrector ortográfico médico para Firefox y Thunderbird". e-MedTools. 2017. Archivado desde el original el 4 de mayo de 2019. Consultado el 29 de agosto de 2018 .

[23] Quathamer, Dr. Tobias (2016). «Palabras del diccionario médico alemán». Dr. Tobias Quathamer . Consultado el 29 de agosto de 2018 .

[24] Friedman, Richard A.; D, M (2003). "CASES; ¿Cuentan la ortografía y la caligrafía? En medicina, seguro que sí". The New York Times . Consultado el 29 de agosto de 2018 .

[25] Banks, T. (2008). Dificultades en el aprendizaje de lenguas extranjeras y estrategias de enseñanza. (pp. 29). Tesis de maestría, Universidad Dominicana de California. Recuperado el 19 de marzo de 2012.

[26] Golding, Andrew R.; Roth, Dan (1999). "Artículo de revista". Aprendizaje automático . 34 . SpringerLink: 107–130. doi :10.1023/A:1007545901558. S2CID 12283016.

[27] Walt Mossberg (4 de enero de 2007). «Review». Wall Street Journal . Consultado el 24 de septiembre de 2010 .

[28] "Sistema operativo de Google". googlesystem.blogspot.com. 29 de mayo de 2009. Consultado el 25 de septiembre de 2010 . "El corrector ortográfico contextual de Google". 29 de mayo de 2009. Consultado el 25 de septiembre de 2010 .