El procesamiento del lenguaje natural tiene sus raíces en la década de 1950. [1] Ya en 1950, Alan Turing publicó un artículo titulado " Computing Machinery and Intelligence " en el que proponía lo que hoy se denomina el test de Turing como criterio de inteligencia, aunque en aquel momento no se lo articulaba como un problema separado de la inteligencia artificial. El test propuesto incluye una tarea que implica la interpretación y generación automatizadas del lenguaje natural.
PNL simbólica (década de 1950 – principios de 1990)
La premisa de la PNL simbólica está bien resumida en el experimento de la habitación china de John Searle : dada una colección de reglas (por ejemplo, un libro de frases chino, con preguntas y respuestas correspondientes), la computadora emula la comprensión del lenguaje natural (u otras tareas de PNL) aplicando esas reglas a los datos que enfrenta.
Década de 1950 : El experimento de Georgetown en 1954 implicó la traducción totalmente automática de más de sesenta oraciones rusas al inglés. Los autores afirmaron que en un plazo de tres o cinco años, la traducción automática sería un problema resuelto. [2] Sin embargo, el progreso real fue mucho más lento y, después del informe ALPAC de 1966, que concluyó que diez años de investigación no habían logrado cumplir las expectativas, la financiación para la traducción automática se redujo drásticamente. Se realizaron pocas investigaciones adicionales en traducción automática en Estados Unidos (aunque algunas investigaciones continuaron en otros lugares, como Japón y Europa [3] ) hasta finales de la década de 1980, cuando se desarrollaron los primeros sistemas de traducción automática estadística .
Década de 1960 : Algunos sistemas de procesamiento de lenguaje natural que tuvieron un éxito notable fueron SHRDLU , un sistema de lenguaje natural que funcionaba en " mundos en bloques " restringidos con vocabularios restringidos, y ELIZA , una simulación de un psicoterapeuta rogeriano , escrita por Joseph Weizenbaum entre 1964 y 1966. Al no utilizar prácticamente ninguna información sobre el pensamiento o la emoción humana, ELIZA a veces proporcionaba una interacción sorprendentemente similar a la humana. Cuando el "paciente" excedía la muy pequeña base de conocimiento, ELIZA podía proporcionar una respuesta genérica, por ejemplo, responder a "Me duele la cabeza" con "¿Por qué dices que te duele la cabeza?". El exitoso trabajo de Ross Quillian sobre el lenguaje natural se demostró con un vocabulario de solo veinte palabras, porque eso era todo lo que cabía en la memoria de una computadora en ese momento. [4]
Década de 1970 : Durante la década de 1970, muchos programadores comenzaron a escribir " ontologías conceptuales ", que estructuraban información del mundo real en datos comprensibles para computadoras. Algunos ejemplos son MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) y Plot Units (Lehnert 1981). Durante esta época, se escribieron los primeros chatterbots (por ejemplo, PARRY ).
Década de 1980 : La década de 1980 y principios de la de 1990 marcan el apogeo de los métodos simbólicos en PNL. Las áreas de enfoque de la época incluyeron la investigación sobre análisis sintáctico basado en reglas (por ejemplo, el desarrollo de HPSG como una operacionalización computacional de la gramática generativa ), morfología (por ejemplo, morfología de dos niveles [5] ), semántica (por ejemplo, algoritmo de Lesk ), referencia (por ejemplo, dentro de la teoría del centrado [6] ) y otras áreas de comprensión del lenguaje natural (por ejemplo, en la teoría de la estructura retórica ). Se continuaron otras líneas de investigación, por ejemplo, el desarrollo de chatterbots con Racter y Jabberwacky . Un desarrollo importante (que finalmente condujo al giro estadístico en la década de 1990) fue la creciente importancia de la evaluación cuantitativa en este período. [7]
PNL estadístico (década de 1990-década de 2010)
Hasta la década de 1980, la mayoría de los sistemas de procesamiento del lenguaje natural se basaban en conjuntos complejos de reglas escritas a mano. Sin embargo, a partir de finales de esa década se produjo una revolución en el procesamiento del lenguaje natural con la introducción de algoritmos de aprendizaje automático para el procesamiento del lenguaje. Esto se debió tanto al aumento constante de la potencia computacional (véase la ley de Moore ) como a la disminución gradual del predominio de las teorías lingüísticas chomskianas (por ejemplo, la gramática transformacional ), cuyos fundamentos teóricos desalentaban el tipo de lingüística de corpus que subyace al enfoque de aprendizaje automático para el procesamiento del lenguaje. [8]
Década de 1990 : Muchos de los primeros éxitos notables en métodos estadísticos en PNL se produjeron en el campo de la traducción automática , debido especialmente al trabajo en IBM Research, como los modelos de alineación de IBM . Estos sistemas pudieron aprovechar los corpus textuales multilingües existentes que habían sido producidos por el Parlamento de Canadá y la Unión Europea como resultado de leyes que exigían la traducción de todos los procedimientos gubernamentales a todos los idiomas oficiales de los sistemas de gobierno correspondientes. Sin embargo, la mayoría de los demás sistemas dependían de corpus desarrollados específicamente para las tareas implementadas por estos sistemas, lo que fue (y a menudo sigue siendo) una limitación importante en el éxito de estos sistemas. Como resultado, se ha dedicado una gran cantidad de investigación a métodos para aprender de manera más efectiva a partir de cantidades limitadas de datos.
Década de 2000 : con el crecimiento de la web, desde mediados de los años 90 se han puesto a disposición cantidades cada vez mayores de datos lingüísticos sin anotación (sin anotaciones). Por ello, la investigación se ha centrado cada vez más en algoritmos de aprendizaje no supervisado y semisupervisado . Dichos algoritmos pueden aprender de datos que no han sido anotados manualmente con las respuestas deseadas o utilizando una combinación de datos anotados y no anotados. Por lo general, esta tarea es mucho más difícil que el aprendizaje supervisado y, por lo general, produce resultados menos precisos para una cantidad determinada de datos de entrada. Sin embargo, hay una enorme cantidad de datos no anotados disponibles (incluido, entre otras cosas, todo el contenido de la World Wide Web ), que a menudo pueden compensar los resultados inferiores si el algoritmo utilizado tiene una complejidad temporal lo suficientemente baja como para ser práctico.
En 2010, Tomáš Mikolov (entonces estudiante de doctorado en la Universidad Tecnológica de Brno ) con coautores aplicó una red neuronal recurrente simple con una sola capa oculta al modelado del lenguaje, [10] y en los años siguientes continuó desarrollando Word2vec . En la década de 2010, el aprendizaje de representación y los métodos de aprendizaje automático de estilo de red neuronal profunda (con muchas capas ocultas) se generalizaron en el procesamiento del lenguaje natural. Esa popularidad se debió en parte a una oleada de resultados que mostraban que dichas técnicas [11] [12] pueden lograr resultados de vanguardia en muchas tareas de lenguaje natural, por ejemplo, en el modelado del lenguaje [13] y el análisis sintáctico. [14] [15] Esto es cada vez más importante en la medicina y la atención médica , donde el PNL ayuda a analizar notas y textos en registros médicos electrónicos que de otro modo serían inaccesibles para su estudio cuando se busca mejorar la atención [16] o proteger la privacidad del paciente. [17]
El enfoque simbólico, es decir, la codificación manual de un conjunto de reglas para manipular símbolos, junto con una búsqueda en el diccionario, fue históricamente el primer enfoque utilizado tanto por la IA en general como por la PNL en particular: [18] [19] como por ejemplo escribiendo gramáticas o ideando reglas heurísticas para la derivación .
Tanto los métodos estadísticos como los de redes neuronales pueden centrarse más en los casos más comunes extraídos de un corpus de textos, mientras que el enfoque basado en reglas necesita proporcionar reglas tanto para los casos raros como para los comunes por igual.
Los modelos de lenguaje , producidos por métodos estadísticos o de redes neuronales, son más robustos tanto a entradas desconocidas (por ejemplo, que contienen palabras o estructuras que no se han visto antes) como a entradas erróneas (por ejemplo, con palabras mal escritas o palabras omitidas accidentalmente) en comparación con los sistemas basados en reglas, que también son más costosos de producir.
Cuanto más grande sea un modelo de lenguaje (probabilístico), más preciso será, en contraste con los sistemas basados en reglas que pueden ganar precisión solo aumentando la cantidad y la complejidad de las reglas, lo que conduce a problemas de intratabilidad .
Aunque en 2020 todavía se utilizaban sistemas basados en reglas para manipular símbolos, con el avance de los LLM en 2023 se han vuelto prácticamente obsoletos.
Antes de eso se utilizaban comúnmente:
cuando la cantidad de datos de entrenamiento es insuficiente para aplicar con éxito métodos de aprendizaje automático, por ejemplo, para la traducción automática de idiomas con pocos recursos, como los que proporciona el sistema Apertium ,
para el preprocesamiento en pipelines de PNL, por ejemplo, tokenización o
para posprocesar y transformar la salida de procesos de PNL, por ejemplo, para la extracción de conocimiento a partir de análisis sintácticos.
Enfoque estadístico
A finales de la década de 1980 y mediados de la década de 1990, el enfoque estadístico puso fin a un período de invierno de la IA , que fue causado por las ineficiencias de los enfoques basados en reglas. [20] [21]
Los primeros árboles de decisión , que producían sistemas de reglas estrictas de tipo if-then , eran muy similares a los antiguos enfoques basados en reglas. Solo la introducción de los modelos ocultos de Markov , aplicados al etiquetado de categorías gramaticales, anunció el fin del antiguo enfoque basado en reglas.
A continuación se incluye una lista de algunas de las tareas más investigadas en el procesamiento del lenguaje natural. Algunas de estas tareas tienen aplicaciones directas en el mundo real, mientras que otras suelen servir como subtareas que se utilizan para ayudar a resolver tareas más grandes.
Aunque las tareas de procesamiento del lenguaje natural están estrechamente relacionadas, se pueden subdividir en categorías para mayor comodidad. A continuación se ofrece una división general.
Dado un fragmento de sonido de una o más personas hablando, determine la representación textual del discurso. Esto es lo opuesto a la conversión de texto a voz y es uno de los problemas extremadamente difíciles denominados coloquialmente " AI-complete " (ver arriba). En el habla natural casi no hay pausas entre palabras sucesivas y, por lo tanto, la segmentación del habla es una subtarea necesaria del reconocimiento de voz (ver abajo). En la mayoría de los idiomas hablados, los sonidos que representan letras sucesivas se mezclan entre sí en un proceso denominado coarticulación , por lo que la conversión de la señal analógica en caracteres discretos puede ser un proceso muy difícil. Además, dado que las palabras en el mismo idioma son pronunciadas por personas con diferentes acentos, el software de reconocimiento de voz debe ser capaz de reconocer la amplia variedad de entradas como idénticas entre sí en términos de su equivalente textual.
Dado un fragmento de sonido de una o más personas hablando, sepárelo en palabras. Es una subtarea del reconocimiento de voz y, por lo general, se agrupa con ella.
Dado un texto, transforme esas unidades y produzca una representación hablada. La conversión de texto a voz se puede utilizar para ayudar a las personas con discapacidad visual. [24]
La tokenización es un proceso utilizado en el análisis de texto que divide el texto en palabras individuales o fragmentos de palabras. Esta técnica da como resultado dos componentes clave: un índice de palabras y un texto tokenizado. El índice de palabras es una lista que asigna palabras únicas a identificadores numéricos específicos, y el texto tokenizado reemplaza cada palabra con su token numérico correspondiente. Estos tokens numéricos se utilizan luego en varios métodos de aprendizaje profundo. [25]
Para un idioma como el inglés , esto es bastante trivial, ya que las palabras suelen estar separadas por espacios. Sin embargo, algunos idiomas escritos como el chino , el japonés y el tailandés no marcan los límites de las palabras de esa manera, y en esos idiomas la segmentación de texto es una tarea importante que requiere conocimiento del vocabulario y la morfología de las palabras del idioma. A veces, este proceso también se utiliza en casos como la creación de bolsas de palabras (BOW) en la minería de datos. [ cita requerida ]
La tarea de eliminar únicamente las terminaciones flexivas y devolver la forma base del diccionario de una palabra, también conocida como lema. La lematización es otra técnica para reducir las palabras a su forma normalizada. Pero en este caso, la transformación en realidad utiliza un diccionario para asignar las palabras a su forma real. [26]
Separar las palabras en morfemas individuales e identificar la clase de los morfemas. La dificultad de esta tarea depende en gran medida de la complejidad de la morfología ( es decir , la estructura de las palabras) del idioma en cuestión. El inglés tiene una morfología bastante simple, especialmente la morfología flexiva , y por lo tanto a menudo es posible ignorar esta tarea por completo y simplemente modelar todas las formas posibles de una palabra (por ejemplo, "abrir, abre, abierto, apertura") como palabras separadas. Sin embargo, en idiomas como el turco o el meitei , un idioma indio altamente aglutinado , tal enfoque no es posible, ya que cada entrada del diccionario tiene miles de formas posibles de palabras. [27]
Dada una oración, determina la parte gramatical (POS) para cada palabra. Muchas palabras, especialmente las más comunes, pueden servir como múltiples partes gramaticales. Por ejemplo, "book" puede ser un sustantivo ("the book on the table") o un verbo ("to book a flight"); "set" puede ser un sustantivo, verbo o adjetivo ; y "out" puede ser cualquiera de al menos cinco partes gramaticales diferentes.
Proceso de reducción de palabras flexivas (o a veces derivadas) a una forma base (por ejemplo, "close" será la raíz de "closed", "closing", "closer", "closer", etc.). La lematización produce resultados similares a la lematización, pero lo hace en base a reglas, no a un diccionario.
Dado un fragmento de texto, encuentre los límites de las oraciones. Los límites de las oraciones suelen estar marcados por puntos u otros signos de puntuación , pero estos mismos caracteres pueden tener otros propósitos (por ejemplo, marcar abreviaturas ).
Determinar el árbol de análisis sintáctico (análisis gramatical) de una oración dada. La gramática de los lenguajes naturales es ambigua y las oraciones típicas tienen múltiples análisis posibles: quizás sorprendentemente, para una oración típica puede haber miles de análisis sintácticos potenciales (la mayoría de los cuales parecerán completamente absurdos para un humano). Hay dos tipos principales de análisis sintáctico: análisis sintáctico de dependencia y análisis sintáctico de circunscripción . El análisis sintáctico de dependencia se centra en las relaciones entre las palabras de una oración (marcando cosas como objetos primarios y predicados), mientras que el análisis sintáctico de circunscripción se centra en construir el árbol de análisis sintáctico utilizando una gramática probabilística libre de contexto (PCFG) (ver también gramática estocástica ).
Semántica léxica (de palabras individuales en contexto)
Dado un flujo de texto, determine qué elementos del texto corresponden a nombres propios, como personas o lugares, y cuál es el tipo de cada uno de esos nombres (por ejemplo, persona, ubicación, organización). Aunque la capitalización puede ayudar a reconocer entidades con nombre en idiomas como el inglés, esta información no puede ayudar a determinar el tipo de entidad con nombre y, en cualquier caso, a menudo es inexacta o insuficiente. Por ejemplo, la primera letra de una oración también se escribe con mayúscula y las entidades con nombre a menudo abarcan varias palabras, de las cuales solo algunas se escriben con mayúscula. Además, muchos otros idiomas en escrituras no occidentales (por ejemplo, chino o árabe ) no tienen ninguna mayúscula, e incluso los idiomas con mayúscula pueden no usarla de manera consistente para distinguir nombres. Por ejemplo, el alemán escribe con mayúscula todos los sustantivos , independientemente de si son nombres, y el francés y el español no escriben con mayúscula los nombres que sirven como adjetivos . Otro nombre para esta tarea es clasificación de tokens. [29]
El análisis de sentimientos es un método computacional utilizado para identificar y clasificar la intención emocional detrás del texto. Esta técnica implica analizar el texto para determinar si el sentimiento expresado es positivo, negativo o neutral. Los modelos para la clasificación de sentimientos generalmente utilizan entradas como n-gramas de palabras , características de frecuencia de término-frecuencia de documento inversa (TF-IDF), características generadas manualmente o emplean modelos de aprendizaje profundo diseñados para reconocer dependencias tanto a largo como a corto plazo en secuencias de texto. Las aplicaciones del análisis de sentimientos son diversas y se extienden a tareas como la categorización de las reseñas de los clientes en varias plataformas en línea. [25]
Muchas palabras tienen más de un significado ; debemos seleccionar el significado que tenga más sentido en el contexto. Para este problema, normalmente se nos proporciona una lista de palabras y significados asociados, por ejemplo, de un diccionario o de un recurso en línea como WordNet .
Muchas palabras (normalmente nombres propios) hacen referencia a entidades nombradas ; aquí tenemos que seleccionar la entidad (un individuo famoso, un lugar, una empresa, etc.) a la que se hace referencia en el contexto.
Semántica relacional (semántica de oraciones individuales)
Dado un fragmento de texto (normalmente una oración), se produce una representación formal de su semántica, ya sea como un gráfico (por ejemplo, en el análisis AMR ) o de acuerdo con un formalismo lógico (por ejemplo, en el análisis DRT ). Este desafío normalmente incluye aspectos de varias tareas de PNL más elementales de la semántica (por ejemplo, etiquetado de roles semánticos, desambiguación del sentido de las palabras) y se puede ampliar para incluir un análisis del discurso completo (por ejemplo, análisis del discurso, correferencia; consulte Comprensión del lenguaje natural a continuación).
Dada una sola oración, identificar y desambiguar predicados semánticos (por ejemplo, marcos verbales ), luego identificar y clasificar los elementos del marco ( roles semánticos ).
Discurso (semántica más allá de las oraciones individuales)
Dada una oración o un fragmento de texto más grande, determine qué palabras ("menciones") se refieren a los mismos objetos ("entidades"). La resolución de anáforas es un ejemplo específico de esta tarea, y se ocupa específicamente de hacer coincidir los pronombres con los sustantivos o nombres a los que se refieren. La tarea más general de resolución de correferencia también incluye la identificación de las llamadas "relaciones puente" que involucran expresiones referenciales . Por ejemplo, en una oración como "Entró a la casa de John por la puerta principal", "la puerta principal" es una expresión referencial y la relación puente que se debe identificar es el hecho de que la puerta a la que se hace referencia es la puerta principal de la casa de John (en lugar de alguna otra estructura a la que también se podría hacer referencia).
Dada una sola oración, identificar y desambiguar predicados semánticos (por ejemplo, marcos verbales ) y sus roles semánticos explícitos en la oración actual (ver Etiquetado de roles semánticos arriba). Luego, identificar los roles semánticos que no se realizan explícitamente en la oración actual, clasificarlos en argumentos que se realizan explícitamente en otra parte del texto y aquellos que no están especificados, y resolver los primeros contra el texto local. Una tarea estrechamente relacionada es la resolución de anáfora cero, es decir, la extensión de la resolución de correferencia a los idiomas pro-drop .
Dados dos fragmentos de texto, determinar si la verdad de uno implica la del otro, implica la negación del otro o permite que el otro sea verdadero o falso. [30]
El objetivo de la minería de argumentos es la extracción e identificación automática de estructuras argumentativas de textos en lenguaje natural con la ayuda de programas informáticos. [31] Dichas estructuras argumentativas incluyen la premisa, las conclusiones, el esquema argumental y la relación entre el argumento principal y el secundario, o el argumento principal y el contraargumento dentro del discurso. [32] [33]
Producir un resumen legible de un fragmento de texto. Se suele utilizar para proporcionar resúmenes de textos de un tipo conocido, como trabajos de investigación o artículos de la sección financiera de un periódico.
Corrección de errores gramaticales
La detección y corrección de errores gramaticales implica una gran variedad de problemas en todos los niveles de análisis lingüístico (fonología/ortografía, morfología, sintaxis, semántica, pragmática). La corrección de errores gramaticales tiene un gran impacto ya que afecta a cientos de millones de personas que usan o adquieren el inglés como segunda lengua. Por lo tanto, ha sido objeto de varias tareas compartidas desde 2011. [34] [35] [36] En lo que respecta a la ortografía, la morfología, la sintaxis y ciertos aspectos de la semántica, y debido al desarrollo de potentes modelos neuronales del lenguaje como GPT-2 , ahora (2019) se puede considerar un problema en gran medida resuelto y se está comercializando en varias aplicaciones comerciales.
Traducir automáticamente texto de un idioma humano a otro. Este es uno de los problemas más difíciles y pertenece a una clase de problemas que coloquialmente se denominan " completos con IA ", es decir, que requieren todos los diferentes tipos de conocimiento que poseen los humanos (gramática, semántica, hechos sobre el mundo real, etc.) para resolverlos correctamente.
Convertir fragmentos de texto en representaciones más formales, como estructuras lógicas de primer orden , que son más fáciles de manipular para los programas informáticos . La comprensión del lenguaje natural implica la identificación de la semántica deseada a partir de las múltiples semánticas posibles que se pueden derivar de una expresión de lenguaje natural que generalmente toma la forma de notaciones organizadas de conceptos de lenguaje natural. La introducción y creación de metamodelos y ontologías del lenguaje son soluciones empíricas eficientes. Se espera una formalización explícita de la semántica del lenguaje natural sin confusiones con suposiciones implícitas como la suposición de mundo cerrado (CWA) frente a la suposición de mundo abierto , o Sí/No subjetivo frente a Verdadero/Falso objetivo para la construcción de una base de formalización semántica. [37]
Convertir información de bases de datos informáticas o intenciones semánticas en lenguaje humano legible.
Generación de libros
La creación de libros completos no es una tarea de PNL propiamente dicha, sino una extensión de la generación de lenguaje natural y otras tareas de PNL. El primer libro generado por máquina fue creado por un sistema basado en reglas en 1984 (Racter, The policeman's beard is half-constructed ). [38] El primer trabajo publicado por una red neuronal se publicó en 2018, 1 the Road , comercializado como novela, contiene sesenta millones de palabras. Ambos sistemas son básicamente modelos de lenguaje elaborados pero sin sentido (libres de semántica) . El primer libro de ciencia generado por máquina se publicó en 2019 (Beta Writer, Lithium-Ion Batteries , Springer, Cham). [39] A diferencia de Racter y 1 the Road , este se basa en el conocimiento fáctico y en el resumen del texto.
Una plataforma de inteligencia artificial para documentos se basa en la tecnología de procesamiento del lenguaje natural (PLN) y permite a los usuarios sin experiencia previa en inteligencia artificial, aprendizaje automático o PNL entrenar rápidamente una computadora para extraer los datos específicos que necesitan de diferentes tipos de documentos. La inteligencia artificial para documentos impulsada por PNL permite a los equipos no técnicos acceder rápidamente a la información oculta en los documentos, por ejemplo, abogados, analistas de negocios y contadores. [40]
Dada una pregunta en lenguaje humano, determine su respuesta. Las preguntas típicas tienen una respuesta correcta específica (como "¿Cuál es la capital de Canadá?"), pero a veces también se consideran preguntas abiertas (como "¿Cuál es el significado de la vida?").
Dada una descripción de un vídeo, generar un vídeo que coincida con la descripción. [44] [45]
Tendencias generales y (posibles) direcciones futuras
Basándonos en las tendencias de larga data en el campo, es posible extrapolar las direcciones futuras de la PNL. A partir de 2020, se pueden observar tres tendencias entre los temas de la serie de tareas compartidas de CoNLL de larga data: [46]
Interés en aspectos cada vez más abstractos y "cognitivos" del lenguaje natural (1999-2001: análisis superficial, 2002-03: reconocimiento de entidades nombradas, 2006-09/2017-18: sintaxis de dependencia, 2004-05/2008-09 etiquetado de roles semánticos, 2011-12 correferencia, 2015-16: análisis del discurso, 2019: análisis semántico).
Creciente interés en el multilingüismo y, potencialmente, en la multimodalidad (inglés desde 1999; español y holandés desde 2002; alemán desde 2003; búlgaro, danés, japonés, portugués, esloveno, sueco y turco desde 2006; vasco, catalán, chino, griego, húngaro, italiano y turco desde 2007; checo desde 2009; árabe desde 2012; 2017: más de 40 idiomas; 2018: más de 60/100 idiomas)
Eliminación de representaciones simbólicas (métodos basados en reglas sobre supervisados hacia métodos débilmente supervisados, aprendizaje de representaciones y sistemas de extremo a extremo)
Cognición
La mayoría de las aplicaciones de PNL de nivel superior implican aspectos que emulan el comportamiento inteligente y la comprensión aparente del lenguaje natural. En términos más generales, la operacionalización técnica de aspectos cada vez más avanzados del comportamiento cognitivo representa una de las trayectorias de desarrollo del PNL (ver las tendencias entre las tareas compartidas de CoNLL más arriba).
La cognición se refiere a "la acción mental o proceso de adquisición de conocimiento y comprensión a través del pensamiento, la experiencia y los sentidos". [47] La ciencia cognitiva es el estudio científico interdisciplinario de la mente y sus procesos. [48] La lingüística cognitiva es una rama interdisciplinaria de la lingüística, que combina el conocimiento y la investigación tanto de la psicología como de la lingüística. [49] Especialmente durante la era de la PNL simbólica, el área de la lingüística computacional mantuvo fuertes vínculos con los estudios cognitivos.
A modo de ejemplo, George Lakoff ofrece una metodología para construir algoritmos de procesamiento del lenguaje natural (PLN) a través de la perspectiva de la ciencia cognitiva, junto con los hallazgos de la lingüística cognitiva, [50] con dos aspectos definitorios:
Aplique la teoría de la metáfora conceptual , explicada por Lakoff como "la comprensión de una idea, en términos de otra" que proporciona una idea de la intención del autor. [51] Por ejemplo, considere la palabra inglesa grande . Cuando se usa en una comparación ("Ese es un árbol grande"), la intención del autor es dar a entender que el árbol es físicamente grande en relación con otros árboles o la experiencia del autor. Cuando se usa metafóricamente ("Mañana es un gran día"), la intención del autor es dar a entender importancia . La intención detrás de otros usos, como en "Ella es una persona grande", seguirá siendo algo ambigua para una persona y un algoritmo cognitivo de PNL por igual sin información adicional.
Asignar medidas relativas de significado a una palabra, frase, oración o fragmento de texto basándose en la información presentada antes y después del fragmento de texto que se está analizando, por ejemplo, mediante una gramática probabilística libre de contexto (PCFG). La ecuación matemática para dichos algoritmos se presenta en la patente estadounidense 9269353: [52]
Dónde
RMM es la medida relativa del significado
Un token es cualquier bloque de texto, oración, frase o palabra.
N es el número de tokens que se están analizando
PMM es la medida probable de significado basada en un corpus
d es la ubicación distinta de cero del token a lo largo de la secuencia de N tokens
PF es la función de probabilidad específica de un idioma.
Los vínculos con la lingüística cognitiva son parte de la herencia histórica del PNL, pero se han abordado con menos frecuencia desde el giro estadístico durante la década de 1990. Sin embargo, se han perseguido enfoques para desarrollar modelos cognitivos hacia marcos técnicamente operacionalizables en el contexto de varios marcos, por ejemplo, de gramática cognitiva, [53] gramática funcional, [54] gramática de construcción, [55] psicolingüística computacional y neurociencia cognitiva (por ejemplo, ACT-R ), sin embargo, con una aceptación limitada en la PNL convencional (medida por la presencia en las principales conferencias [56] de la ACL ). Más recientemente, las ideas del PNL cognitivo han revivido como un enfoque para lograr la explicabilidad , por ejemplo, bajo la noción de "IA cognitiva". [57] De la misma manera, las ideas de PNL cognitivo son inherentes a los modelos neuronales de PNL multimodal (aunque rara vez se hacen explícitos) [58] y a los desarrollos en inteligencia artificial , específicamente herramientas y tecnologías que utilizan enfoques de modelos de lenguaje grandes [59] y nuevas direcciones en inteligencia artificial general basadas en el principio de energía libre [60] por el neurocientífico y teórico británico del University College de Londres Karl J. Friston .
^ Hutchins, J. (2005). "La historia de la traducción automática en pocas palabras" (PDF) .[ fuente autopublicada ]
^ "ALPAC: el (in)famoso informe", John Hutchins, MT News International, núm. 14, junio de 1996, págs. 9-12.
^ Crevier 1993, pp. 146–148 , véase también Buchanan 2005, p. 56 : "Los primeros programas estaban necesariamente limitados en su alcance por el tamaño y la velocidad de la memoria".Error de harvnb: no hay destino: CITEREFCrevier1993 ( ayuda )Error de harvnb: no hay destino: CITEREFBuchanan2005 ( ayuda )
^ Koskenniemi, Kimmo (1983), Morfología de dos niveles: un modelo computacional general de reconocimiento y producción de formas de palabras (PDF) , Departamento de Lingüística General, Universidad de Helsinki
^ Joshi, AK y Weinstein, S. (agosto de 1981). Control de la inferencia: papel de algunos aspectos de la estructuración del discurso. En IJCAI (pp. 385-387).
^ Guida, G.; Mauri, G. (julio de 1986). "Evaluación de sistemas de procesamiento del lenguaje natural: cuestiones y enfoques". Actas del IEEE . 74 (7): 1026–1035. doi :10.1109/PROC.1986.13580. ISSN 1558-2256. S2CID 30688575.
^ La lingüística chomskiana fomenta la investigación de " casos extremos " que subrayan los límites de sus modelos teóricos (comparables a los fenómenos patológicos en matemáticas), típicamente creados usando experimentos mentales , en lugar de la investigación sistemática de fenómenos típicos que ocurren en datos del mundo real, como es el caso de la lingüística de corpus . La creación y uso de tales corpus de datos del mundo real es una parte fundamental de los algoritmos de aprendizaje automático para el procesamiento del lenguaje natural. Además, los fundamentos teóricos de la lingüística chomskiana, como el llamado argumento de la " pobreza del estímulo ", implican que los algoritmos de aprendizaje generales, como se usan típicamente en el aprendizaje automático, no pueden tener éxito en el procesamiento del lenguaje. Como resultado, el paradigma chomskiano desalentó la aplicación de tales modelos al procesamiento del lenguaje.
^ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (1 de marzo de 2003). "Un modelo de lenguaje probabilístico neuronal". The Journal of Machine Learning Research . 3 : 1137–1155 – vía ACM Digital Library.
^ Mikolov, Tomáš; Karafiát, Martín; Burget, Lukáš; Černocký, Jan; Khudanpur, Sanjeev (26 de septiembre de 2010). "Modelo de lenguaje basado en redes neuronales recurrentes" (PDF) . Entre discursos 2010 . págs. 1045-1048. doi : 10.21437/Interspeech.2010-343. S2CID 17048224.{{cite book}}: |journal=ignorado ( ayuda )
^ Goldberg, Yoav (2016). "Una introducción a los modelos de redes neuronales para el procesamiento del lenguaje natural". Revista de investigación en inteligencia artificial . 57 : 345–420. arXiv : 1807.10854 . doi :10.1613/jair.4992. S2CID 8273530.
^ Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). Explorando los límites del modelado del lenguaje . arXiv : 1602.02410 . Código Bibliográfico :2016arXiv160202410J.
^ Choe, Do Kook; Charniak, Eugene. "El análisis sintáctico como modelado del lenguaje". Emnlp 2016. Archivado desde el original el 23 de octubre de 2018. Consultado el 22 de octubre de 2018 .
^ Vinyals, Oriol; et al. (2014). "Gramática como lengua extranjera" (PDF) . Nips2015 . arXiv : 1412.7449 . Código Bibliográfico :2014arXiv1412.7449V.
^ Turchin, Alexander; Florez Builes, Luisa F. (19 de marzo de 2021). "Uso del procesamiento del lenguaje natural para medir y mejorar la calidad de la atención de la diabetes: una revisión sistemática". Revista de ciencia y tecnología de la diabetes . 15 (3): 553–560. doi :10.1177/19322968211000831. ISSN 1932-2968. PMC 8120048 . PMID 33736486.
^ Lee, Jennifer; Yang, Samuel; Holland-Hall, Cynthia; Sezgin, Emre; Gill, Manjot; Linwood, Simon; Huang, Yungui; Hoffman, Jeffrey (10 de junio de 2022). "Prevalencia de términos sensibles en notas clínicas utilizando técnicas de procesamiento del lenguaje natural: estudio observacional". JMIR Medical Informatics . 10 (6): e38482. doi : 10.2196/38482 . ISSN 2291-9694. PMC 9233261 . PMID 35687381.
^ Winograd, Terry (1971). Procedimientos como representación de datos en un programa informático para la comprensión del lenguaje natural (Tesis).
^ Schank, Roger C.; Abelson, Robert P. (1977). Guiones, planes, objetivos y comprensión: una investigación sobre las estructuras del conocimiento humano . Hillsdale: Erlbaum. ISBN0-470-99033-3.
^ Mark Johnson. Cómo la revolución estadística cambia la lingüística (computacional). Actas del taller de 2009 de la EACL sobre la interacción entre la lingüística y la lingüística computacional.
^ Philip Resnik. Cuatro revoluciones. Language Log, 5 de febrero de 2011.
^ Socher, Richard. "Tutorial de aprendizaje profundo para NLP-ACL 2012". www.socher.org . Consultado el 17 de agosto de 2020 .Este fue uno de los primeros tutoriales sobre aprendizaje profundo que se presentó en la ACL 2012 y despertó interés y (en ese momento) escepticismo por parte de la mayoría de los participantes. Hasta entonces, el aprendizaje neuronal era básicamente rechazado debido a su falta de interpretabilidad estadística. Hasta 2015, el aprendizaje profundo se había convertido en el marco principal del procesamiento del lenguaje natural. [El enlace no funciona, prueba http://web.stanford.edu/class/cs224n/]
^ Segev, Elad (2022). Análisis de redes semánticas en las ciencias sociales. Londres: Routledge. ISBN9780367636524Archivado del original el 5 de diciembre de 2021 . Consultado el 5 de diciembre de 2021 .
^ Yi, Chucai; Tian, Yingli (2012), "Lectura asistida de textos en entornos complejos para personas ciegas", Análisis y reconocimiento de documentos basados en cámaras , Lecture Notes in Computer Science, vol. 7139, Springer Berlin Heidelberg, págs. 15–28, CiteSeerX 10.1.1.668.869 , doi :10.1007/978-3-642-29364-1_2, ISBN9783642293634
^ ab "Procesamiento del lenguaje natural (PLN): una guía completa". www.deeplearning.ai . 2023-01-11 . Consultado el 2024-05-05 .
^ "¿Qué es el procesamiento del lenguaje natural? Introducción al procesamiento del lenguaje natural en el aprendizaje automático". GyanSetu! . 2020-12-06 . Consultado el 2021-01-09 .
^ Kishorjit, N.; Vidya, Raj RK.; Nirmal, Y.; Sivaji, B. (2012). "Identificación de morfemas de Manipuri" (PDF) . Actas del 3.er taller sobre procesamiento del lenguaje natural en el sur y sudeste asiático (SANLP) . COLING 2012, Mumbai, diciembre de 2012: 95–108.{{cite journal}}: Mantenimiento de CS1: ubicación ( enlace )
^ Klein, Dan; Manning, Christopher D. (2002). "Inducción gramatical del lenguaje natural utilizando un modelo de contexto constituyente" (PDF) . Avances en sistemas de procesamiento de información neuronal .
^ Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). "Extracción de información de precisión para la epidemiología de enfermedades raras a escala". Revista de Medicina Traslacional . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC 9972634 . PMID 36855134.
^ PASCAL Reconocimiento del desafío de implicación textual (RTE-7) https://tac.nist.gov//2011/RTE/
^ Lippi, Marco; Torroni, Paolo (20 de abril de 2016). "Minería de argumentos: estado del arte y tendencias emergentes". ACM Transactions on Internet Technology . 16 (2): 1–25. doi :10.1145/2850417. hdl : 11585/523460 . ISSN 1533-5399. S2CID 9561587.
^ "Minería de argumentos: tutorial de IJCAI2016". www.i3s.unice.fr . Consultado el 9 de marzo de 2021 .
^ "Enfoques de PNL para la argumentación computacional – ACL 2016, Berlín" . Consultado el 9 de marzo de 2021 .
^ Administración. «Centro de Tecnología del Lenguaje (CLT)». Universidad Macquarie . Consultado el 11 de enero de 2021 .
^ "Tarea compartida: corrección de errores gramaticales". www.comp.nus.edu.sg . Consultado el 11 de enero de 2021 .
^ "Tarea compartida: corrección de errores gramaticales". www.comp.nus.edu.sg . Consultado el 11 de enero de 2021 .
^ Duan, Yucong; Cruz, Christophe (2011). "Formalización de la semántica del lenguaje natural a través de la conceptualización a partir de la existencia". Revista Internacional de Innovación, Gestión y Tecnología . 2 (1): 37–42. Archivado desde el original el 9 de octubre de 2011.
^ "UBUWEB:: Racter". www.ubu.com . Consultado el 17 de agosto de 2020 .
^ Autor, Beta (2019). Baterías de iones de litio . doi :10.1007/978-3-030-16800-1. ISBN978-3-030-16799-8.ID S2C 155818532.
^ "Documento Understanding AI on Google Cloud (Cloud Next '19) – YouTube". www.youtube.com . 11 de abril de 2019. Archivado desde el original el 2021-10-30 . Consultado el 2021-01-11 .
^ Robertson, Adi (6 de abril de 2022). "El generador de imágenes DALL-E AI de OpenAI ahora también puede editar imágenes". The Verge . Consultado el 7 de junio de 2022 .
^ "El grupo de procesamiento del lenguaje natural de Stanford". nlp.stanford.edu . Consultado el 7 de junio de 2022 .
^ Coyne, Bob; Sproat, Richard (1 de agosto de 2001). "WordsEye". Actas de la 28.ª conferencia anual sobre gráficos por ordenador y técnicas interactivas . SIGGRAPH '01. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 487–496. doi :10.1145/383259.383316. ISBN978-1-58113-374-5. Número de identificación del sujeto 3842372.
^ "Google anuncia avances de inteligencia artificial en conversión de texto a video, traducción de idiomas y más". VentureBeat . 2022-11-02 . Consultado el 2022-11-09 .
^ Vincent, James (29 de septiembre de 2022). "El nuevo generador de IA de texto a video de Meta es como DALL-E para video". The Verge . Consultado el 9 de noviembre de 2022 .
^ "Tareas compartidas anteriores | CoNLL" www.conll.org . Consultado el 11 de enero de 2021 .
^ "Cognición". Lexico . Oxford University Press y Dictionary.com . Archivado desde el original el 15 de julio de 2020 . Consultado el 6 de mayo de 2020 .
^ "Pregúntele al científico cognitivo". Federación Estadounidense de Maestros . 8 de agosto de 2014. La ciencia cognitiva es un campo interdisciplinario de investigadores de la lingüística, la psicología, la neurociencia, la filosofía, la informática y la antropología que buscan comprender la mente.
^ Robinson, Peter (2008). Manual de lingüística cognitiva y adquisición de segundas lenguas . Routledge. Págs. 3-8. ISBN.978-0-805-85352-0.
^ Lakoff, George (1999). La filosofía en la carne: la mente encarnada y su desafío a la filosofía occidental; Apéndice: El paradigma de la teoría neuronal del lenguaje . Nueva York Basic Books. págs. 569–583. ISBN978-0-465-05674-3.
^ Strauss, Claudia (1999). Una teoría cognitiva del significado cultural . Cambridge University Press. pp. 156–164. ISBN978-0-521-59541-4.
^ Patente estadounidense 9269353
^ "Anotación cognitiva conceptual universal (UCCA)". Anotación cognitiva conceptual universal (UCCA) . Consultado el 11 de enero de 2021 .
^ Rodríguez, FC y Mairal-Usón, R. (2016). Construyendo una gramática computacional RRG. Onomazeína , (34), 86-117.
^ "Gramática de construcción fluida: un sistema de procesamiento totalmente operativo para gramáticas de construcción" . Consultado el 11 de enero de 2021 .
^ "Portal de miembros de la ACL | Portal de miembros de la Asociación de Lingüística Computacional" www.aclweb.org . Consultado el 11 de enero de 2021 .
^ "Trozos y reglas". W3C . Consultado el 11 de enero de 2021 .
^ Socher, Richard; Karpathy, Andrej; Le, Quoc V.; Manning, Christopher D.; Ng, Andrew Y. (2014). "Semántica compositiva fundamentada para encontrar y describir imágenes con oraciones". Transacciones de la Asociación de Lingüística Computacional . 2 : 207–218. doi : 10.1162/tacl_a_00177 . S2CID 2317858.
^ Dasgupta, Ishita; Lampinen, Andrew K.; Chan, Stephanie CY; Creswell, Antonia; Kumaran, Dharshan; McClelland, James L.; Hill, Felix (2022). "Los modelos de lenguaje muestran efectos de contenido similares a los humanos en el razonamiento, Dasgupta, Lampinen et al". arXiv : 2207.07051 [cs.CL].
^ Friston, Karl J. (2022). Inferencia activa: el principio de energía libre en la mente, el cerebro y el comportamiento; Capítulo 4 Los modelos generativos de inferencia activa . The MIT Press. ISBN978-0-262-36997-8.
Lectura adicional
Bates, M (1995). "Modelos de comprensión del lenguaje natural". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 92 (22): 9977–9982. Bibcode :1995PNAS...92.9977B. doi : 10.1073/pnas.92.22.9977 . PMC 40721 . PMID 7479812.
Steven Bird, Ewan Klein y Edward Loper (2009). Procesamiento del lenguaje natural con Python . O'Reilly Media. ISBN 978-0-596-51649-9 .
Kenna Hughes-Castleberry, "A Murder Mystery Puzzle: The literary puzzle Cain's Jawbone , which has stumped human humans for decenios, revealed the limitations of natural-language-processing algorithms", Scientific American , vol. 329, no. 4 (noviembre de 2023), pp. 81–82. "Esta competición de misterio de asesinato ha revelado que, aunque los modelos de PNL ( procesamiento del lenguaje natural ) son capaces de hazañas increíbles, sus capacidades están muy limitadas por la cantidad de contexto que reciben. Esto [...] podría causar [dificultades] para los investigadores que esperan usarlos para hacer cosas como analizar lenguas antiguas . En algunos casos, hay pocos registros históricos sobre civilizaciones desaparecidas hace mucho tiempo que sirvan como datos de entrenamiento para tal propósito". (p. 82.)
Daniel Jurafsky y James H. Martin (2008). Speech and Language Processing , 2.ª edición. Pearson Prentice Hall. ISBN 978-0-13-187321-6 .
Mohamed Zakaria Kurdi (2016). Procesamiento del lenguaje natural y lingüística computacional: habla, morfología y sintaxis , volumen 1. ISTE-Wiley. ISBN 978-1848218482 .
Mohamed Zakaria Kurdi (2017). Procesamiento del lenguaje natural y lingüística computacional: semántica, discurso y aplicaciones , volumen 2. ISTE-Wiley. ISBN 978-1848219212 .
Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze (2008). Introducción a la recuperación de información . Cambridge University Press. ISBN 978-0-521-86571-5 . Versiones oficiales en html y pdf disponibles sin cargo.
Christopher D. Manning y Hinrich Schütze (1999). Fundamentos del procesamiento estadístico del lenguaje natural . The MIT Press. ISBN 978-0-262-13360-9 .
David MW Powers y Christopher CR Turk (1989). Aprendizaje automático del lenguaje natural . Springer-Verlag. ISBN 978-0-387-19557-5 .
Enlaces externos
Medios relacionados con el procesamiento del lenguaje natural en Wikimedia Commons