Las primeras formas de redes neuronales se inspiraron en los nodos de procesamiento de información y comunicación distribuida de los sistemas biológicos , en particular el cerebro humano . Sin embargo, las redes neuronales actuales no pretenden modelar la función cerebral de los organismos y, en general, se las considera modelos de baja calidad para ese propósito. [6]
Básicamente, el aprendizaje profundo se refiere a una clase de algoritmos de aprendizaje automático en los que se utiliza una jerarquía de capas para transformar los datos de entrada en una representación ligeramente más abstracta y compuesta. Por ejemplo, en un modelo de reconocimiento de imágenes , la entrada sin procesar puede ser una imagen (representada como un tensor de píxeles ). La primera capa de representación puede intentar identificar formas básicas como líneas y círculos, la segunda capa puede componer y codificar disposiciones de bordes, la tercera capa puede codificar una nariz y ojos, y la cuarta capa puede reconocer que la imagen contiene una cara.
Es importante destacar que un proceso de aprendizaje profundo puede aprender por sí solo qué características colocar de manera óptima en qué nivel . Antes del aprendizaje profundo, las técnicas de aprendizaje automático a menudo implicaban ingeniería de características elaborada a mano para transformar los datos en una representación más adecuada para que un algoritmo de clasificación pudiera operar sobre ellos. En el enfoque de aprendizaje profundo, las características no se elaboran a mano y el modelo descubre representaciones de características útiles a partir de los datos de manera automática. Esto no elimina la necesidad de realizar ajustes manuales; por ejemplo, variar la cantidad y el tamaño de las capas puede proporcionar diferentes grados de abstracción. [8] [2]
La palabra "profundo" en "aprendizaje profundo" se refiere al número de capas a través de las cuales se transforman los datos. Más precisamente, los sistemas de aprendizaje profundo tienen una profundidad sustancial de ruta de asignación de crédito (CAP). La CAP es la cadena de transformaciones de entrada a salida. Las CAP describen conexiones potencialmente causales entre la entrada y la salida. Para una red neuronal de propagación hacia adelante , la profundidad de las CAP es la de la red y es el número de capas ocultas más uno (ya que la capa de salida también está parametrizada). Para las redes neuronales recurrentes , en las que una señal puede propagarse a través de una capa más de una vez, la profundidad de la CAP es potencialmente ilimitada. [9] No existe un umbral de profundidad acordado universalmente que divida el aprendizaje superficial del aprendizaje profundo, pero la mayoría de los investigadores coinciden en que el aprendizaje profundo implica una profundidad de CAP superior a dos. Se ha demostrado que la CAP de profundidad dos es un aproximador universal en el sentido de que puede emular cualquier función. [10] Más allá de eso, más capas no se suman a la capacidad de aproximación de funciones de la red. Los modelos profundos (CAP > dos) pueden extraer mejores características que los modelos superficiales y, por lo tanto, las capas adicionales ayudan a aprender las características de manera efectiva.
Las arquitecturas de aprendizaje profundo se pueden construir con un método codicioso de capa por capa. [11] El aprendizaje profundo ayuda a desenredar estas abstracciones y a identificar qué características mejoran el rendimiento. [8]
Los algoritmos de aprendizaje profundo se pueden aplicar a tareas de aprendizaje no supervisado. Este es un beneficio importante porque los datos no etiquetados son más abundantes que los etiquetados. Ejemplos de estructuras profundas que se pueden entrenar de manera no supervisada son las redes de creencias profundas . [8] [12]
El término Deep Learning fue introducido en la comunidad de aprendizaje automático por Rina Dechter en 1986, [13] y en las redes neuronales artificiales por Igor Aizenberg y colegas en 2000, en el contexto de las neuronas de umbral booleano . [14] [15] Aunque la historia de su aparición es aparentemente más complicada. [16]
El teorema clásico de aproximación universal se refiere a la capacidad de las redes neuronales de propagación hacia adelante con una única capa oculta de tamaño finito para aproximarse a funciones continuas . [17] [18] [19] [20] En 1989, George Cybenko publicó la primera prueba para funciones de activación sigmoideas [17] y Kurt Hornik la generalizó a arquitecturas multicapa de propagación hacia adelante en 1991. [18] Un trabajo reciente también mostró que la aproximación universal también se cumple para funciones de activación no acotadas, como la unidad lineal rectificada de Kunihiko Fukushima . [25] [26]
El teorema de aproximación universal para redes neuronales profundas se refiere a la capacidad de las redes con ancho limitado pero a las que se les permite crecer en profundidad. Lu et al. [21] demostraron que si el ancho de una red neuronal profunda con activación ReLU es estrictamente mayor que la dimensión de entrada, entonces la red puede aproximarse a cualquier función integrable de Lebesgue ; si el ancho es menor o igual a la dimensión de entrada, entonces una red neuronal profunda no es un aproximador universal.
Existen dos tipos de redes neuronales artificiales (RNA): redes neuronales de propagación hacia adelante (FNN) o perceptrones multicapa (MLP) y redes neuronales recurrentes (RNN). Las RNN tienen ciclos en su estructura de conectividad, las FNN no. En la década de 1920, Wilhelm Lenz y Ernst Ising crearon el modelo de Ising [28] [29] que es esencialmente una arquitectura de RNN sin aprendizaje que consiste en elementos de umbral similares a neuronas. En 1972, Shun'ichi Amari hizo que esta arquitectura fuera adaptativa. [30] [31] Su RNN de aprendizaje fue republicada por John Hopfield en 1982. [32] Otras redes neuronales recurrentes tempranas fueron publicadas por Kaoru Nakano en 1971. [33] [34] Ya en 1948, Alan Turing produjo un trabajo sobre "Maquinaria inteligente" que no fue publicado en vida de él, [35] que contiene "ideas relacionadas con la evolución artificial y las RNN de aprendizaje". [31]
Frank Rosenblatt (1958) [36] propuso el perceptrón, un MLP con 3 capas: una capa de entrada, una capa oculta con pesos aleatorios que no aprenden y una capa de salida. Más tarde publicó un libro en 1962 que también introdujo variantes y experimentos informáticos, incluida una versión con perceptrones de cuatro capas "con redes preterminales adaptativas" donde las dos últimas capas han aprendido pesos (aquí le da crédito a HD Block y BW Knight). [37] : sección 16 El libro cita una red anterior de RD Joseph (1960) [38] "funcionalmente equivalente a una variación de" este sistema de cuatro capas (el libro menciona a Joseph más de 30 veces). ¿Debería considerarse a Joseph el creador de los perceptrones multicapa adaptativos adecuados con unidades ocultas de aprendizaje? Desafortunadamente, el algoritmo de aprendizaje no era funcional y cayó en el olvido.
El primer algoritmo de aprendizaje profundo funcional fue el método de grupo de manejo de datos , un método para entrenar redes neuronales arbitrariamente profundas, publicado por Alexey Ivakhnenko y Lapa en 1965. Lo consideraron como una forma de regresión polinómica, [39] o una generalización del perceptrón de Rosenblatt. [40] Un artículo de 1971 describió una red profunda con ocho capas entrenadas por este método, [41] que se basa en el entrenamiento capa por capa a través del análisis de regresión. Las unidades ocultas superfluas se podan utilizando un conjunto de validación separado. Dado que las funciones de activación de los nodos son polinomios de Kolmogorov-Gabor, estas también fueron las primeras redes profundas con unidades multiplicativas o "puertas". [31]
El primer perceptrón multicapa de aprendizaje profundo entrenado por descenso de gradiente estocástico [42] fue publicado en 1967 por Shun'ichi Amari . [43] En experimentos informáticos realizados por el estudiante de Amari, Saito, un MLP de cinco capas con dos capas modificables aprendió representaciones internas para clasificar clases de patrones no linealmente separables. [31] Los desarrollos posteriores en hardware y ajustes de hiperparámetros han hecho que el descenso de gradiente estocástico de extremo a extremo sea la técnica de entrenamiento actualmente dominante.
En 1969, Kunihiko Fukushima introdujo la función de activación ReLU (unidad lineal rectificada) . [25] [31] El rectificador se ha convertido en la función de activación más popular para el aprendizaje profundo. [44]
Las arquitecturas de aprendizaje profundo para redes neuronales convolucionales (CNN) con capas convolucionales y capas de submuestreo comenzaron con el Neocognitron introducido por Kunihiko Fukushima en 1979, aunque no entrenado por retropropagación. [45] [46]
La retropropagación es una aplicación eficiente de la regla de la cadena derivada por Gottfried Wilhelm Leibniz en 1673 [47] a redes de nodos diferenciables. La terminología "errores de retropropagación" fue introducida en 1962 por Rosenblatt, [37] pero no sabía cómo implementarla, aunque Henry J. Kelley tuvo un precursor continuo de la retropropagación en 1960 en el contexto de la teoría de control . [48] La forma moderna de retropropagación se publicó por primera vez en la tesis de maestría de Seppo Linnainmaa (1970). [49] [50] [31] GM Ostrovski et al. Lo republicó en 1971. [51] [52] Paul Werbos aplicó la retropropagación a las redes neuronales en 1982 [53] (su tesis doctoral de 1974, reimpresa en un libro de 1994, [54] aún no describía el algoritmo [52] ). En 1986, David E. Rumelhart et al. popularizaron la retropropagación pero no citaron el trabajo original. [55] [56]
Década de 1980-2000
La red neuronal con retardo temporal (TDNN) fue introducida en 1987 por Alex Waibel para aplicar la CNN al reconocimiento de fonemas. Utilizaba convoluciones, reparto de peso y retropropagación. [57] [58] En 1988, Wei Zhang aplicó una CNN entrenada por retropropagación al reconocimiento de alfabetos. [59]
En 1989, Yann LeCun et al. crearon una CNN llamada LeNet para reconocer códigos postales escritos a mano en el correo. El entrenamiento requería 3 días. [60] En 1990, Wei Zhang implementó una CNN en hardware de computación óptica . [61] En 1991, se aplicó una CNN a la segmentación de objetos de imágenes médicas [62] y a la detección de cáncer de mama en mamografías. [63] LeNet -5 (1998), una CNN de 7 niveles de Yann LeCun et al., que clasifica dígitos, fue aplicada por varios bancos para reconocer números escritos a mano en cheques digitalizados en imágenes de 32x32 píxeles. [64]
Las redes neuronales recurrentes (RNN) [28] [30] se desarrollaron aún más en la década de 1980. La recurrencia se utiliza para el procesamiento de secuencias y, cuando se desenrolla una red recurrente, se asemeja matemáticamente a una capa de retroalimentación profunda. En consecuencia, tienen propiedades y problemas similares, y sus desarrollos tuvieron influencias mutuas. En RNN, dos trabajos influyentes tempranos fueron la red Jordan (1986) [65] y la red Elman (1990), [66] que aplicaron RNN para estudiar problemas en psicología cognitiva .
En la década de 1980, la retropropagación no funcionó bien para el aprendizaje profundo con largas rutas de asignación de créditos. Para superar este problema, en 1991, Jürgen Schmidhuber propuso una jerarquía de RNN preentrenadas un nivel a la vez mediante aprendizaje autosupervisado donde cada RNN intenta predecir su propia próxima entrada, que es la siguiente entrada inesperada de la RNN inferior. [67] [68] Este "compresor de historial neuronal" utiliza codificación predictiva para aprender representaciones internas en múltiples escalas de tiempo autoorganizadas. Esto puede facilitar sustancialmente el aprendizaje profundo posterior. La jerarquía de RNN se puede colapsar en una sola RNN, destilando una red de fragmentación de nivel superior en una red de automatizador de nivel inferior . [67] [68] [31] En 1993, un compresor de historial neuronal resolvió una tarea de "aprendizaje muy profundo" que requería más de 1000 capas subsiguientes en una RNN desplegada en el tiempo. [69] La "P" en ChatGPT se refiere a dicho entrenamiento previo.
La tesis de diploma de Sepp Hochreiter (1991) [70] implementó el compresor de historia neuronal, [67] e identificó y analizó el problema del gradiente evanescente . [70] [71] Hochreiter propuso conexiones residuales recurrentes para resolver el problema del gradiente evanescente. Esto condujo a la memoria a corto plazo larga (LSTM), publicada en 1995. [72] LSTM puede aprender tareas de "aprendizaje muy profundo" [9] con largas rutas de asignación de créditos que requieren recuerdos de eventos que sucedieron miles de pasos de tiempo discretos antes. Esa LSTM aún no era la arquitectura moderna, que requería una "puerta de olvido", introducida en 1999, [73] que se convirtió en la arquitectura RNN estándar.
En 1991, Jürgen Schmidhuber también publicó redes neuronales adversarias que compiten entre sí en forma de un juego de suma cero , donde la ganancia de una red es la pérdida de la otra. [74] [75] La primera red es un modelo generativo que modela una distribución de probabilidad sobre patrones de salida. La segunda red aprende por descenso de gradiente para predecir las reacciones del entorno a estos patrones. Esto se llamó "curiosidad artificial". En 2014, este principio se utilizó en redes generativas adversarias (GAN). [76]
Durante muchos años se han explorado tanto el aprendizaje superficial como el profundo (por ejemplo, redes recurrentes) de las ANN para el reconocimiento de voz . [83] [84] [85] Estos métodos nunca superaron la tecnología del modelo de mezcla gaussiana de elaboración interna no uniforme / modelo de Markov oculto (GMM-HMM) basada en modelos generativos de habla entrenados de forma discriminativa. [86] Se han analizado las dificultades clave, incluida la disminución del gradiente [70] y la estructura de correlación temporal débil en los modelos predictivos neuronales. [87] [88] Las dificultades adicionales fueron la falta de datos de entrenamiento y la potencia informática limitada.
La mayoría de los investigadores en reconocimiento de voz se alejaron de las redes neuronales para dedicarse al modelado generativo. Una excepción fue SRI International a fines de la década de 1990. Financiado por la NSA y la DARPA del gobierno de los EE. UU. , SRI investigó en reconocimiento de habla y de habla . El equipo de reconocimiento de habla dirigido por Larry Heck informó un éxito significativo con redes neuronales profundas en el procesamiento de voz en el punto de referencia de reconocimiento de habla del NIST de 1998. [89] [90] Se implementó en Nuance Verifier, lo que representó la primera aplicación industrial importante del aprendizaje profundo. [91]
El principio de elevar las características "en bruto" por sobre la optimización hecha a mano se exploró por primera vez con éxito en la arquitectura del autocodificador profundo en el espectrograma "en bruto" o las características del banco de filtros lineales a fines de la década de 1990, [90] mostrando su superioridad sobre las características Mel-Cepstral que contienen etapas de transformación fija de los espectrogramas. Las características en bruto del habla, formas de onda , produjeron posteriormente excelentes resultados a mayor escala. [92]
Década de 2000
Las redes neuronales entraron en un punto muerto y los modelos más simples que utilizan características específicas de cada tarea, como filtros de Gabor y máquinas de vectores de soporte (SVM), se convirtieron en las opciones preferidas en los años 1990 y 2000, debido al costo computacional de las redes neuronales artificiales y a la falta de comprensión de cómo el cerebro conecta sus redes biológicas. [ cita requerida ]
En 2006, Geoff Hinton , Ruslan Salakhutdinov , Osindero y Teh [97] [98] publicaron redes de creencias profundas para modelado generativo. Se entrenan entrenando una máquina de Boltzmann restringida, luego congelándola y entrenando otra sobre la primera, y así sucesivamente, y luego se afinan opcionalmente utilizando retropropagación supervisada. [99] Podrían modelar distribuciones de probabilidad de alta dimensión, como la distribución de imágenes MNIST , pero la convergencia era lenta. [100] [101] [102]
El impacto del aprendizaje profundo en la industria comenzó a principios de la década de 2000, cuando las CNN ya procesaban aproximadamente entre el 10% y el 20% de todos los cheques emitidos en los EE. UU., según Yann LeCun. [103] Las aplicaciones industriales del aprendizaje profundo para el reconocimiento de voz a gran escala comenzaron alrededor de 2010.
El Taller NIPS de 2009 sobre aprendizaje profundo para el reconocimiento de voz estuvo motivado por las limitaciones de los modelos generativos profundos del habla y la posibilidad de que, dado un hardware más capaz y conjuntos de datos a gran escala, las redes neuronales profundas pudieran volverse prácticas. Se creía que el entrenamiento previo de las DNN utilizando modelos generativos de redes de creencias profundas (DBN) superaría las principales dificultades de las redes neuronales. Sin embargo, se descubrió que reemplazar el entrenamiento previo con grandes cantidades de datos de entrenamiento para una retropropagación directa cuando se utilizan DNN con capas de salida grandes y dependientes del contexto produjo tasas de error drásticamente más bajas que el modelo de mezcla gaussiana (GMM)/modelo de Markov oculto (HMM) de última generación en ese momento y también que los sistemas basados en modelos generativos más avanzados. [104] La naturaleza de los errores de reconocimiento producidos por los dos tipos de sistemas fue característicamente diferente, [105] ofreciendo perspectivas técnicas sobre cómo integrar el aprendizaje profundo en el sistema de decodificación de voz en tiempo de ejecución altamente eficiente existente implementado por todos los principales sistemas de reconocimiento de voz. [23] [106] [107] El análisis realizado entre 2009 y 2010, que contrastaba el GMM (y otros modelos de habla generativa) con los modelos DNN, estimuló la inversión industrial temprana en aprendizaje profundo para el reconocimiento de voz. [105] Ese análisis se realizó con un rendimiento comparable (menos del 1,5 % en tasa de error) entre las DNN discriminativas y los modelos generativos. [104] [105] [108]
En 2010, los investigadores extendieron el aprendizaje profundo de TIMIT al reconocimiento de voz de vocabulario amplio, adoptando grandes capas de salida de la DNN basadas en estados HMM dependientes del contexto construidos por árboles de decisión . [109] [110] [111] [106]
La revolución del aprendizaje profundo
La revolución del aprendizaje profundo comenzó en torno a la visión artificial basada en CNN y GPU.
Aunque las CNN entrenadas por retropropagación han existido durante décadas y las implementaciones de NN en GPU durante años, [112] incluidas las CNN, [113] se necesitaban implementaciones más rápidas de CNN en GPU para avanzar en la visión artificial. Más tarde, a medida que el aprendizaje profundo se generalizó, se desarrollaron optimizaciones de algoritmos y hardware especializados específicamente para el aprendizaje profundo. [114]
Un avance clave para la revolución del aprendizaje profundo fueron los avances en hardware, especialmente en la GPU. Algunos de los primeros trabajos se remontan a 2004. [112] [113] En 2009, Raina, Madhavan y Andrew Ng informaron sobre una red de creencias profundas de 100 millones entrenada en 30 GPU Nvidia GeForce GTX 280 , una demostración temprana del aprendizaje profundo basado en GPU. Informaron de un entrenamiento hasta 70 veces más rápido. [115]
En 2011, una CNN llamada DanNet [116] [117] de Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella y Jürgen Schmidhuber logró por primera vez un rendimiento sobrehumano en un concurso de reconocimiento de patrones visuales, superando a los métodos tradicionales por un factor de 3. [9] Luego ganó más concursos. [118] [119] También demostraron cómo la agrupación máxima de CNN en la GPU mejoró el rendimiento significativamente. [3]
En 2012, Andrew Ng y Jeff Dean crearon una FNN que aprendió a reconocer conceptos de nivel superior, como los gatos, solo al mirar imágenes sin etiquetas tomadas de videos de YouTube . [120]
El éxito en la clasificación de imágenes se extendió luego a la tarea más desafiante de generar descripciones (títulos) para imágenes, a menudo como una combinación de CNN y LSTM. [123] [124] [125]
En 2014, el estado del arte era entrenar una “red neuronal muy profunda” con 20 a 30 capas. [126] Apilar demasiadas capas condujo a una reducción pronunciada en la precisión del entrenamiento , [127] conocido como el problema de “degradación”. [128] En 2015, se desarrollaron dos técnicas para entrenar redes muy profundas: la Highway Network se publicó en mayo de 2015 y la red neuronal residual (ResNet) [129] en diciembre de 2015. ResNet se comporta como una Highway Net de compuerta abierta.
Casi al mismo tiempo, el aprendizaje profundo comenzó a tener un impacto en el campo del arte. Los primeros ejemplos incluyeron Google DeepDream (2015) y la transferencia de estilo neuronal (2015), [130] ambos basados en redes neuronales de clasificación de imágenes previamente entrenadas, como VGG-19 .
La red generativa antagónica (GAN) de ( Ian Goodfellow et al., 2014) [131] (basada en el principio de curiosidad artificial de Jürgen Schmidhuber [74] [76] ) se convirtió en el estado del arte en modelado generativo durante el período 2014-2018. Se logra una excelente calidad de imagen con StyleGAN de Nvidia (2018) [132] basado en la GAN progresiva de Tero Karras et al. [133] Aquí, el generador de GAN crece de pequeña a gran escala de manera piramidal. La generación de imágenes por GAN alcanzó un éxito popular y provocó discusiones sobre deepfakes . [134] Los modelos de difusión (2015) [135] eclipsaron a las GAN en el modelado generativo desde entonces, con sistemas como DALL·E 2 (2022) y Stable Diffusion (2022).
En 2015, el reconocimiento de voz de Google mejoró en un 49% gracias a un modelo basado en LSTM, que pusieron a disposición a través de Google Voice Search en teléfonos inteligentes . [136] [137]
El aprendizaje profundo es parte de los sistemas de última generación en varias disciplinas, particularmente la visión por computadora y el reconocimiento automático de voz (ASR). Los resultados en conjuntos de evaluación de uso común, como TIMIT (ASR) y MNIST ( clasificación de imágenes ), así como una variedad de tareas de reconocimiento de voz de vocabulario amplio, han mejorado constantemente. [104] [138] Las redes neuronales convolucionales fueron reemplazadas para ASR por LSTM . [137] [139] [140] [141] pero son más exitosas en la visión por computadora.
Yoshua Bengio , Geoffrey Hinton y Yann LeCun recibieron el Premio Turing 2018 por "avances conceptuales y de ingeniería que han hecho de las redes neuronales profundas un componente crítico de la informática". [142]
Redes neuronales
Las redes neuronales artificiales ( RNA ) o sistemas conexionistas son sistemas informáticos inspirados en las redes neuronales biológicas que constituyen los cerebros animales. Dichos sistemas aprenden (mejoran progresivamente su capacidad) a realizar tareas considerando ejemplos, generalmente sin programación específica para la tarea. Por ejemplo, en el reconocimiento de imágenes, podrían aprender a identificar imágenes que contienen gatos analizando imágenes de ejemplo que han sido etiquetadas manualmente como "gato" o "sin gato" y utilizando los resultados analíticos para identificar gatos en otras imágenes. Han encontrado mayor utilidad en aplicaciones difíciles de expresar con un algoritmo informático tradicional que utilice programación basada en reglas .
Una ANN se basa en una colección de unidades conectadas llamadas neuronas artificiales (análogas a las neuronas biológicas en un cerebro biológico ). Cada conexión ( sinapsis ) entre neuronas puede transmitir una señal a otra neurona. La neurona receptora (postsináptica) puede procesar la(s) señal(es) y luego enviar señales a las neuronas posteriores conectadas a ella. Las neuronas pueden tener un estado, generalmente representado por números reales , típicamente entre 0 y 1. Las neuronas y las sinapsis también pueden tener un peso que varía a medida que avanza el aprendizaje, lo que puede aumentar o disminuir la fuerza de la señal que envía.
Por lo general, las neuronas se organizan en capas. Las distintas capas pueden realizar distintos tipos de transformaciones en sus entradas. Las señales viajan desde la primera capa (de entrada) hasta la última (de salida), posiblemente después de atravesar las capas varias veces.
El objetivo original del enfoque de redes neuronales era resolver problemas de la misma manera que lo haría un cerebro humano. Con el tiempo, la atención se centró en la combinación de capacidades mentales específicas, lo que llevó a desviaciones de la biología, como la retropropagación , o el paso de información en la dirección inversa y el ajuste de la red para reflejar esa información.
A partir de 2017, las redes neuronales suelen tener entre unos pocos miles y unos pocos millones de unidades y millones de conexiones. A pesar de que este número es varios órdenes de magnitud menor que el número de neuronas en un cerebro humano, estas redes pueden realizar muchas tareas a un nivel que supera al de los humanos (por ejemplo, reconocer rostros o jugar al "Go" [144] ).
Redes neuronales profundas
Una red neuronal profunda (DNN) es una red neuronal artificial con múltiples capas entre las capas de entrada y salida. [7] [9] Existen diferentes tipos de redes neuronales, pero siempre constan de los mismos componentes: neuronas, sinapsis, pesos, sesgos y funciones. [145] Estos componentes en su conjunto funcionan de una manera que imita las funciones del cerebro humano y se pueden entrenar como cualquier otro algoritmo de aprendizaje automático. [ cita requerida ]
Por ejemplo, una red neuronal profunda (DNN) que está entrenada para reconocer razas de perros examinará la imagen dada y calculará la probabilidad de que el perro en la imagen sea de una raza determinada. El usuario puede revisar los resultados y seleccionar qué probabilidades debe mostrar la red (por encima de un cierto umbral, etc.) y devolver la etiqueta propuesta. Cada manipulación matemática como tal se considera una capa, [ cita requerida ] y las DNN complejas tienen muchas capas, de ahí el nombre de redes "profundas".
Las redes neuronales profundas (DNN) pueden modelar relaciones no lineales complejas. Las arquitecturas de DNN generan modelos compositivos en los que el objeto se expresa como una composición en capas de primitivos . [146] Las capas adicionales permiten la composición de características de capas inferiores, lo que potencialmente modela datos complejos con menos unidades que una red superficial de rendimiento similar. [7] Por ejemplo, se demostró que los polinomios multivariados dispersos son exponencialmente más fáciles de aproximar con DNN que con redes superficiales. [147]
Las arquitecturas profundas incluyen muchas variantes de unos pocos enfoques básicos. Cada arquitectura ha tenido éxito en dominios específicos. No siempre es posible comparar el rendimiento de varias arquitecturas, a menos que se hayan evaluado en los mismos conjuntos de datos.
Las redes neuronales profundas (DNN) son redes de retroalimentación en las que los datos fluyen desde la capa de entrada a la capa de salida sin retroceder. En primer lugar, la DNN crea un mapa de neuronas virtuales y asigna valores numéricos aleatorios, o "pesos", a las conexiones entre ellas. Los pesos y las entradas se multiplican y devuelven una salida entre 0 y 1. Si la red no reconoce con precisión un patrón particular, un algoritmo ajustaría los pesos. [148] De esa manera, el algoritmo puede hacer que ciertos parámetros sean más influyentes, hasta que determine la manipulación matemática correcta para procesar completamente los datos.
Las redes neuronales recurrentes , en las que los datos pueden fluir en cualquier dirección, se utilizan para aplicaciones como el modelado del lenguaje . [149] [150] [151] [152] [153] La memoria a corto plazo es particularmente eficaz para este uso. [154] [155]
Al igual que con las ANN, pueden surgir muchos problemas con las DNN entrenadas de forma ingenua. Dos problemas comunes son el sobreajuste y el tiempo de cálculo.
Las redes neuronales profundas son propensas a sobreajustarse debido a las capas de abstracción agregadas, que les permiten modelar dependencias raras en los datos de entrenamiento. Los métodos de regularización como la poda de unidades de Ivakhnenko [41] o la disminución de peso ( -regularización) o la escasez ( -regularización) se pueden aplicar durante el entrenamiento para combatir el sobreajuste. [158] Alternativamente, la regularización de abandono omite aleatoriamente unidades de las capas ocultas durante el entrenamiento. Esto ayuda a excluir dependencias raras. [159] Finalmente, los datos se pueden aumentar a través de métodos como el recorte y la rotación de modo que se pueda aumentar el tamaño de los conjuntos de entrenamiento más pequeños para reducir las posibilidades de sobreajuste. [160]
Las DNN deben considerar muchos parámetros de entrenamiento, como el tamaño (número de capas y número de unidades por capa), la tasa de aprendizaje y los pesos iniciales. Barrer el espacio de parámetros para encontrar los parámetros óptimos puede no ser factible debido al costo en tiempo y recursos computacionales. Varios trucos, como el procesamiento por lotes (computar el gradiente en varios ejemplos de entrenamiento a la vez en lugar de ejemplos individuales) [161] aceleran el cálculo. Las grandes capacidades de procesamiento de las arquitecturas de múltiples núcleos (como las GPU o Intel Xeon Phi) han producido aceleraciones significativas en el entrenamiento, debido a la idoneidad de dichas arquitecturas de procesamiento para los cálculos matriciales y vectoriales. [162] [163]
Como alternativa, los ingenieros pueden buscar otros tipos de redes neuronales con algoritmos de entrenamiento más sencillos y convergentes. CMAC ( controlador de articulación del modelo cerebeloso ) es uno de esos tipos de redes neuronales. No requiere tasas de aprendizaje ni pesos iniciales aleatorios. Se puede garantizar que el proceso de entrenamiento converja en un solo paso con un nuevo lote de datos, y la complejidad computacional del algoritmo de entrenamiento es lineal con respecto al número de neuronas involucradas. [164] [165]
Hardware
Desde la década de 2010, los avances tanto en algoritmos de aprendizaje automático como en hardware informático han dado lugar a métodos más eficientes para entrenar redes neuronales profundas que contienen muchas capas de unidades ocultas no lineales y una capa de salida muy grande. [166] Para 2019, las unidades de procesamiento gráfico (GPU), a menudo con mejoras específicas de IA, habían desplazado a las CPU como el método dominante para entrenar IA en la nube comercial a gran escala. [167] OpenAI estimó el cálculo de hardware utilizado en los proyectos de aprendizaje profundo más grandes desde AlexNet (2012) hasta AlphaZero (2017) y encontró un aumento de 300.000 veces en la cantidad de cálculo requerido, con una línea de tendencia de tiempo de duplicación de 3,4 meses. [168] [169]
Los semiconductores atómicamente delgados se consideran prometedores para el hardware de aprendizaje profundo energéticamente eficiente, donde se utiliza la misma estructura básica del dispositivo tanto para las operaciones lógicas como para el almacenamiento de datos. En 2020, Marega et al. publicaron experimentos con un material de canal activo de área grande para desarrollar dispositivos y circuitos de lógica en memoria basados en transistores de efecto de campo de puerta flotante (FGFET). [174]
En 2021, J. Feldmann et al. propusieron un acelerador de hardware fotónico integrado para el procesamiento convolucional paralelo. [175] Los autores identifican dos ventajas clave de la fotónica integrada sobre sus contrapartes electrónicas: (1) transferencia masiva de datos en paralelo a través de multiplexación por división de longitud de onda junto con peines de frecuencia , y (2) velocidades de modulación de datos extremadamente altas. [175] Su sistema puede ejecutar billones de operaciones de multiplicación-acumulación por segundo, lo que indica el potencial de la fotónica integrada en aplicaciones de IA con gran cantidad de datos. [175]
Aplicaciones
Reconocimiento automático de voz
El reconocimiento automático de voz a gran escala es el primer y más convincente caso exitoso de aprendizaje profundo. Las RNN LSTM pueden aprender tareas de "aprendizaje muy profundo" [9] que involucran intervalos de varios segundos que contienen eventos de voz separados por miles de pasos de tiempo discretos, donde un paso de tiempo corresponde a aproximadamente 10 ms. El LSTM con puertas de olvido [155] es competitivo con los reconocedores de voz tradicionales en ciertas tareas. [93]
El éxito inicial en el reconocimiento de voz se basó en tareas de reconocimiento a pequeña escala basadas en TIMIT. El conjunto de datos contiene 630 hablantes de ocho dialectos principales del inglés americano , donde cada hablante lee 10 oraciones. [176] Su pequeño tamaño permite probar muchas configuraciones. Más importante aún, la tarea TIMIT se refiere al reconocimiento de secuencias de fonemas , que, a diferencia del reconocimiento de secuencias de palabras, permite modelos de lenguaje de bigramas de fonemas débiles . Esto permite analizar más fácilmente la solidez de los aspectos de modelado acústico del reconocimiento de voz. Las tasas de error que se enumeran a continuación, incluidos estos primeros resultados y medidas como porcentajes de tasas de error de fonemas (PER), se han resumido desde 1991.
Método
Porcentaje de error telefónico (PER) (%)
RNN inicializada aleatoriamente [177]
26.1
Trifono bayesiano GMM-HMM
25.6
Modelo de trayectoria oculta (generativo)
24.8
DNN inicializada aleatoriamente de Monophone
23.4
Monofono DBN-DNN
22.4
Triphone GMM-HMM con entrenamiento BMMI
21.7
Monophone DBN-DNN en fbank
20.7
Red neuronal convolucional (DNN) [178]
20.0
Red neuronal convolucional con agrupamiento heterogéneo
18.7
Conjunto DNN/CNN/RNN [179]
18.3
LSTM bidireccional
17.8
Red jerárquica convolucional de máxima potencia profunda [180]
16.5
El debut de las DNN para el reconocimiento de hablantes a finales de los años 1990 y el reconocimiento de voz alrededor de 2009-2011 y de LSTM alrededor de 2003-2007, aceleró el progreso en ocho áreas principales: [23] [108] [106]
Entrenamiento y decodificación de DNN acelerados y de escalamiento vertical
Entrenamiento discriminativo de secuencias
Procesamiento de características mediante modelos profundos con una sólida comprensión de los mecanismos subyacentes
Adaptación de DNN y modelos profundos relacionados
Aprendizaje multitarea y por transferencia mediante redes neuronales profundas (DNN) y modelos profundos relacionados
Un conjunto de evaluación común para la clasificación de imágenes es el conjunto de datos de la base de datos MNIST . MNIST está compuesto de dígitos escritos a mano e incluye 60.000 ejemplos de entrenamiento y 10.000 ejemplos de prueba. Al igual que con TIMIT, su pequeño tamaño permite a los usuarios probar múltiples configuraciones. Hay disponible una lista completa de resultados de este conjunto. [183]
El reconocimiento de imágenes basado en el aprendizaje profundo se ha vuelto "sobrehumano", ya que produce resultados más precisos que los de los participantes humanos. Esto ocurrió por primera vez en 2011 con el reconocimiento de señales de tráfico y, en 2014, con el reconocimiento de rostros humanos. [184] [185]
Los vehículos entrenados mediante aprendizaje profundo ahora interpretan vistas de cámara de 360°. [186] Otro ejemplo es el Análisis Novel de Dismorfología Facial (FDNA) utilizado para analizar casos de malformaciones humanas conectados a una gran base de datos de síndromes genéticos.
Procesamiento de arte visual
Estrechamente relacionado con el progreso que se ha logrado en el reconocimiento de imágenes está la creciente aplicación de técnicas de aprendizaje profundo a diversas tareas de arte visual. Las redes neuronales profundas han demostrado ser capaces, por ejemplo, de:
Identificación del período estilístico de una pintura determinada [187] [188]
Transferencia de estilo neuronal : captura del estilo de una obra de arte determinada y su aplicación de una manera visualmente agradable a una fotografía o un vídeo arbitrarios [187] [188]
Generando imágenes impactantes basadas en campos de entrada visual aleatorios. [187] [188]
Procesamiento del lenguaje natural
Las redes neuronales se han utilizado para implementar modelos de lenguaje desde principios de la década de 2000. [149] LSTM ayudó a mejorar la traducción automática y el modelado del lenguaje. [150] [151] [152]
Otras técnicas clave en este campo son el muestreo negativo [189] y la incrustación de palabras . La incrustación de palabras, como word2vec , puede considerarse como una capa de representación en una arquitectura de aprendizaje profundo que transforma una palabra atómica en una representación posicional de la palabra en relación con otras palabras en el conjunto de datos; la posición se representa como un punto en un espacio vectorial . El uso de la incrustación de palabras como una capa de entrada de RNN permite que la red analice oraciones y frases utilizando una gramática vectorial compositiva eficaz. Una gramática vectorial compositiva puede considerarse como una gramática probabilística libre de contexto (PCFG) implementada por una RNN. [190] Los autocodificadores recursivos construidos sobre incrustaciones de palabras pueden evaluar la similitud de oraciones y detectar paráfrasis. [190] Las arquitecturas neuronales profundas proporcionan los mejores resultados para el análisis de distritos electorales, [191] análisis de sentimientos , [192] recuperación de información, [193] [194] comprensión del lenguaje hablado, [195] traducción automática, [150] [196] vinculación de entidades contextuales, [196] reconocimiento de estilo de escritura, [197] reconocimiento de entidades nombradas (clasificación de tokens), [198] clasificación de texto y otros. [199]
Google Translate (GT) utiliza una gran red de memoria a corto plazo (LSTM) de extremo a extremo . [200] [201] [202] [203] Google Neural Machine Translation (GNMT) utiliza un método de traducción automática basado en ejemplos en el que el sistema "aprende de millones de ejemplos". [201] Traduce "oraciones completas a la vez, en lugar de fragmentos". Google Translate admite más de cien idiomas. [201] La red codifica la "semántica de la oración en lugar de simplemente memorizar traducciones frase por frase". [201] [204] GT utiliza el inglés como intermediario entre la mayoría de los pares de idiomas. [204]
Descubrimiento de fármacos y toxicología
Un gran porcentaje de fármacos candidatos no consigue la aprobación regulatoria. Estos fracasos se deben a una eficacia insuficiente (efecto en el objetivo), interacciones no deseadas (efectos fuera del objetivo) o efectos tóxicos imprevistos . [205] [206] La investigación ha explorado el uso del aprendizaje profundo para predecir los objetivos biomoleculares , [207] [208] los efectos fuera del objetivo y los efectos tóxicos de los productos químicos ambientales en nutrientes, productos domésticos y medicamentos. [209] [210] [211]
En 2017, se utilizaron redes neuronales gráficas por primera vez para predecir varias propiedades de moléculas en un gran conjunto de datos toxicológicos. [215] En 2019, se utilizaron redes neuronales generativas para producir moléculas que se validaron experimentalmente en ratones. [216] [217]
Los sistemas de recomendación han utilizado el aprendizaje profundo para extraer características significativas para un modelo de factor latente para recomendaciones de música y revistas basadas en contenido. [219] [220] El aprendizaje profundo de múltiples vistas se ha aplicado para conocer las preferencias de los usuarios de múltiples dominios. [221] El modelo utiliza un enfoque híbrido colaborativo y basado en contenido y mejora las recomendaciones en múltiples tareas.
En informática médica, se utilizó el aprendizaje profundo para predecir la calidad del sueño basándose en datos de dispositivos portátiles [223] y predicciones de complicaciones de salud a partir de datos de registros médicos electrónicos . [224]
Las redes neuronales profundas han demostrado un rendimiento incomparable en la predicción de la estructura de las proteínas , según la secuencia de los aminoácidos que la componen. En 2020, AlphaFold , un sistema basado en aprendizaje profundo, logró un nivel de precisión significativamente superior a todos los métodos computacionales anteriores. [225] [226]
Estimaciones de redes neuronales profundas
Las redes neuronales profundas se pueden utilizar para estimar la entropía de un proceso estocástico y se denominan Estimador de entropía conjunta neuronal (NJEE). [227] Dicha estimación proporciona información sobre los efectos de las variables aleatorias de entrada en una variable aleatoria independiente . En la práctica, la DNN se entrena como un clasificador que asigna un vector o matriz de entrada X a una distribución de probabilidad de salida sobre las posibles clases de la variable aleatoria Y, dada la entrada X. Por ejemplo, en tareas de clasificación de imágenes , el NJEE asigna un vector de valores de color de píxeles a probabilidades sobre posibles clases de imágenes. En la práctica, la distribución de probabilidad de Y se obtiene mediante una capa Softmax con un número de nodos que es igual al tamaño del alfabeto de Y. El NJEE utiliza funciones de activación continuamente diferenciables , de modo que se cumplen las condiciones para el teorema de aproximación universal . Se muestra que este método proporciona un estimador fuertemente consistente y supera a otros métodos en caso de tamaños de alfabeto grandes. [227]
Análisis de imágenes médicas
Se ha demostrado que el aprendizaje profundo produce resultados competitivos en aplicaciones médicas como la clasificación de células cancerosas, la detección de lesiones, la segmentación de órganos y la mejora de imágenes. [228] [229] Las herramientas modernas de aprendizaje profundo demuestran la alta precisión en la detección de diversas enfermedades y la utilidad de su uso por parte de los especialistas para mejorar la eficiencia del diagnóstico. [230] [231]
Publicidad móvil
Encontrar la audiencia móvil adecuada para la publicidad móvil siempre es un desafío, ya que se deben considerar y analizar muchos puntos de datos antes de que un segmento objetivo pueda crearse y usarse en la publicación de anuncios por parte de cualquier servidor de anuncios. [232] El aprendizaje profundo se ha utilizado para interpretar conjuntos de datos publicitarios grandes y multidimensionales. Muchos puntos de datos se recopilan durante el ciclo de solicitud/publicidad/clic en Internet. Esta información puede formar la base del aprendizaje automático para mejorar la selección de anuncios.
El aprendizaje profundo se está aplicando con éxito a la detección de fraude financiero , evasión fiscal [235] y lucha contra el lavado de dinero. [236]
Ciencias de los materiales
En noviembre de 2023, los investigadores de Google DeepMind y del Laboratorio Nacional Lawrence Berkeley anunciaron que habían desarrollado un sistema de IA conocido como GNoME. Este sistema ha contribuido a la ciencia de los materiales al descubrir más de 2 millones de materiales nuevos en un período de tiempo relativamente corto. GNoME emplea técnicas de aprendizaje profundo para explorar de manera eficiente las posibles estructuras de los materiales, logrando un aumento significativo en la identificación de estructuras cristalinas inorgánicas estables . Las predicciones del sistema se validaron a través de experimentos robóticos autónomos, demostrando una notable tasa de éxito del 71%. Los datos de los materiales recién descubiertos están disponibles públicamente a través de la base de datos del Proyecto de Materiales , lo que ofrece a los investigadores la oportunidad de identificar materiales con las propiedades deseadas para diversas aplicaciones. Este desarrollo tiene implicaciones para el futuro del descubrimiento científico y la integración de la IA en la investigación de la ciencia de los materiales, acelerando potencialmente la innovación de materiales y reduciendo los costos en el desarrollo de productos. El uso de la IA y el aprendizaje profundo sugiere la posibilidad de minimizar o eliminar los experimentos manuales de laboratorio y permitir que los científicos se concentren más en el diseño y análisis de compuestos únicos. [237] [238] [239]
Militar
El Departamento de Defensa de los Estados Unidos aplicó el aprendizaje profundo para entrenar robots en nuevas tareas a través de la observación. [240]
Ecuaciones diferenciales parciales
Las redes neuronales informadas por la física se han utilizado para resolver ecuaciones diferenciales parciales en problemas tanto directos como inversos de una manera basada en datos. [241] Un ejemplo es la reconstrucción del flujo de fluidos gobernado por las ecuaciones de Navier-Stokes . El uso de redes neuronales informadas por la física no requiere la generación de mallas, a menudo costosa, en la que se basan los métodos CFD convencionales . [242] [243]
Método de ecuación diferencial estocástica hacia atrás profunda
El método de ecuación diferencial estocástica hacia atrás profunda es un método numérico que combina el aprendizaje profundo con la ecuación diferencial estocástica hacia atrás (BSDE). Este método es particularmente útil para resolver problemas de alta dimensión en matemáticas financieras. Al aprovechar las poderosas capacidades de aproximación de funciones de las redes neuronales profundas , la BSDE profunda aborda los desafíos computacionales que enfrentan los métodos numéricos tradicionales en entornos de alta dimensión. Específicamente, los métodos tradicionales como los métodos de diferencias finitas o las simulaciones de Monte Carlo a menudo luchan con la maldición de la dimensionalidad, donde el costo computacional aumenta exponencialmente con el número de dimensiones. Los métodos BSDE profundos, sin embargo, emplean redes neuronales profundas para aproximar soluciones de ecuaciones diferenciales parciales (PDE) de alta dimensión, lo que reduce efectivamente la carga computacional. [244]
Además, la integración de redes neuronales informadas por la física (PINN) en el marco BSDE profundo mejora su capacidad al incorporar las leyes físicas subyacentes directamente en la arquitectura de la red neuronal. Esto garantiza que las soluciones no solo se ajusten a los datos, sino que también cumplan con las ecuaciones diferenciales estocásticas que las rigen. Las PINN aprovechan el poder del aprendizaje profundo al tiempo que respetan las limitaciones impuestas por los modelos físicos, lo que da como resultado soluciones más precisas y confiables para los problemas de matemáticas financieras.
Reconstrucción de imágenes
La reconstrucción de imágenes es la reconstrucción de las imágenes subyacentes a partir de las mediciones relacionadas con las imágenes. Varios trabajos demostraron que los métodos de aprendizaje profundo tienen un rendimiento mejor y superior al de los métodos analíticos para diversas aplicaciones, por ejemplo, imágenes espectrales [245] e imágenes por ultrasonidos. [246]
Predicción del tiempo
Los sistemas tradicionales de predicción meteorológica resuelven un sistema muy complejo de ecuaciones diferenciales parciales. GraphCast es un modelo basado en aprendizaje profundo, entrenado con un largo historial de datos meteorológicos para predecir cómo cambian los patrones meteorológicos con el tiempo. Es capaz de predecir las condiciones meteorológicas para hasta 10 días a nivel mundial, con un nivel muy detallado y en menos de un minuto, con una precisión similar a la de los sistemas de última generación. [247] [248]
Reloj epigenético
Un reloj epigenético es una prueba bioquímica que se puede utilizar para medir la edad. Galkin et al. utilizaron redes neuronales profundas para entrenar un reloj de envejecimiento epigenético de precisión sin precedentes utilizando >6000 muestras de sangre. [249] El reloj utiliza información de 1000 sitios CpG y predice que las personas con ciertas afecciones serán mayores que los controles sanos: EII , demencia frontotemporal , cáncer de ovario , obesidad . El reloj de envejecimiento estaba previsto que se lanzara para uso público en 2021 por una empresa derivada de Insilico Medicine, Deep Longevity.
Relación con el desarrollo cognitivo y cerebral humano
El aprendizaje profundo está estrechamente relacionado con una clase de teorías del desarrollo cerebral (específicamente, el desarrollo neocortical) propuestas por neurocientíficos cognitivos a principios de la década de 1990. [250] [251] [252] [253] Estas teorías del desarrollo se instanciaron en modelos computacionales, lo que las convierte en predecesoras de los sistemas de aprendizaje profundo. Estos modelos de desarrollo comparten la propiedad de que varias dinámicas de aprendizaje propuestas en el cerebro (por ejemplo, una onda del factor de crecimiento nervioso ) respaldan la autoorganización de manera algo análoga a las redes neuronales utilizadas en los modelos de aprendizaje profundo. Al igual que el neocórtex , las redes neuronales emplean una jerarquía de filtros en capas en la que cada capa considera la información de una capa anterior (o el entorno operativo) y luego pasa su salida (y posiblemente la entrada original) a otras capas. Este proceso produce una pila autoorganizada de transductores , bien ajustados a su entorno operativo. Una descripción de 1995 afirmaba: "... el cerebro del bebé parece organizarse bajo la influencia de ondas de los llamados factores tróficos... diferentes regiones del cerebro se conectan secuencialmente, con una capa de tejido madurando antes que otra y así sucesivamente hasta que todo el cerebro está maduro". [254]
Se han utilizado diversos enfoques para investigar la plausibilidad de los modelos de aprendizaje profundo desde una perspectiva neurobiológica. Por un lado, se han propuesto varias variantes del algoritmo de retropropagación con el fin de aumentar su realismo de procesamiento. [255] [256] Otros investigadores han argumentado que las formas no supervisadas de aprendizaje profundo, como las basadas en modelos generativos jerárquicos y redes de creencias profundas , pueden estar más cerca de la realidad biológica. [257] [258] En este sentido, los modelos de redes neuronales generativas se han relacionado con la evidencia neurobiológica sobre el procesamiento basado en muestreo en la corteza cerebral. [259]
Aunque todavía no se ha establecido una comparación sistemática entre la organización del cerebro humano y la codificación neuronal en redes profundas, se han reportado varias analogías. Por ejemplo, los cálculos realizados por unidades de aprendizaje profundo podrían ser similares a los de las neuronas reales [260] y las poblaciones neuronales. [261] De manera similar, las representaciones desarrolladas por modelos de aprendizaje profundo son similares a las medidas en el sistema visual de los primates [262] tanto a nivel de unidad individual [263] como a nivel de población [264] .
En 2017, se lanzó Covariant.ai, que se centra en integrar el aprendizaje profundo en las fábricas. [269]
A partir de 2008, [270] investigadores de la Universidad de Texas en Austin (UT) desarrollaron un marco de aprendizaje automático llamado Entrenamiento manual de un agente mediante refuerzo evaluativo, o TAMER, que proponía nuevos métodos para que los robots o los programas informáticos aprendieran a realizar tareas interactuando con un instructor humano. [240] Desarrollado inicialmente como TAMER, un nuevo algoritmo llamado Deep TAMER se introdujo más tarde en 2018 durante una colaboración entre el Laboratorio de Investigación del Ejército de EE. UU. (ARL) e investigadores de UT. Deep TAMER utilizó el aprendizaje profundo para proporcionar a un robot la capacidad de aprender nuevas tareas a través de la observación. [240] Con Deep TAMER, un robot aprendió una tarea con un entrenador humano, viendo transmisiones de video u observando a un humano realizar una tarea en persona. Posteriormente, el robot practicó la tarea con la ayuda de algún entrenamiento del entrenador, que le proporcionó comentarios como "buen trabajo" y "mal trabajo". [271]
Crítica y comentario
El aprendizaje profundo ha atraído tanto críticas como comentarios, en algunos casos desde fuera del campo de la informática.
Teoría
Una crítica principal se refiere a la falta de teoría en torno a algunos métodos. [272] El aprendizaje en las arquitecturas profundas más comunes se implementa utilizando un descenso de gradiente bien entendido. Sin embargo, la teoría que rodea a otros algoritmos, como la divergencia contrastiva, es menos clara. [ cita requerida ] (por ejemplo, ¿converge? Si es así, ¿qué tan rápido? ¿A qué se aproxima?) Los métodos de aprendizaje profundo a menudo se consideran una caja negra , con la mayoría de las confirmaciones realizadas empíricamente, en lugar de teóricamente. [273]
Otros señalan que el aprendizaje profundo debe considerarse un paso hacia la consecución de una IA potente , no una solución integral. A pesar del poder de los métodos de aprendizaje profundo, aún carecen de gran parte de la funcionalidad necesaria para alcanzar este objetivo por completo. El psicólogo investigador Gary Marcus señaló:
En términos realistas, el aprendizaje profundo es solo una parte del desafío más amplio de construir máquinas inteligentes. Estas técnicas carecen de formas de representar relaciones causales (...) no tienen formas obvias de realizar inferencias lógicas y también están muy lejos de integrar conocimiento abstracto, como información sobre qué son los objetos, para qué sirven y cómo se usan típicamente. Los sistemas de IA más poderosos, como Watson (...) usan técnicas como el aprendizaje profundo como solo un elemento en un conjunto muy complicado de técnicas, que van desde la técnica estadística de inferencia bayesiana hasta el razonamiento deductivo . [274]
En referencia adicional a la idea de que la sensibilidad artística podría ser inherente a niveles relativamente bajos de la jerarquía cognitiva, una serie publicada de representaciones gráficas de los estados internos de redes neuronales profundas (20-30 capas) que intentan discernir dentro de datos esencialmente aleatorios las imágenes en las que fueron entrenadas [275] demuestran un atractivo visual: el aviso de investigación original recibió más de 1.000 comentarios y fue el tema de lo que durante un tiempo fue el artículo al que se accedió con mayor frecuencia en el sitio web de The Guardian [276] .
Errores
Algunas arquitecturas de aprendizaje profundo presentan comportamientos problemáticos, [277] como clasificar con seguridad imágenes irreconocibles como pertenecientes a una categoría familiar de imágenes ordinarias (2014) [278] y clasificar erróneamente perturbaciones minúsculas de imágenes clasificadas correctamente (2013). [279] Goertzel planteó la hipótesis de que estos comportamientos se deben a limitaciones en sus representaciones internas y que estas limitaciones inhibirían la integración en arquitecturas de inteligencia artificial general (AGI) heterogéneas de múltiples componentes. [277] Estos problemas posiblemente se puedan abordar mediante arquitecturas de aprendizaje profundo que formen internamente estados homólogos a las descomposiciones de imágenes-gramaticales [280] de entidades y eventos observados. [277] Aprender una gramática (visual o lingüística) a partir de datos de entrenamiento sería equivalente a restringir el sistema al razonamiento de sentido común que opera sobre conceptos en términos de reglas de producción gramaticales y es un objetivo básico tanto de la adquisición del lenguaje humano [281] como de la inteligencia artificial (IA). [282]
Amenaza cibernética
A medida que el aprendizaje profundo pasa del laboratorio al mundo real, la investigación y la experiencia muestran que las redes neuronales artificiales son vulnerables a los ataques y al engaño. [283] Al identificar los patrones que estos sistemas utilizan para funcionar, los atacantes pueden modificar las entradas a las ANN de tal manera que la ANN encuentre una coincidencia que los observadores humanos no reconocerían. Por ejemplo, un atacante puede realizar cambios sutiles en una imagen de tal manera que la ANN encuentre una coincidencia aunque la imagen no se parezca en nada al objetivo de búsqueda para un humano. Tal manipulación se denomina " ataque adversarial ". [284]
En 2016, los investigadores utilizaron una ANN para manipular imágenes mediante ensayo y error, identificar los puntos focales de otra y, de ese modo, generar imágenes que la engañaran. Las imágenes modificadas no se veían diferentes a los ojos humanos. Otro grupo demostró que las impresiones de imágenes manipuladas y luego fotografiadas engañaron con éxito a un sistema de clasificación de imágenes. [285] Una defensa es la búsqueda inversa de imágenes, en la que una posible imagen falsa se envía a un sitio como TinEye que luego puede encontrar otras instancias de la misma. Un refinamiento es buscar utilizando solo partes de la imagen, para identificar imágenes de las que se puede haber tomado esa parte . [286]
Otro grupo demostró que ciertos espectáculos psicodélicos podían engañar a un sistema de reconocimiento facial para que pensara que la gente común era una celebridad, lo que potencialmente permitía que una persona se hiciera pasar por otra. En 2017, unos investigadores añadieron pegatinas a las señales de stop y provocaron que una red neuronal artificial las clasificara erróneamente. [285]
Sin embargo, las ANN pueden ser entrenadas aún más para detectar intentos de engaño , lo que podría llevar a los atacantes y defensores a una carrera armamentista similar a la que ya define la industria de defensa contra malware . Las ANN han sido entrenadas para derrotar al software anti- malware basado en ANN atacando repetidamente una defensa con malware que fue alterado continuamente por un algoritmo genético hasta que engañó al anti-malware mientras conservaba su capacidad de dañar el objetivo. [285]
En 2016, otro grupo demostró que ciertos sonidos podían hacer que el sistema de comandos de voz de Google Now abriera una dirección web en particular, y planteó la hipótesis de que esto podría "servir como trampolín para futuros ataques (por ejemplo, abrir una página web que alberga malware drive-by)". [285]
En el " envenenamiento de datos ", se introducen continuamente datos falsos en el conjunto de entrenamiento de un sistema de aprendizaje automático para evitar que logre dominarlo. [285]
Ética de la recopilación de datos
Los sistemas de aprendizaje profundo que se entrenan mediante aprendizaje supervisado a menudo se basan en datos creados y/o anotados por humanos. [287] Se ha argumentado que no solo el clickwork mal pagado (como en Amazon Mechanical Turk ) se implementa regularmente para este propósito, sino también formas implícitas de microtrabajo humano que a menudo no se reconocen como tales. [288] El filósofo Rainer Mühlhoff distingue cinco tipos de "captura maquínica" de microtrabajo humano para generar datos de entrenamiento: (1) gamificación (la incrustación de tareas de anotación o cálculo en el flujo de un juego), (2) "captura y seguimiento" (por ejemplo, CAPTCHA para reconocimiento de imágenes o seguimiento de clics en las páginas de resultados de búsqueda de Google ), (3) explotación de motivaciones sociales (por ejemplo, etiquetar rostros en Facebook para obtener imágenes faciales etiquetadas), (4) minería de información (por ejemplo, aprovechando dispositivos de yo cuantificado como rastreadores de actividad ) y (5) clickwork . [288]
^ Schulz, Hannes; Behnke, Sven (1 de noviembre de 2012). "Aprendizaje profundo". KI-Künstliche Intelligenz . 26 (4): 357–363. doi :10.1007/s13218-012-0198-z. ISSN 1610-1987. S2CID 220523562.
^ ab Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). "Redes neuronales profundas multicolumna para clasificación de imágenes". Conferencia IEEE de 2012 sobre visión artificial y reconocimiento de patrones . págs. 3642–3649. arXiv : 1202.2745 . doi :10.1109/cvpr.2012.6248110. ISBN .978-1-4673-1228-8. Número de identificación del sujeto 2161592.
^ ab Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). "Clasificación ImageNet con redes neuronales convolucionales profundas" (PDF) . NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada . Archivado (PDF) desde el original el 2017-01-10 . Consultado el 2017-05-24 .
^ "La IA AlphaGo de Google gana una serie de tres partidos contra el mejor jugador de Go del mundo". TechCrunch . 25 de mayo de 2017. Archivado desde el original el 17 de junio de 2018 . Consultado el 17 de junio de 2018 .
^ "Un estudio insta a tener cautela al comparar las redes neuronales con el cerebro". Noticias del MIT | Instituto Tecnológico de Massachusetts . 2022-11-02 . Consultado el 2023-12-06 .
^ abcd Bengio, Yoshua (2009). "Learning Deep Architectures for AI" (PDF) . Fundamentos y tendencias en aprendizaje automático . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi :10.1561/2200000006. S2CID 207178999. Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 3 de septiembre de 2015 .
^ abcde Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence . 35 (8): 1798–1828. arXiv : 1206.5538 . doi :10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
^ abcdefgh Schmidhuber, J. (2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85–117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
^ Shigeki, Sugiyama (12 de abril de 2019). El comportamiento humano y otro tipo de conciencia: nuevas investigaciones y oportunidades: nuevas investigaciones y oportunidades. IGI Global. ISBN978-1-5225-8218-2.
^ Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). Entrenamiento voraz por capas de redes profundas (PDF) . Avances en sistemas de procesamiento de información neuronal. págs. 153–160. Archivado (PDF) desde el original el 20 de octubre de 2019. Consultado el 6 de octubre de 2019 .
^ ab Hinton, GE (2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. Bibcode :2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
^ Rina Dechter (1986). Aprendizaje durante la búsqueda en problemas de satisfacción de restricciones. Universidad de California, Departamento de Ciencias de la Computación, Laboratorio de Sistemas Cognitivos. Archivado en línea el 19 de abril de 2016 en Wayback Machine.
^ Aizenberg, IN; Aizenberg, NN; Vandewalle, J. (2000). Neuronas binarias universales y multivaluadas. Science & Business Media. doi :10.1007/978-1-4757-3115-6. ISBN.978-0-7923-7824-2. Recuperado el 27 de diciembre de 2023 .
^ Las neuronas recurrentes que coevolucionan aprenden POMDP de memoria profunda. Proc. GECCO, Washington, DC, págs. 1795–1802, ACM Press, Nueva York, NY, EE. UU., 2005.
^ Fradkov, Alexander L. (1 de enero de 2020). "Historia temprana del aprendizaje automático". IFAC-PapersOnLine . 21.º Congreso Mundial de la IFAC. 53 (2): 1385–1390. doi : 10.1016/j.ifacol.2020.12.1888 . ISSN 2405-8963. S2CID 235081987.
^ abc Cybenko (1989). "Aproximaciones por superposición de funciones sigmoideas" (PDF) . Matemáticas de control, señales y sistemas . 2 (4): 303–314. Bibcode :1989MCSS....2..303C. doi :10.1007/bf02551274. S2CID 3958369. Archivado desde el original (PDF) el 10 de octubre de 2015.
^ abc Hornik, Kurt (1991). "Capacidades de aproximación de redes de propagación hacia adelante multicapa". Redes neuronales . 4 (2): 251–257. doi :10.1016/0893-6080(91)90009-t. S2CID 7343126.
^ ab Haykin, Simon S. (1999). Redes neuronales: una base integral. Prentice Hall. ISBN978-0-13-273350-2.
^ ab Hassoun, Mohamad H. (1995). Fundamentos de las redes neuronales artificiales. Prensa del MIT. pag. 48.ISBN978-0-262-08239-6.
^ ab Lu, Z., Pu, H., Wang, F., Hu, Z. y Wang, L. (2017). El poder expresivo de las redes neuronales: una visión desde el ancho Archivado el 13 de febrero de 2019 en Wayback Machine . Sistemas de procesamiento de información neuronal, 6231-6239.
^ Orhan, AE; Ma, WJ (2017). "Inferencia probabilística eficiente en redes neuronales genéricas entrenadas con retroalimentación no probabilística". Nature Communications . 8 (1): 138. Bibcode :2017NatCo...8..138O. doi : 10.1038/s41467-017-00181-8 . PMC 5527101 . PMID 28743932.
^ abcde Deng, L.; Yu, D. (2014). "Aprendizaje profundo: métodos y aplicaciones" (PDF) . Fundamentos y tendencias en procesamiento de señales . 7 (3–4): 1–199. doi :10.1561/2000000039. Archivado (PDF) desde el original el 2016-03-14 . Consultado el 2014-10-18 .
^ abcd Murphy, Kevin P. (24 de agosto de 2012). Aprendizaje automático: una perspectiva probabilística. MIT Press. ISBN978-0-262-01802-9.
^ ab Fukushima, K. (1969). "Extracción de características visuales mediante una red multicapa de elementos de umbral analógicos". IEEE Transactions on Systems Science and Cybernetics . 5 (4): 322–333. doi :10.1109/TSSC.1969.300225.
^ Sonoda, Sho; Murata, Noboru (2017). "Una red neuronal con funciones de activación ilimitadas es un aproximador universal". Análisis armónico computacional y aplicado . 43 (2): 233–268. arXiv : 1505.03654 . doi :10.1016/j.acha.2015.12.005. S2CID 12149203.
^ Bishop, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático (PDF) . Springer. ISBN978-0-387-31073-2. Archivado (PDF) del original el 11 de enero de 2017. Consultado el 6 de agosto de 2017 .
^ de "Biblioteca Augustana". www.hs-augsburg.de .
^ Brush, Stephen G. (1967). "Historia del modelo de Lenz-Ising". Reseñas de Física Moderna . 39 (4): 883–893. Bibcode :1967RvMP...39..883B. doi :10.1103/RevModPhys.39.883.
^ ab Amari, Shun-Ichi (1972). "Aprendizaje de patrones y secuencias de patrones mediante redes autoorganizadas de elementos umbral". IEEE Transactions . C (21): 1197–1206.
^ abcdefg Schmidhuber, Jürgen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
^ Hopfield, JJ (1982). "Redes neuronales y sistemas físicos con capacidades computacionales colectivas emergentes". Actas de la Academia Nacional de Ciencias . 79 (8): 2554–2558. Bibcode :1982PNAS...79.2554H. doi : 10.1073/pnas.79.8.2554 . PMC 346238 . PMID 6953413.
^ Nakano, Kaoru (1971). "Proceso de aprendizaje en un modelo de memoria asociativa". Reconocimiento de patrones y aprendizaje automático . pp. 172–186. doi :10.1007/978-1-4615-7566-5_15. ISBN978-1-4615-7568-9.
^ Nakano, Kaoru (1972). "Asociatron: un modelo de memoria asociativa". IEEE Transactions on Systems, Man, and Cybernetics . SMC-2 (3): 380–388. doi :10.1109/TSMC.1972.4309133.
^ Turing, Alan (1948). "Intelligent Machinery". Inédito (publicado posteriormente en Ince DC, editor, Collected Works of AM Turing—Mechanical Intelligence, Elsevier Science Publishers, 1992) .
^ Rosenblatt, F. (1958). "El perceptrón: un modelo probabilístico para el almacenamiento y la organización de la información en el cerebro". Psychological Review . 65 (6): 386–408. doi :10.1037/h0042519. ISSN 1939-1471. PMID 13602029.
^ ab Rosenblatt, Frank (1962). Principios de neurodinámica . Spartan, Nueva York.
^ Joseph, RD (1960). Contribuciones a la teoría del perceptrón, Informe del Laboratorio Aeronáutico de Cornell n.º VG-11 96--G-7, Buffalo .
^ Ivakhnenko, AG; Lapa, VG (1967). Cibernética y técnicas de previsión. American Elsevier Publishing Co. ISBN978-0-444-00020-0.
^ Ivakhnenko, AG (marzo de 1970). "Autoorganización heurística en problemas de ingeniería cibernética". Automatica . 6 (2): 207–219. doi :10.1016/0005-1098(70)90092-0.
^ ab Ivakhnenko, Alexey (1971). "Teoría polinómica de sistemas complejos" (PDF) . IEEE Transactions on Systems, Man, and Cybernetics . SMC-1 (4): 364–378. doi :10.1109/TSMC.1971.4308320. Archivado (PDF) desde el original el 29 de agosto de 2017 . Consultado el 5 de noviembre de 2019 .
^ Robbins, H. ; Monro, S. (1951). "Un método de aproximación estocástica". Anales de estadística matemática . 22 (3): 400. doi : 10.1214/aoms/1177729586 .
^ Amari, Shun'ichi (1967). "Una teoría del clasificador de patrones adaptativo". Transacciones IEEE . EC (16): 279–307.
^ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 de octubre de 2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [cs.NE].
^ Fukushima, K. (1979). "Modelo de red neuronal para un mecanismo de reconocimiento de patrones no afectado por el cambio de posición: Neocognitron". Trans. IECE (en japonés) . J62-A (10): 658–665. doi :10.1007/bf00344251. PMID 7370364. S2CID 206775608.
^ Fukushima, K. (1980). "Neocognitrón: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento de patrones no afectado por el cambio de posición". Biol. Cybern . 36 (4): 193–202. doi :10.1007/bf00344251. PMID 7370364. S2CID 206775608.
^ Leibniz, Gottfried Wilhelm Freiherr von (1920). Los primeros manuscritos matemáticos de Leibniz: traducidos de los textos latinos publicados por Carl Immanuel Gerhardt con notas críticas e históricas (Leibniz publicó la regla de la cadena en unas memorias de 1676). Open Court Publishing Company. ISBN9780598818461.
^ Kelley, Henry J. (1960). "Teoría de gradientes de trayectorias de vuelo óptimas". ARS Journal . 30 (10): 947–954. doi :10.2514/8.5282.
^ Linnainmaa, Seppo (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales (Masters) (en finlandés). Universidad de Helsinki. págs. 6-7.
^ Linnainmaa, Seppo (1976). "Expansión de Taylor del error de redondeo acumulado". BIT Numerical Mathematics . 16 (2): 146–160. doi :10.1007/bf01931367. S2CID 122357351.
^ Ostrovski, GM, Volin, YM y Boris, WW (1971). Sobre el cálculo de derivadas. Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
^ ab Schmidhuber, Juergen (25 de octubre de 2014). "¿Quién inventó la retropropagación?". IDSIA, Suiza. Archivado desde el original el 30 de julio de 2024. Consultado el 14 de septiembre de 2024 .
^ Werbos, Paul (1982). "Aplicaciones de los avances en el análisis de sensibilidad no lineal" (PDF) . Modelado y optimización de sistemas . Springer. pp. 762–770. Archivado (PDF) desde el original el 14 de abril de 2016. Consultado el 2 de julio de 2017 .
^ Werbos, Paul J. (1994). Las raíces de la retropropagación: de las derivadas ordenadas a las redes neuronales y la previsión política . Nueva York: John Wiley & Sons. ISBN0-471-59897-6.
^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (octubre de 1986). "Aprendizaje de representaciones mediante retropropagación de errores". Nature . 323 (6088): 533–536. Bibcode :1986Natur.323..533R. doi :10.1038/323533a0. ISSN 1476-4687.
^ Rumelhart, David E., Geoffrey E. Hinton y RJ Williams. "Aprendizaje de representaciones internas mediante propagación de errores Archivado el 13 de octubre de 2022 en Wayback Machine ". David E. Rumelhart, James L. McClelland y el grupo de investigación PDP (editores), Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición, volumen 1: Fundamentos. MIT Press, 1986.
^ Waibel, Alex (diciembre de 1987). Reconocimiento de fonemas mediante redes neuronales con retardo temporal (PDF) . Reunión del Instituto de Ingenieros Eléctricos, de Información y de Comunicaciones (IEICE). Tokio, Japón.
^ Alexander Waibel et al., Reconocimiento de fonemas utilizando redes neuronales con retardo temporal IEEE Transactions on Acoustics, Speech, and Signal Processing, Volumen 37, N.º 3, págs. 328-339, marzo de 1989.
^ Zhang, Wei (1988). "Red neuronal de reconocimiento de patrones invariante al cambio y su arquitectura óptica". Actas de la Conferencia Anual de la Sociedad Japonesa de Física Aplicada .
^ LeCun et al. , "Retropropagación aplicada al reconocimiento de códigos postales escritos a mano", Neural Computation , 1, págs. 541–551, 1989.
^ Zhang, Wei (1990). "Modelo de procesamiento distribuido paralelo con interconexiones locales invariantes en el espacio y su arquitectura óptica". Óptica Aplicada . 29 (32): 4790–7. Bibcode :1990ApOpt..29.4790Z. doi :10.1364/AO.29.004790. PMID 20577468.
^ Zhang, Wei (1991). "Procesamiento de imágenes del endotelio corneal humano basado en una red de aprendizaje". Applied Optics . 30 (29): 4211–7. Bibcode :1991ApOpt..30.4211Z. doi :10.1364/AO.30.004211. PMID 20706526.
^ Zhang, Wei (1994). "Detección computarizada de microcalcificaciones agrupadas en mamografías digitales utilizando una red neuronal artificial invariante al cambio". Física médica . 21 (4): 517–24. Bibcode :1994MedPh..21..517Z. doi :10.1118/1.597177. PMID 8058017.
^ LeCun, Yann; León Bottou; Yoshua Bengio; Patricio Haffner (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos" (PDF) . Actas del IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . doi :10.1109/5.726791. S2CID 14542261 . Consultado el 7 de octubre de 2016 .
^ Jordan, Michael I. (1986). "Dinámica de atractores y paralelismo en una máquina secuencial conexionista". Actas de la Reunión Anual de la Sociedad de Ciencias Cognitivas . 8 .
^ Elman, Jeffrey L. (marzo de 1990). "Encontrar estructura en el tiempo". Ciencia cognitiva . 14 (2): 179–211. doi :10.1207/s15516709cog1402_1. ISSN 0364-0213.
^ abc Schmidhuber, Jürgen (abril de 1991). "Fragmentos de secuencias neuronales" (PDF) . TR FKI-148, TU Munich .
^ ab Schmidhuber, Jürgen (1992). "Aprendizaje de secuencias complejas y extendidas utilizando el principio de compresión histórica (basado en TR FKI-148, 1991)" (PDF) . Neural Computation . 4 (2): 234–242. doi :10.1162/neco.1992.4.2.234. S2CID 18271205.
^ Schmidhuber, Jürgen (1993). Tesis de habilitación: Modelado y optimización de sistemas (PDF) .[ enlace muerto permanente ] La página 150 y siguientes demuestra la asignación de crédito a lo largo del equivalente de 1200 capas en una RNN desplegada.
^ abc S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen". Archivado el 6 de marzo de 2015 en Wayback Machine . Tesis de diploma. Instituto f. Informática, Universidad Técnica. Munich. Asesor: J. Schmidhuber , 1991.
^ Hochreiter, S.; et al. (15 de enero de 2001). "Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo". En Kolen, John F.; Kremer, Stefan C. (eds.). Una guía de campo para redes recurrentes dinámicas . John Wiley & Sons. ISBN978-0-7803-5369-5.
^ Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Aprendiendo a olvidar: predicción continua con LSTM". Novena Conferencia Internacional sobre Redes Neuronales Artificiales: ICANN '99 . Vol. 1999. págs. 850–855. doi :10.1049/cp:19991218. ISBN.0-85296-721-7.
^ ab Schmidhuber, Jürgen (1991). "Una posibilidad para implementar la curiosidad y el aburrimiento en controladores neuronales de construcción de modelos". Proc. SAB'1991 . MIT Press/Bradford Books. págs. 222–227.
^ Schmidhuber, Jürgen (2010). "Teoría formal de la creatividad, la diversión y la motivación intrínseca (1990-2010)". IEEE Transactions on Autonomous Mental Development . 2 (3): 230–247. doi :10.1109/TAMD.2010.2056368. S2CID 234198.
^ por Schmidhuber, Jürgen (2020). "Las redes generativas adversarias son casos especiales de curiosidad artificial (1990) y también están estrechamente relacionadas con la minimización de la previsibilidad (1991)". Redes neuronales . 127 : 58–66. arXiv : 1906.04493 . doi :10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336.
^ Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1 de enero de 1985). "Un algoritmo de aprendizaje para máquinas de Boltzmann". Cognitive Science . 9 (1): 147–169. doi :10.1016/S0364-0213(85)80012-4 (inactivo 2024-08-07). ISSN 0364-0213.{{cite journal}}: CS1 maint: DOI inactivo a partir de agosto de 2024 ( enlace )
^ Hinton, Geoffrey E. ; Dayan, Peter ; Frey, Brendan J. ; Neal, Radford (26 de mayo de 1995). "El algoritmo de vigilia-sueño para redes neuronales no supervisadas". Science . 268 (5214): 1158–1161. Bibcode :1995Sci...268.1158H. doi :10.1126/science.7761831. PMID 7761831. S2CID 871473.
^ Sejnowski, Terrence J. (2018). La revolución del aprendizaje profundo . Cambridge, Massachusetts: The MIT Press. ISBN978-0-262-03803-4.
^ Qian, Ning; Sejnowski, Terrence J. (20 de agosto de 1988). "Predicción de la estructura secundaria de proteínas globulares utilizando modelos de redes neuronales". Revista de biología molecular . 202 (4): 865–884. doi :10.1016/0022-2836(88)90564-5. ISSN 0022-2836. PMID 3172241.
^ Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio (1 de agosto de 1993). "Sistemas híbridos de redes neuronales y modelos ocultos de Markov para el reconocimiento continuo del habla". Revista internacional de reconocimiento de patrones e inteligencia artificial . 07 (4): 899–916. doi :10.1142/s0218001493000455. ISSN 0218-0014.
^ Robinson, T. (1992). "Un sistema de reconocimiento de palabras en red de propagación de errores recurrentes en tiempo real". ICASSP . Icassp'92: 617–620. ISBN9780780305328Archivado desde el original el 9 de mayo de 2021. Consultado el 12 de junio de 2017 .
^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, KJ (marzo de 1989). "Reconocimiento de fonemas mediante redes neuronales con retardo temporal" (PDF) . IEEE Transactions on Acoustics, Speech, and Signal Processing . 37 (3): 328–339. doi :10.1109/29.21701. hdl :10338.dmlcz/135496. ISSN 0096-3518. S2CID 9563026. Archivado (PDF) desde el original el 27 de abril de 2021 . Consultado el 24 de septiembre de 2019 .
^ Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). "Desarrollos y direcciones de la investigación en reconocimiento y comprensión del habla, parte 1". Revista IEEE Signal Processing . 26 (3): 75–80. Bibcode :2009ISPM...26...75B. doi :10.1109/msp.2009.932166. hdl :1721.1/51891. S2CID 357467.
^ Bengio, Y. (1991). "Redes neuronales artificiales y su aplicación al reconocimiento de voz/secuencias". Tesis doctoral de la Universidad McGill. Archivado desde el original el 2021-05-09 . Consultado el 2017-06-12 .
^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). "Análisis de la estructura de correlación para un modelo predictivo neuronal con aplicaciones al reconocimiento de voz". Redes neuronales . 7 (2): 331–339. doi :10.1016/0893-6080(94)90027-2.
^ Doddington, G.; Przybocki, M.; Martin, A.; Reynolds, D. (2000). "La evaluación del reconocimiento de habla del NIST ± Descripción general, metodología, sistemas, resultados, perspectiva". Comunicación del habla . 31 (2): 225–254. doi :10.1016/S0167-6393(99)00080-1.
^ ab Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). "Robustez a la distorsión del auricular del teléfono en el reconocimiento de hablantes mediante diseño de características discriminativas". Comunicación del habla . 31 (2): 181–192. doi :10.1016/s0167-6393(99)00077-1.
^ LP Heck y R. Teunen. "Transacciones seguras y convenientes con Nuance Verifier". Conferencia de usuarios de Nuance, abril de 1998.
^ "Modelado acústico con redes neuronales profundas utilizando señales de tiempo sin procesar para LVCSR (descarga en PDF disponible)". ResearchGate . Archivado desde el original el 9 de mayo de 2021 . Consultado el 14 de junio de 2017 .
^ ab Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). "Reconocimiento de voz biológicamente plausible con redes neuronales LSTM" (PDF) . 1.er taller internacional sobre enfoques de inspiración biológica para la tecnología de la información avanzada, Bio-ADIT 2004, Lausana, Suiza . pp. 175–184. Archivado (PDF) desde el original el 2021-05-09 . Consultado el 2016-04-09 .
^ Graves, Alex ; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). "Clasificación temporal conexionista: etiquetado de datos de secuencia no segmentados con redes neuronales recurrentes". Actas de la Conferencia Internacional sobre Aprendizaje Automático, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
^ Santiago Fernández, Alex Graves y Jürgen Schmidhuber (2007). Una aplicación de redes neuronales recurrentes para la detección discriminativa de palabras clave Archivado el 18 de noviembre de 2018 en Wayback Machine . Actas de la ICANN (2), págs. 220–229.
^ Graves, Alex; y Schmidhuber, Jürgen; Reconocimiento de escritura a mano sin conexión con redes neuronales recurrentes multidimensionales , en Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris KI; y Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), 7 al 10 de diciembre de 2009, Vancouver, BC , Neural Information Processing Systems (NIPS) Foundation, 2009, págs. 545–552
^ Hinton, Geoffrey E. (1 de octubre de 2007). "Aprendizaje de múltiples capas de representación". Tendencias en Ciencias Cognitivas . 11 (10): 428–434. doi :10.1016/j.tics.2007.09.004. ISSN 1364-6613. PMID 17921042. S2CID 15066318. Archivado desde el original el 11 de octubre de 2013. Consultado el 12 de junio de 2017 .
^ Hinton, GE ; Osindero, S.; Teh, YW (2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas" (PDF) . Neural Computation . 18 (7): 1527–1554. doi :10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950. Archivado (PDF) desde el original el 23 de diciembre de 2015 . Consultado el 20 de julio de 2011 .
^ GE Hinton., "Aprendizaje de múltiples capas de representación". Archivado el 22 de mayo de 2018 en Wayback Machine . Trends in Cognitive Sciences , 11, págs. 428–434, 2007.
^ Hinton, Geoffrey E. (octubre de 2007). "Aprendizaje de múltiples capas de representación". Tendencias en ciencias cognitivas . 11 (10): 428–434. doi :10.1016/j.tics.2007.09.004. PMID 17921042.
^ Hinton, Geoffrey E.; Osindero, Simon; Teh, Yee-Whye (julio de 2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas". Neural Computation . 18 (7): 1527–1554. doi :10.1162/neco.2006.18.7.1527. ISSN 0899-7667. PMID 16764513.
^ Hinton, Geoffrey E. (31 de mayo de 2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. Bibcode :2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 . ISSN 1941-6016.
^ Yann LeCun (2016). Diapositivas sobre aprendizaje profundo en línea Archivado el 23 de abril de 2016 en Wayback Machine.
^ abc Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T. ; Kingsbury, B. (2012). "Redes neuronales profundas para modelado acústico en reconocimiento de voz: las visiones compartidas de cuatro grupos de investigación". Revista IEEE Signal Processing . 29 (6): 82–97. Bibcode :2012ISPM...29...82H. doi :10.1109/msp.2012.2205597. S2CID 206485943.
^ abc Deng, L.; Hinton, G.; Kingsbury, B. (mayo de 2013). "Nuevos tipos de aprendizaje de redes neuronales profundas para reconocimiento de voz y aplicaciones relacionadas: una descripción general (ICASSP)" (PDF) . Microsoft. Archivado (PDF) desde el original el 26 de septiembre de 2017 . Consultado el 27 de diciembre de 2023 .
^ abc Yu, D.; Deng, L. (2014). Reconocimiento automático de voz: un enfoque de aprendizaje profundo (Editorial: Springer). Springer. ISBN978-1-4471-5779-3.
^ "Deng recibe el prestigioso premio IEEE Technical Achievement Award - Microsoft Research". Microsoft Research . 3 de diciembre de 2015. Archivado desde el original el 16 de marzo de 2018 . Consultado el 16 de marzo de 2018 .
^ ab Li, Deng (septiembre de 2014). «Charla magistral: 'Logros y desafíos del aprendizaje profundo: desde el análisis y reconocimiento del habla hasta el lenguaje y el procesamiento multimodal'». Interspeech . Archivado desde el original el 26 de septiembre de 2017. Consultado el 12 de junio de 2017 .
^ Yu, D.; Deng, L. (2010). "Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition". Taller NIPS sobre aprendizaje profundo y aprendizaje de características no supervisado . Archivado desde el original el 2017-10-12 . Consultado el 2017-06-14 .
^ Seide, F.; Li, G.; Yu, D. (2011). "Transcripción del habla conversacional utilizando redes neuronales profundas dependientes del contexto". Interspeech 2011 . págs. 437–440. doi :10.21437/Interspeech.2011-169. S2CID 398770. Archivado desde el original el 2017-10-12 . Consultado el 2017-06-14 .
^ Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; He, Xiaodong (1 de mayo de 2013). «Avances recientes en aprendizaje profundo para la investigación del habla en Microsoft». Microsoft Research . Archivado desde el original el 12 de octubre de 2017. Consultado el 14 de junio de 2017 .
^ ab Oh, K.-S.; Jung, K. (2004). "Implementación de redes neuronales mediante GPU". Reconocimiento de patrones . 37 (6): 1311–1314. Código Bibliográfico :2004PatRe..37.1311O. doi :10.1016/j.patcog.2004.01.013.
^ ab Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), Redes neuronales convolucionales de alto rendimiento para el procesamiento de documentos, archivado desde el original el 18 de mayo de 2020 , consultado el 14 de febrero de 2021
^ Sze, Vivienne ; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). "Procesamiento eficiente de redes neuronales profundas: un tutorial y una encuesta". arXiv : 1703.09039 [cs.CV].
^ Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (14 de junio de 2009). "Aprendizaje profundo no supervisado a gran escala utilizando procesadores gráficos". Actas de la 26.ª Conferencia internacional anual sobre aprendizaje automático . ICML '09. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 873–880. doi :10.1145/1553374.1553486. ISBN .978-1-60558-516-1.
^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca María; Schmidhuber, Jürgen (21 de septiembre de 2010). "Redes neuronales profundas, grandes y simples para el reconocimiento de dígitos escritos a mano". Computación neuronal . 22 (12): 3207–3220. arXiv : 1003.0358 . doi :10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673.
^ Ciresan, DC; Meier, U.; Masci, J.; Gambardella, LM; Schmidhuber, J. (2011). "Redes neuronales convolucionales flexibles y de alto rendimiento para la clasificación de imágenes" (PDF) . Conferencia conjunta internacional sobre inteligencia artificial . doi :10.5591/978-1-57735-516-8/ijcai11-210. Archivado (PDF) desde el original el 29 de septiembre de 2014 . Consultado el 13 de junio de 2017 .
^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen (2012). Pereira, F.; Burges, CJC; Bottou, L.; Weinberger, KQ (eds.). Avances en sistemas de procesamiento de información neuronal 25 (PDF) . Curran Associates, Inc. págs. 2843–2851. Archivado (PDF) desde el original el 2017-08-09 . Consultado el 2017-06-13 .
^ Ciresan, D.; Giusti, A.; Gambardella, LM; Schmidhuber, J. (2013). "Detección de mitosis en imágenes de histología de cáncer de mama con redes neuronales profundas". Computación de imágenes médicas e intervención asistida por computadora – MICCAI 2013. Apuntes de clase en informática. Vol. 7908. págs. 411–418. doi :10.1007/978-3-642-40763-5_51. ISBN978-3-642-38708-1. Número de identificación personal 24579167.
^ Ng, Andrew; Dean, Jeff (2012). "Construcción de características de alto nivel mediante aprendizaje no supervisado a gran escala". arXiv : 1112.6209 [cs.LG].
^ Simonyan, Karen; Andrew, Zisserman (2014). "Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala". arXiv : 1409.1556 [cs.CV].
^ Szegedy, Christian (2015). "Profundizando con las convoluciones" (PDF) . Cvpr2015 . arXiv : 1409.4842 .
^ Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). "Mostrar y contar: un generador de subtítulos de imágenes neuronal". arXiv : 1411.4555 [cs.CV]..
^ Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey (2014). "De los subtítulos a los conceptos visuales y viceversa". arXiv : 1411.4952 [cs.CV]..
^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S (2014). "Unificación de incrustaciones semánticas visuales con modelos de lenguaje neuronal multimodal". arXiv : 1411.2539 [cs.LG]..
^ Simonyan, Karen; Zisserman, Andrew (10 de abril de 2015), Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala , arXiv : 1409.1556
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de ImageNet". arXiv : 1502.01852 [cs.CV].
^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 de diciembre de 2015). Aprendizaje residual profundo para el reconocimiento de imágenes . arXiv : 1512.03385 .
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Aprendizaje residual profundo para reconocimiento de imágenes. Conferencia IEEE 2016 sobre visión artificial y reconocimiento de patrones (CVPR) . Las Vegas, NV, EE. UU.: IEEE. págs. 770–778. arXiv : 1512.03385 . doi :10.1109/CVPR.2016.90. ISBN .978-1-4673-8851-1.
^ Gatys, Leon A.; Ecker, Alexander S.; Bethge, Matthias (26 de agosto de 2015). "Un algoritmo neuronal de estilo artístico". arXiv : 1508.06576 [cs.CV].
^ Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks (PDF) . Actas de la Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (NIPS 2014). págs. 2672–2680. Archivado (PDF) desde el original el 22 de noviembre de 2019 . Consultado el 20 de agosto de 2019 .
^ "GAN 2.0: el generador de rostros hiperrealistas de NVIDIA". SyncedReview.com . 14 de diciembre de 2018 . Consultado el 3 de octubre de 2019 .
^ Karras, T.; Aila, T.; Laine, S.; Lehtinen, J. (26 de febrero de 2018). "Crecimiento progresivo de GAN para mejorar la calidad, la estabilidad y la variación". arXiv : 1710.10196 [cs.NE].
^ "Prepárense, no se asusten: medios sintéticos y deepfakes". witness.org. Archivado desde el original el 2 de diciembre de 2020. Consultado el 25 de noviembre de 2020 .
^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (1 de junio de 2015). "Aprendizaje profundo no supervisado mediante termodinámica del no equilibrio" (PDF) . Actas de la 32.ª Conferencia internacional sobre aprendizaje automático . 37 . PMLR: 2256–2265. arXiv : 1503.03585 .
^ Blog de investigación de Google. Las redes neuronales detrás de la transcripción de Google Voice. 11 de agosto de 2015. Por Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html
^ ab Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (septiembre de 2015). «Búsqueda por voz de Google: más rápida y precisa». Archivado desde el original el 9 de marzo de 2016. Consultado el 9 de abril de 2016 .
^ Singh, Premjeet; Saha, Goutam; Sahidullah, Md (2021). "Deformación de frecuencia no lineal mediante transformación de Q constante para el reconocimiento de emociones del habla". 2021 Conferencia internacional sobre comunicación informática e informática (ICCCI) . págs. 1–4. arXiv : 2102.04029 . doi :10.1109/ICCCI50826.2021.9402569. ISBN978-1-7281-5875-4. Número de identificación del sujeto 231846518.
^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a corto y largo plazo para modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
^ Li, Xiangang; Wu, Xihong (2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria de corto y largo plazo para el reconocimiento de voz de vocabulario amplio". arXiv : 1410.4281 [cs.CL].
^ Zen, Heiga; Sak, Hasim (2015). "Red neuronal recurrente de memoria a corto y largo plazo unidireccional con capa de salida recurrente para síntesis de voz de baja latencia" (PDF) . Google.com . ICASSP. págs. 4470–4474. Archivado (PDF) desde el original el 2021-05-09 . Consultado el 2017-06-13 .
^ "Galardonados con el premio ACM AM Turing 2018". awards.acm.org . Consultado el 7 de agosto de 2024 .
^ Ferrie, C., y Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN978-1492671206.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Plata, David; Huang, Aja; Maddison, Chris J.; Guez, Arturo; Sifré, Laurent; Driessche, George van den; Schrittwieser, Julián; Antonoglou, Ioannis; Panneershelvam, Veda (enero de 2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles". Naturaleza . 529 (7587): 484–489. Código Bib :2016Natur.529..484S. doi : 10.1038/naturaleza16961. ISSN 1476-4687. PMID 26819042. S2CID 515925.
^ Una guía sobre aprendizaje profundo y redes neuronales, archivado desde el original el 2 de noviembre de 2020 , consultado el 16 de noviembre de 2020
^ Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). "Redes neuronales profundas para la detección de objetos". Avances en sistemas de procesamiento de información neuronal : 2553–2561. Archivado desde el original el 29 de junio de 2017. Consultado el 13 de junio de 2017 .
^ Rolnick, David; Tegmark, Max (2018). "El poder de las redes más profundas para expresar funciones naturales". Conferencia internacional sobre representaciones del aprendizaje . ICLR 2018. Archivado desde el original el 2021-01-07 . Consultado el 2021-01-05 .
^ Hof, Robert D. "¿Está la inteligencia artificial finalmente cobrando importancia?". MIT Technology Review . Archivado desde el original el 31 de marzo de 2019. Consultado el 10 de julio de 2018 .
^ ab Gers, Felix A.; Schmidhuber, Jürgen (2001). "Las redes recurrentes LSTM aprenden lenguajes simples, libres de contexto y sensibles al contexto". IEEE Transactions on Neural Networks . 12 (6): 1333–1340. doi :10.1109/72.963769. PMID 18249962. S2CID 10192330. Archivado desde el original el 26 de enero de 2020 . Consultado el 25 de febrero de 2020 .
^ abc Sutskever, L.; Vinyals, O.; Le, Q. (2014). "Aprendizaje secuencia a secuencia con redes neuronales" (PDF) . Proc. NIPS . arXiv : 1409.3215 . Bibcode :2014arXiv1409.3215S. Archivado (PDF) desde el original el 2021-05-09 . Consultado el 2017-06-13 .
^ ab Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). "Explorando los límites del modelado del lenguaje". arXiv : 1602.02410 [cs.CL].
^ ab Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). "Procesamiento de lenguaje multilingüe a partir de bytes". arXiv : 1512.00103 [cs.CL].
^ Mikolov, T.; et al. (2010). "Modelo de lenguaje basado en redes neuronales recurrentes" (PDF) . Interspeech : 1045–1048. doi :10.21437/Interspeech.2010-343. S2CID 17048224. Archivado (PDF) desde el original el 2017-05-16 . Consultado el 2017-06-13 .
^ Hochreiter, Sepp; Schmidhuber, Jürgen (1 de noviembre de 1997). "Memoria a largo plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
^ ab "Aprendizaje de tiempos precisos con redes recurrentes LSTM (Descarga en PDF disponible)". ResearchGate . Archivado desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
^ LeCun, Y.; et al. (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos". Actas del IEEE . 86 (11): 2278–2324. doi :10.1109/5.726791. S2CID 14542261.
^ Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). "Avances en la optimización de redes recurrentes". Conferencia internacional IEEE de 2013 sobre acústica, habla y procesamiento de señales . págs. 8624–8628. arXiv : 1212.0901 . CiteSeerX 10.1.1.752.9151 . doi :10.1109/icassp.2013.6639349. ISBN .978-1-4799-0356-6.S2CID12485056 .
^ Dahl, G.; et al. (2013). "Mejora de las DNN para LVCSR mediante unidades lineales rectificadas y abandono" (PDF) . ICASSP . Archivado (PDF) desde el original el 2017-08-12 . Consultado el 2017-06-13 .
^ "Aumento de datos - deeplearning.ai | Coursera". Coursera . Archivado desde el original el 1 de diciembre de 2017 . Consultado el 30 de noviembre de 2017 .
^ Hinton, GE (2010). "Una guía práctica para el entrenamiento de máquinas de Boltzmann restringidas". Tech. Rep. UTML TR 2010-003 . Archivado desde el original el 2021-05-09 . Consultado el 2017-06-13 .
^ You, Yang; Buluç, Aydın; Demmel, James (noviembre de 2017). "Escalado del aprendizaje profundo en GPU y clústeres Knights Landing". Actas de la Conferencia internacional sobre computación de alto rendimiento, redes, almacenamiento y análisis en SC '17. SC '17, ACM. págs. 1–12. doi :10.1145/3126908.3126912. ISBN9781450351140. S2CID 8869270. Archivado desde el original el 29 de julio de 2020 . Consultado el 5 de marzo de 2018 .
^ Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). "CHAOS: un esquema de paralelización para entrenar redes neuronales convolucionales en Intel Xeon Phi". The Journal of Supercomputing . 75 : 197–227. arXiv : 1702.07908 . Código Bibliográfico :2017arXiv170207908V. doi :10.1007/s11227-017-1994-x. S2CID 14135321.
^ Ting Qin, et al. "Un algoritmo de aprendizaje de CMAC basado en RLS". Neural Processing Letters 19.1 (2004): 49-61.
^ Ting Qin, et al. "CMAC-QRLS continuo y su matriz sistólica". Archivado el 18 de noviembre de 2018 en Wayback Machine . Neural Processing Letters 22.1 (2005): 1-16.
^ Research, AI (23 de octubre de 2015). «Redes neuronales profundas para el modelado acústico en el reconocimiento de voz». airesearch.com . Archivado desde el original el 1 de febrero de 2016. Consultado el 23 de octubre de 2015 .
^ "Las GPU siguen dominando el mercado de aceleradores de IA por ahora". InformationWeek . Diciembre de 2019. Archivado desde el original el 10 de junio de 2020 . Consultado el 11 de junio de 2020 .
^ Ray, Tiernan (2019). «La IA está cambiando toda la naturaleza de la computación». ZDNet . Archivado desde el original el 25 de mayo de 2020. Consultado el 11 de junio de 2020 .
^ "AI and Compute". OpenAI . 16 de mayo de 2018. Archivado desde el original el 17 de junio de 2020 . Consultado el 11 de junio de 2020 .
^ "HUAWEI revela el futuro de la inteligencia artificial móvil en IFA 2017 | Últimas noticias de HUAWEI | HUAWEI Global". consumer.huawei.com .
^ P, JouppiNorman; YoungCliff; PatilNishant; PattersonDavid; AgrawalGaurav; BajwaRaminder; BatesSarah; BhatiaSuresh; BodenNan; BorchersAl; BoyleRick (24 de junio de 2017). "Análisis del rendimiento en el centro de datos de una unidad de procesamiento de tensores". ACM SIGARCH Computer Architecture News . 45 (2): 1–12. arXiv : 1704.04760 . doi : 10.1145/3140659.3080246 .
^ Woodie, Alex (1 de noviembre de 2021). "Cerebras pisa el acelerador para las cargas de trabajo de aprendizaje profundo". Datanami . Consultado el 3 de agosto de 2022 .
^ "Cerebras lanza un nuevo procesador de supercomputación de IA con 2,6 billones de transistores". VentureBeat . 2021-04-20 . Consultado el 2022-08-03 .
^ abc Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). "Procesamiento convolucional paralelo utilizando un tensor fotónico integrado". Nature . 589 (2): 52–58. arXiv : 2002.00281 . doi :10.1038/s41586-020-03070-1. PMID 33408373. S2CID 211010976.
^ Garofolo, JS; Lamel, LF; Fisher, WM; Fiscus, JG; Pallett, DS; Dahlgren, NL; Zue, V. (1993). Corpus de habla acústica y fonética continua TIMIT. Consorcio de datos lingüísticos. doi :10.35111/17gk-bn40. ISBN.1-58563-019-5. Recuperado el 27 de diciembre de 2023 .
^ Robinson, Tony (30 de septiembre de 1991). "Varias mejoras en un sistema de reconocimiento telefónico de red de propagación de errores recurrentes". Informe técnico del Departamento de Ingeniería de la Universidad de Cambridge . CUED/F-INFENG/TR82. doi :10.13140/RG.2.2.15418.90567.
^ Abdel-Hamid, O.; et al. (2014). "Redes neuronales convolucionales para el reconocimiento de voz". Transacciones IEEE/ACM sobre procesamiento de audio, voz y lenguaje . 22 (10): 1533–1545. doi :10.1109/taslp.2014.2339736. S2CID 206602362. Archivado desde el original el 22 de septiembre de 2020. Consultado el 20 de abril de 2018 .
^ Deng, L.; Platt, J. (2014). "Aprendizaje profundo de conjunto para reconocimiento de voz". Proc. Interspeech : 1915–1919. doi :10.21437/Interspeech.2014-433. S2CID 15641618.
^ Tóth, Laszló (2015). "Reconocimiento de teléfonos con redes jerárquicas convolucionales de máxima potencia profunda" (PDF) . Revista EURASIP sobre procesamiento de audio, voz y música . 2015 . doi : 10.1186/s13636-015-0068-3 . S2CID 217950236. Archivado (PDF) desde el original el 24 de septiembre de 2020 . Consultado el 1 de abril de 2019 .
^ McMillan, Robert (17 de diciembre de 2014). "Cómo Skype utilizó la inteligencia artificial para crear su nuevo y sorprendente traductor de idiomas | WIRED". Wired . Archivado desde el original el 8 de junio de 2017 . Consultado el 14 de junio de 2017 .
^ Hannun, Awni; Caso, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adán; Ng, Andrew Y (2014). "Deep Speech: ampliación del reconocimiento de voz de un extremo a otro". arXiv : 1412.5567 [cs.CL].
^ "Base de datos de dígitos manuscritos del MNIST, Yann LeCun, Corinna Cortes y Chris Burges". yann.lecun.com . Archivado desde el original el 13 de enero de 2014 . Consultado el 28 de enero de 2014 .
^ Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (agosto de 2012). "Red neuronal profunda multicolumna para la clasificación de señales de tráfico". Redes neuronales . Artículos seleccionados de IJCNN 2011. 32 : 333–338. CiteSeerX 10.1.1.226.8219 . doi :10.1016/j.neunet.2012.02.023. PMID 22386783.
^ Chaochao Lu; Xiaoou Tang (2014). "Superando el reconocimiento facial a nivel humano". arXiv : 1404.3840 [cs.CV].
^ Nvidia muestra un ordenador para coche entrenado con "aprendizaje profundo" (6 de enero de 2015), David Talbot, MIT Technology Review
^ abc GW Smith; Frederic Fol Leymarie (10 de abril de 2017). "La máquina como artista: una introducción". Arts . 6 (4): 5. doi : 10.3390/arts6020005 .
^ abc Blaise Agüera y Arcas (29 de septiembre de 2017). «El arte en la era de la inteligencia artificial». Arts . 6 (4): 18. doi : 10.3390/arts6040018 .
^ Goldberg, Yoav; Levy, Omar (2014). "word2vec explicado: derivación del método de incrustación de palabras con muestreo negativo de Mikolov et al." arXiv : 1402.3722 [cs.CL].
^ ab Socher, Richard; Manning, Christopher. "Deep Learning for NLP" (PDF) . Archivado (PDF) del original el 6 de julio de 2014. Consultado el 26 de octubre de 2014 .
^ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). "Análisis sintáctico con gramáticas vectoriales compositivas" (PDF) . Actas de la conferencia ACL 2013 . Archivado (PDF) desde el original el 27 de noviembre de 2014 . Consultado el 3 de septiembre de 2014 .
^ Socher, R.; Perelygin, A.; Wu, J.; Chuang, J.; Manning, CD; Ng, A.; Potts, C. (octubre de 2013). "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank" (PDF) . Actas de la Conferencia de 2013 sobre métodos empíricos en el procesamiento del lenguaje natural . Asociación de Lingüística Computacional. Archivado (PDF) desde el original el 28 de diciembre de 2016 . Consultado el 21 de diciembre de 2023 .
^ Shen, Yelong; He, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1 de noviembre de 2014). "Un modelo semántico latente con estructura de agrupación convolucional para la recuperación de información". Microsoft Research . Archivado desde el original el 27 de octubre de 2017. Consultado el 14 de junio de 2017 .
^ Huang, Po-Sen; He, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Alex; Heck, Larry (1 de octubre de 2013). "Aprendizaje de modelos semánticos estructurados profundos para búsquedas web mediante datos de clics". Microsoft Research . Archivado desde el original el 27 de octubre de 2017. Consultado el 14 de junio de 2017 .
^ Mesnil, G.; Dauphin, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D .; He, X.; Heck, L.; Tur, G.; Yu, D.; Zweig, G. (2015). "Uso de redes neuronales recurrentes para el llenado de espacios en la comprensión del lenguaje hablado". IEEE Transactions on Audio, Speech, and Language Processing . 23 (3): 530–539. doi :10.1109/taslp.2014.2383614. S2CID 1317136.
^ ab Gao, Jianfeng; He, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1 de junio de 2014). "Aprendizaje de representaciones de frases continuas para el modelado de traducción". Microsoft Research . Archivado desde el original el 27 de octubre de 2017. Consultado el 14 de junio de 2017 .
^ Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). "Verificación de autoría utilizando sistemas de redes de creencias profundas". Revista Internacional de Sistemas de Comunicación . 30 (12): e3259. doi :10.1002/dac.3259. S2CID 40745740.
^ Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). "Extracción de información de precisión para la epidemiología de enfermedades raras a escala". Revista de Medicina Traslacional . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC 9972634 . PMID 36855134.
^ "Aprendizaje profundo para el procesamiento del lenguaje natural: teoría y práctica (tutorial CIKM2014) - Microsoft Research". Microsoft Research . Archivado desde el original el 13 de marzo de 2017. Consultado el 14 de junio de 2017 .
^ Turovsky, Barak (15 de noviembre de 2016). «Encontrado en la traducción: frases más precisas y fluidas en Google Translate». The Keyword Google Blog . Archivado desde el original el 7 de abril de 2017. Consultado el 23 de marzo de 2017 .
^ abcd Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22 de noviembre de 2016). «Zero-Shot Translation with Google's Multilingual Neural Machine Translation System» (Traducción sin interrupciones con el sistema de traducción automática neuronal multilingüe de Google). Blog de investigación de Google . Archivado desde el original el 10 de julio de 2017. Consultado el 23 de marzo de 2017 .
^ Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz; Gouws, Stephan; Kato, Yoshikiyo; Kudo, Taku; Kazawa, Hideto; Stevens, Keith; Kurian, George; Patil, Nishant; Wang, Wei; Young, Cliff; Smith, Jason; Riesa, Jason; Rudnick, Alex; Vinyals, Oriol; Corrado, Greg; et al. (2016). "El sistema de traducción automática neuronal de Google: cerrando la brecha entre la traducción humana y la traducción automática". arXiv : 1609.08144 [cs.CL].
^ Metz, Cade (27 de septiembre de 2016). «Una infusión de IA hace que Google Translate sea más potente que nunca». Wired . Archivado desde el original el 8 de noviembre de 2020. Consultado el 12 de octubre de 2017 .
^ ab Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). «MT en y para la Web» (PDF) . Archivado desde el original (PDF) el 29 de marzo de 2017. Consultado el 1 de diciembre de 2016 .
^ Arrowsmith, J; Miller, P (2013). "Vigilancia de ensayos clínicos: tasas de deserción en fase II y fase III 2011-2012". Nature Reviews Drug Discovery . 12 (8): 569. doi : 10.1038/nrd4090 . PMID 23903212. S2CID 20246434.
^ Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, HW; Hochreiter, S (2015). "Uso de la transcriptómica para guiar la optimización de los principales proyectos de descubrimiento de fármacos: lecciones aprendidas del proyecto QSTAR". Drug Discovery Today . 20 (5): 505–513. doi : 10.1016/j.drudis.2014.12.014 . hdl : 1942/18723 . PMID 25582842.
^ "Desafío de actividad molecular de Merck". kaggle.com . Archivado desde el original el 2020-07-16 . Consultado el 2020-07-16 .
^ "Redes neuronales multitarea para predicciones QSAR | Data Science Association" (en inglés). www.datascienceassn.org . Archivado desde el original el 30 de abril de 2017. Consultado el 14 de junio de 2017 .
^ "La toxicología en el siglo XXI: un desafío de datos"
^ "NCATS anuncia los ganadores del desafío de datos Tox21". Archivado desde el original el 8 de septiembre de 2015. Consultado el 5 de marzo de 2015 .
^ "NCATS anuncia los ganadores del desafío de datos Tox21". Archivado desde el original el 28 de febrero de 2015 . Consultado el 5 de marzo de 2015 .
^ Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (9 de octubre de 2015). "AtomNet: una red neuronal convolucional profunda para la predicción de la bioactividad en el descubrimiento de fármacos basado en la estructura". arXiv : 1510.02855 [cs.LG].
^ ab "Una startup de Toronto tiene una forma más rápida de descubrir medicamentos efectivos". The Globe and Mail . Archivado desde el original el 20 de octubre de 2015. Consultado el 9 de noviembre de 2015 .
^ "Startup aprovecha supercomputadoras para buscar curas". KQED Future of You . 27 de mayo de 2015. Archivado desde el original el 24 de diciembre de 2015. Consultado el 9 de noviembre de 2015 .
^ Gilmer, Justin; Schoenholz, Samuel S.; Riley, Patrick F.; Vinyals, Oriol; Dahl, George E. (12 de junio de 2017). "Transmisión de mensajes neuronales para la química cuántica". arXiv : 1704.01212 [cs.LG].
^ Zhavoronkov, Alex (2019). "El aprendizaje profundo permite la identificación rápida de potentes inhibidores de la quinasa DDR1". Nature Biotechnology . 37 (9): 1038–1040. doi :10.1038/s41587-019-0224-x. PMID 31477924. S2CID 201716327.
^ Gregory, Barber. "Una molécula diseñada por IA exhibe cualidades 'similares a las de un fármaco'". Wired . Archivado desde el original el 2020-04-30 . Consultado el 2019-09-05 .
^ Tkachenko, Yegor (8 de abril de 2015). "Control CRM autónomo mediante aproximación CLV con aprendizaje de refuerzo profundo en el espacio de acción discreto y continuo". arXiv : 1504.01840 [cs.LG].
^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, CJC; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, KQ (eds.). Avances en sistemas de procesamiento de información neuronal 26 (PDF) . Curran Associates, Inc. págs. 2643–2651. Archivado (PDF) desde el original el 2017-05-16 . Consultado el 2017-06-14 .
^ Feng, XY; Zhang, H.; Ren, YJ; Shang, PH; Zhu, Y.; Liang, YC; Guan, RC; Xu, D. (2019). "El sistema de recomendación basado en aprendizaje profundo "Pubmender" para elegir un lugar de publicación biomédica: estudio de desarrollo y validación". Revista de investigación médica en Internet . 21 (5): e12957. doi : 10.2196/12957 . PMC 6555124 . PMID 31127715.
^ Elkahky, Ali Mamdouh; Song, Yang; He, Xiaodong (1 de mayo de 2015). "Un enfoque de aprendizaje profundo de múltiples vistas para el modelado de usuarios de dominio cruzado en sistemas de recomendación". Microsoft Research . Archivado desde el original el 25 de enero de 2018. Consultado el 14 de junio de 2017 .
^ Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1 de enero de 2014). "Redes neuronales de autocodificadores profundos para predicciones de anotaciones de ontologías genéticas". Actas de la 5.ª Conferencia de la ACM sobre bioinformática, biología computacional e informática de la salud. ACM. págs. 533–540. doi :10.1145/2649387.2649442. hdl :11311/964622. ISBN .9781450328944. S2CID 207217210. Archivado desde el original el 9 de mayo de 2021 . Consultado el 23 de noviembre de 2015 .
^ Sathyanarayana, Aarti (1 de enero de 2016). "Predicción de la calidad del sueño a partir de datos de dispositivos portátiles mediante aprendizaje profundo". JMIR mHealth y uHealth . 4 (4): e125. doi : 10.2196/mhealth.6562 . PMC 5116102 . PMID 27815231. S2CID 3821594.
^ Choi, Edward; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (13 de agosto de 2016). "Uso de modelos de redes neuronales recurrentes para la detección temprana de la aparición de insuficiencia cardíaca". Revista de la Asociación Estadounidense de Informática Médica . 24 (2): 361–370. doi :10.1093/jamia/ocw112. ISSN 1067-5027. PMC 5391725 . PMID 27521897.
^ "La inteligencia artificial de DeepMind que plega proteínas ha resuelto un gran desafío de la biología que existía hace 50 años". MIT Technology Review . Consultado el 10 de mayo de 2024 .
^ Shead, Sam (30 de noviembre de 2020). "DeepMind resuelve un 'gran desafío' de 50 años con inteligencia artificial que pliega proteínas" CNBC . Consultado el 10 de mayo de 2024 .
^ ab Shalev, Y.; Painsky, A.; Ben-Gal, I. (2022). "Estimación de entropía conjunta neuronal" (PDF) . Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje . PP (4): 5488–5500. arXiv : 2012.11197 . doi :10.1109/TNNLS.2022.3204919. PMID 36155469. S2CID 229339809.
^ Litjens, Geert; Kooi, Thijs; Bejnordi, Babak Ehteshami; Setio, Arnaud Arindra Adiyoso; Ciompi, Francesco; Ghafoorian, Mohsen; van der Laak, Jeroen AWM; van Ginneken, Bram; Sánchez, Clara I. (diciembre 2017). "Una encuesta sobre aprendizaje profundo en el análisis de imágenes médicas". Análisis de Imágenes Médicas . 42 : 60–88. arXiv : 1702.05747 . Código Bib : 2017arXiv170205747L. doi :10.1016/j.media.2017.07.005. PMID 28778026. S2CID 2088679.
^ Forslid, Gustav; Wieslander, Hakan; Bengtsson, Ewert; Wahlby, Carolina; Hirsch, Jan-Michael; Stark, Christina Runow; Sadanandan, Sajith Kecheril (2017). "Redes neuronales convolucionales profundas para detectar cambios celulares debidos a malignidad". Talleres de la Conferencia Internacional IEEE sobre Visión por Computador (ICCVW) de 2017. págs. 82–89. doi :10.1109/ICCVW.2017.18. ISBN9781538610343. S2CID 4728736. Archivado desde el original el 9 de mayo de 2021. Consultado el 12 de noviembre de 2019 .
^ Dong, Xin; Zhou, Yizhao; Wang, Lantian; Peng, Jingfeng; Lou, Yanbo; Fan, Yiqun (2020). "Detección de cáncer de hígado mediante una red neuronal totalmente convolucional hibridada basada en un marco de aprendizaje profundo". IEEE Access . 8 : 129889–129898. Bibcode :2020IEEEA...8l9889D. doi : 10.1109/ACCESS.2020.3006362 . ISSN 2169-3536. S2CID 220733699.
^ Lyakhov, Pavel Alekseevich; Lyakhova, Ulyana Alekseevna; Nagornov, Nikolay Nikolaevich (3 de abril de 2022). "Sistema para el reconocimiento de lesiones cutáneas pigmentadas con fusión y análisis de datos heterogéneos basado en una red neuronal multimodal". Cánceres . 14 (7): 1819. doi : 10.3390/cancers14071819 . ISSN 2072-6694. PMC 8997449 . PMID 35406591.
^ De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). "Predicción de la popularidad de las publicaciones de Instagram para una revista de estilo de vida mediante aprendizaje profundo". 2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA) . págs. 174–177. doi :10.1109/CSCITA.2017.8066548. ISBN978-1-5090-4381-1. Número de identificación del sujeto 35350962.
^ "Colorear y restaurar imágenes antiguas con aprendizaje profundo". Blog de FloydHub . 13 de noviembre de 2018. Archivado desde el original el 11 de octubre de 2019. Consultado el 11 de octubre de 2019 .
^ Schmidt, Uwe; Roth, Stefan. Campos de contracción para una restauración eficaz de imágenes (PDF) . Visión artificial y reconocimiento de patrones (CVPR), Conferencia IEEE de 2014. Archivado (PDF) desde el original el 2 de enero de 2018. Consultado el 1 de enero de 2018 .
^ Kleanthous, Christos; Chatzis, Sotirios (2020). "Autocodificadores variacionales de mezcla controlada para la selección de casos de auditoría del impuesto al valor agregado". Knowledge-Based Systems . 188 : 105048. doi :10.1016/j.knosys.2019.105048. S2CID 204092079.
^ Checa, Tomasz (28 de junio de 2018). «Aprendizaje profundo: la próxima frontera para la detección del lavado de dinero». Global Banking and Finance Review . Archivado desde el original el 2018-11-16 . Consultado el 2018-07-15 .
^ Nuñez, Michael (29 de noviembre de 2023). «La inteligencia artificial de materiales de Google DeepMind ya ha descubierto 2,2 millones de nuevos cristales». VentureBeat . Consultado el 19 de diciembre de 2023 .
^ Merchant, Amil; Batzner, Simon; Schoenholz, Samuel S.; Aykol, Muratahan; Cheon, Gowoon; Cubuk, Ekin Dogus (diciembre de 2023). "Escalamiento del aprendizaje profundo para el descubrimiento de materiales". Nature . 624 (7990): 80–85. Bibcode :2023Natur.624...80M. doi : 10.1038/s41586-023-06735-9 . ISSN 1476-4687. PMC 10700131 . PMID 38030720.
^ Peplow, Mark (29 de noviembre de 2023). "Google AI y robots unen fuerzas para construir nuevos materiales". Nature . doi :10.1038/d41586-023-03745-5. PMID 38030771. S2CID 265503872.
^ abc «Investigadores del ejército desarrollan nuevos algoritmos para entrenar robots». EurekAlert! . Archivado desde el original el 28 de agosto de 2018 . Consultado el 29 de agosto de 2018 .
^ Raissi, M.; Perdikaris, P.; Karniadakis, GE (1 de febrero de 2019). "Redes neuronales informadas por la física: un marco de aprendizaje profundo para resolver problemas directos e inversos que involucran ecuaciones diferenciales parciales no lineales". Journal of Computational Physics . 378 : 686–707. Bibcode :2019JCoPh.378..686R. doi : 10.1016/j.jcp.2018.10.045 . ISSN 0021-9991. OSTI 1595805. S2CID 57379996.
^ Mao, Zhiping; Jagtap, Ameya D.; Karniadakis, George Em (1 de marzo de 2020). "Redes neuronales informadas por la física para flujos de alta velocidad". Métodos informáticos en mecánica aplicada e ingeniería . 360 : 112789. Bibcode :2020CMAME.360k2789M. doi : 10.1016/j.cma.2019.112789 . ISSN 0045-7825. S2CID 212755458.
^ Raissi, Maziar; Yazdani, Alireza; Karniadakis, George Em (28 de febrero de 2020). "Mecánica de fluidos oculta: aprendizaje de campos de velocidad y presión a partir de visualizaciones de flujo". Science . 367 (6481): 1026–1030. Bibcode :2020Sci...367.1026R. doi :10.1126/science.aaw4741. PMC 7219083 . PMID 32001523.
^ Han, J.; Jentzen, A.; E, W. (2018). "Resolución de ecuaciones diferenciales parciales de alta dimensión mediante aprendizaje profundo". Actas de la Academia Nacional de Ciencias . 115 (34): 8505–8510. arXiv : 1707.02568 . Bibcode :2018PNAS..115.8505H. doi : 10.1073/pnas.1718942115 . PMC 6112690. PMID 30082389 .
^ Oktem, Figen S.; Kar, Oğuzhan Fatih; Bezek, Can Deniz; Kamalabadi, Farzad (2021). "Imágenes multiespectrales de alta resolución con lentes difractivas y reconstrucción aprendida". Transacciones IEEE sobre imágenes computacionales . 7 : 489–504. arXiv : 2008.11625 . doi :10.1109/TCI.2021.3075349. ISSN 2333-9403. S2CID 235340737.
^ Bernhardt, Melanie; Vishnevskiy, Valery; Rau, Richard; Goksel, Orcun (diciembre de 2020). "Entrenamiento de redes variacionales con simulaciones multidominio: reconstrucción de imágenes a la velocidad del sonido". Transacciones IEEE sobre ultrasonidos, ferroelectricidad y control de frecuencia . 67 (12): 2584–2594. arXiv : 2006.14395 . doi :10.1109/TUFFC.2020.3010186. ISSN 1525-8955. PMID 32746211. S2CID 220055785.
^ Lam, Rémi; Sánchez-González, Álvaro; Willson, Mateo; Wirnsberger, Peter; Fortunato, Meire; Alet, Ferrán; Ravuri, Suman; Ewalds, Timo; Eaton-Rosen, Zach; Hu, Weihua; Merosa, Alejandro; Hoyer, Stephan; Holanda, George; Vinyals, Oriol; Stott, Jacklynn (22 de diciembre de 2023). "Aprender a realizar predicciones meteorológicas globales hábiles a medio plazo". Ciencia . 382 (6677): 1416-1421. arXiv : 2212.12794 . Código Bib : 2023 Ciencia... 382.1416L. doi : 10.1126/ciencia.adi2336 . ISSN 0036-8075. PMID 37962497.
^ Sivakumar, Ramakrishnan (27 de noviembre de 2023). "GraphCast: un gran avance en la previsión meteorológica". Medium . Consultado el 19 de mayo de 2024 .
^ Galkin, F.; Mamoshina, P.; Kochetov, K.; Sidorenko, D.; Zhavoronkov, A. (2020). "DeepMAge: un reloj de envejecimiento por metilación desarrollado con aprendizaje profundo". Envejecimiento y enfermedad . doi : 10.14336/AD .
^ Utgoff, PE; Stracuzzi, DJ (2002). "Aprendizaje en múltiples capas". Computación neuronal . 14 (10): 2497–2529. doi :10.1162/08997660260293319. PMID 12396572. S2CID 1119517.
^ Elman, Jeffrey L. (1998). Replanteando lo innato: una perspectiva conexionista sobre el desarrollo. MIT Press. ISBN978-0-262-55030-7.
^ Shrager, J.; Johnson, MH (1996). "La plasticidad dinámica influye en la aparición de funciones en una matriz cortical simple". Redes neuronales . 9 (7): 1119–1129. doi :10.1016/0893-6080(96)00033-0. PMID 12662587.
^ Quartz, SR; Sejnowski, TJ (1997). "La base neural del desarrollo cognitivo: un manifiesto constructivista". Ciencias del comportamiento y del cerebro . 20 (4): 537–556. CiteSeerX 10.1.1.41.7854 . doi :10.1017/s0140525x97001581. PMID 10097006. S2CID 5818342.
^ S. Blakeslee, "En el crecimiento temprano del cerebro, el horario puede ser crítico", The New York Times, Science Section , pp. B5–B6, 1995.
^ Mazzoni, P.; Andersen, RA; Jordan, MI (15 de mayo de 1991). "Una regla de aprendizaje biológicamente más plausible para redes neuronales". Actas de la Academia Nacional de Ciencias . 88 (10): 4433–4437. Bibcode :1991PNAS...88.4433M. doi : 10.1073/pnas.88.10.4433 . ISSN 0027-8424. PMC 51674 . PMID 1903542.
^ O'Reilly, Randall C. (1 de julio de 1996). "Aprendizaje impulsado por errores biológicamente plausible utilizando diferencias de activación local: el algoritmo de recirculación generalizada". Neural Computation . 8 (5): 895–938. doi :10.1162/neco.1996.8.5.895. ISSN 0899-7667. S2CID 2376781.
^ Testolin, Alberto; Zorzi, Marco (2016). "Modelos probabilísticos y redes neuronales generativas: hacia un marco unificado para modelar funciones neurocognitivas normales y deterioradas". Frontiers in Computational Neuroscience . 10 : 73. doi : 10.3389/fncom.2016.00073 . ISSN 1662-5188. PMC 4943066 . PMID 27468262. S2CID 9868901.
^ Testolin, Alberto; Stoianov, Ivilin; Zorzi, Marco (septiembre de 2017). "La percepción de las letras surge del aprendizaje profundo no supervisado y del reciclaje de las características naturales de las imágenes". Nature Human Behaviour . 1 (9): 657–664. doi :10.1038/s41562-017-0186-2. ISSN 2397-3374. PMID 31024135. S2CID 24504018.
^ Buesing, Lars; Bill, Johannes; Nessler, Bernhard; Maass, Wolfgang (3 de noviembre de 2011). "Dinámica neuronal como muestreo: un modelo para computación estocástica en redes recurrentes de neuronas en pico". PLOS Computational Biology . 7 (11): e1002211. Bibcode :2011PLSCB...7E2211B. doi : 10.1371/journal.pcbi.1002211 . ISSN 1553-7358. PMC 3207943 . PMID 22096452. S2CID 7504633.
^ Cash, S.; Yuste, R. (febrero de 1999). "Suma lineal de entradas excitatorias por neuronas piramidales CA1". Neuron . 22 (2): 383–394. doi : 10.1016/s0896-6273(00)81098-3 . ISSN 0896-6273. PMID 10069343. S2CID 14663106.
^ Olshausen, B; Field, D (1 de agosto de 2004). "Codificación dispersa de entradas sensoriales". Current Opinion in Neurobiology . 14 (4): 481–487. doi :10.1016/j.conb.2004.07.007. ISSN 0959-4388. PMID 15321069. S2CID 16560320.
^ Yamins, Daniel LK; DiCarlo, James J (marzo de 2016). "Uso de modelos de aprendizaje profundo basados en objetivos para comprender la corteza sensorial". Nature Neuroscience . 19 (3): 356–365. doi :10.1038/nn.4244. ISSN 1546-1726. PMID 26906502. S2CID 16970545.
^ Zorzi, Marco; Testolin, Alberto (19 de febrero de 2018). "Una perspectiva emergentista sobre el origen del sentido numérico". Phil . Trans. R. Soc. B. 373 ( 1740): 20170043. doi :10.1098/rstb.2017.0043. ISSN 0962-8436. PMC 5784047. PMID 29292348. S2CID 39281431.
^ Güçlü, Umut; van Gerven, Marcel AJ (8 de julio de 2015). "Las redes neuronales profundas revelan un gradiente en la complejidad de las representaciones neuronales a lo largo de la corriente ventral". Journal of Neuroscience . 35 (27): 10005–10014. arXiv : 1411.6422 . doi :10.1523/jneurosci.5023-14.2015. PMC 6605414 . PMID 26157000.
^ Metz, C. (12 de diciembre de 2013). «El gurú del «aprendizaje profundo» de Facebook revela el futuro de la IA». Wired . Archivado desde el original el 28 de marzo de 2014. Consultado el 26 de agosto de 2017 .
^ Gibney, Elizabeth (2016). "El algoritmo de inteligencia artificial de Google domina el antiguo juego de Go". Nature . 529 (7587): 445–446. Bibcode :2016Natur.529..445G. doi : 10.1038/529445a . PMID 26819021. S2CID 4460235.
^ Plata, David ; Huang, Aja ; Maddison, Chris J.; Guez, Arturo; Sifré, Laurent; Driessche, George van den; Schrittwieser, Julián; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, Juan; Kalchbrenner, Nal; Sutskever, Ilya ; Lillicrap, Timoteo; Lixiviación, Madeleine; Kavukcuoglu, Koray; Graepel, Thore; Hassabis, Demis (28 de enero de 2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles". Naturaleza . 529 (7587): 484–489. Código Bib :2016Natur.529..484S. doi : 10.1038/naturaleza16961. Código IATA : 10 ...
^ "Un algoritmo de Google DeepMind utiliza aprendizaje profundo y más para dominar el juego de Go | MIT Technology Review". MIT Technology Review . Archivado desde el original el 1 de febrero de 2016. Consultado el 30 de enero de 2016 .
^ Metz, Cade (6 de noviembre de 2017). «Investigadores de IA abandonan el laboratorio de Elon Musk para crear una start-up de robótica». The New York Times . Archivado desde el original el 7 de julio de 2019. Consultado el 5 de julio de 2019 .
^ Bradley Knox, W.; Stone, Peter (2008). "TAMER: Entrenamiento manual de un agente mediante refuerzo evaluativo". 2008 7.ª Conferencia internacional IEEE sobre desarrollo y aprendizaje . pp. 292–297. doi :10.1109/devlrn.2008.4640845. ISBN978-1-4244-2661-4. Número de identificación del sujeto 5613334.
^ "Hablemos con los algoritmos: la IA aprende más rápido". governmentciomedia.com . 16 de mayo de 2018. Archivado desde el original el 28 de agosto de 2018 . Consultado el 29 de agosto de 2018 .
^ Marcus, Gary (14 de enero de 2018). «En defensa del escepticismo sobre el aprendizaje profundo». Gary Marcus . Archivado desde el original el 12 de octubre de 2018. Consultado el 11 de octubre de 2018 .
^ Knight, Will (14 de marzo de 2017). «DARPA está financiando proyectos que intentarán abrir las cajas negras de la IA». MIT Technology Review . Archivado desde el original el 4 de noviembre de 2019. Consultado el 2 de noviembre de 2017 .
^ Marcus, Gary (25 de noviembre de 2012). "¿Es el "aprendizaje profundo" una revolución en la inteligencia artificial?". The New Yorker . Archivado desde el original el 27 de noviembre de 2009. Consultado el 14 de junio de 2017 .
^ Alexander Mordvintsev; Christopher Olah; Mike Tyka (17 de junio de 2015). «Inceptionism: Going Deeper into Neural Networks» (Incepcionismo: profundizando en las redes neuronales). Blog de investigación de Google. Archivado desde el original el 3 de julio de 2015. Consultado el 20 de junio de 2015 .
↑ Alex Hern (18 de junio de 2015). «Sí, los androides sueñan con ovejas eléctricas». The Guardian . Archivado desde el original el 19 de junio de 2015. Consultado el 20 de junio de 2015 .
^ abc Goertzel, Ben (2015). "¿Existen razones profundas que subyacen a las patologías de los algoritmos de aprendizaje profundo actuales?" (PDF) . Archivado (PDF) desde el original el 13 de mayo de 2015. Consultado el 10 de mayo de 2015 .
^ Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). "Las redes neuronales profundas son fácilmente engañadas: predicciones de alta confianza para imágenes irreconocibles". arXiv : 1412.1897 [cs.CV].
^ Szegedy, cristiano; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Juana; Erhan, Dumitru; Buen compañero, Ian; Fergus, Rob (2013). "Propiedades intrigantes de las redes neuronales". arXiv : 1312.6199 [cs.CV].
^ Zhu, SC; Mumford, D. (2006). "Una gramática estocástica de imágenes". Encontrado. Tendencias Comput. Gráfico. Vis . 2 (4): 259–362. CiteSeerX 10.1.1.681.2190 . doi :10.1561/0600000018.
^ Miller, GA y N. Chomsky. "Concepción de patrones". Ponencia para la conferencia sobre detección de patrones, Universidad de Michigan, 1957.
^ Eisner, Jason. "Aprendizaje profundo de la estructura recursiva: inducción gramatical". Archivado desde el original el 2017-12-30 . Consultado el 2015-05-10 .
^ "Los piratas informáticos ya han comenzado a utilizar la inteligencia artificial como arma". Gizmodo . 11 de septiembre de 2017. Archivado desde el original el 11 de octubre de 2019 . Consultado el 11 de octubre de 2019 .
^ "Cómo los hackers pueden obligar a la IA a cometer errores tontos". The Daily Dot . 18 de junio de 2018. Archivado desde el original el 11 de octubre de 2019 . Consultado el 11 de octubre de 2019 .
^ abcde "La IA es fácil de engañar: por qué es necesario cambiar". Singularity Hub . 10 de octubre de 2017. Archivado desde el original el 11 de octubre de 2017 . Consultado el 11 de octubre de 2017 .
^ Gibney, Elizabeth (2017). «El científico que detecta vídeos falsos». Nature . doi :10.1038/nature.2017.22784. Archivado desde el original el 10 de octubre de 2017. Consultado el 11 de octubre de 2017 .
^ Tubaro, Paola (2020). “¿De quién es la inteligencia artificial?”. Diálogo Global : 38–39.
^ ab Mühlhoff, Rainer (6 de noviembre de 2019). «Inteligencia artificial asistida por humanos: o, ¿cómo ejecutar grandes cálculos en cerebros humanos? Hacia una sociología de los medios de comunicación del aprendizaje automático». New Media & Society . 22 (10): 1868–1884. doi : 10.1177/1461444819885334 . ISSN 1461-4448. S2CID 209363848.
Lectura adicional
Bishop, Christopher M.; Bishop, Hugh (2024). Aprendizaje profundo: fundamentos y conceptos . Springer. ISBN978-3-031-45467-7.
Prince, Simon JD (2023). Entender el aprendizaje profundo . The MIT Press. ISBN9780262048644.
Goodfellow, Ian ; Bengio, Yoshua ; Courville, Aaron (2016). Aprendizaje profundo. MIT Press. ISBN978-0-26203561-3. Archivado desde el original el 16 de abril de 2016 . Consultado el 9 de mayo de 2021 , libro de texto introductorio.{{cite book}}: Mantenimiento de CS1: postscript ( enlace )