El perceptrón Mark I fue un sistema pionero de aprendizaje supervisado de clasificación de imágenes desarrollado por Frank Rosenblatt en 1958. Fue la primera implementación de una máquina de inteligencia artificial (IA). Se diferencia del perceptrón , que es una arquitectura de software propuesta en 1943 por Warren McCulloch y Walter Pitts [1] , que también se empleó en el Mark I y cuyas mejoras han seguido siendo parte integral de tecnologías de IA de vanguardia como el Transformer .
El Perceptrón Mark I estaba organizado en tres capas: [2]
La conexión entre las unidades sensoriales y las unidades de asociación era aleatoria. El funcionamiento de las unidades de asociación era muy similar al de las unidades de respuesta. [2] Las distintas versiones del Mark I utilizaban distintas cantidades de unidades en cada una de las capas. [3]
En su propuesta de 1957 para financiar el desarrollo del "Fotoperceptrón de Cornell", Rosenblatt afirmó: [4]
"Se espera que en última instancia, los dispositivos de este tipo sean capaces de formar conceptos, traducir idiomas, recopilar información militar y resolver problemas mediante lógica inductiva".
Con la primera versión del Perceptrón Mark I, ya en 1958, Rosenblatt demostró un experimento de clasificación binaria simple , es decir, distinguir entre hojas de papel marcadas en el lado derecho y aquellas marcadas en el lado izquierdo. [5]
Uno de los experimentos posteriores permitió distinguir un cuadrado de un círculo impreso en papel. Las formas eran perfectas y sus tamaños fijos; la única variación estaba en su posición y orientación . El perceptrón Mark I logró una precisión del 99,8 % en un conjunto de datos de prueba con 500 neuronas en una sola capa. El tamaño del conjunto de datos de entrenamiento fue de 10 000 imágenes de ejemplo. El proceso de entrenamiento tardó 3 segundos en pasar por una sola imagen. Se observó una mayor precisión con figuras de contorno grueso en comparación con las figuras sólidas, probablemente porque las figuras de contorno redujeron el sobreajuste . [3]
Otro experimento distinguió entre un cuadrado y un diamante , para el cual se logró una precisión del 100% con solo 60 imágenes de entrenamiento, con un perceptrón que tenía 1000 neuronas en una sola capa. El tiempo que tomó procesar cada entrada de entrenamiento para este perceptrón más grande fue de 15 segundos. La única variación fue en la posición de la imagen, ya que la rotación habría sido ambigua.
En ese mismo experimento, pudo distinguir entre las letras X y E con un 100% de precisión cuando se entrenó con solo 20 imágenes (10 imágenes de cada letra). Las variaciones en las imágenes incluyeron tanto la posición como la rotación de hasta 30 grados. Cuando se aumentó la variación en la rotación a cualquier ángulo (tanto en los conjuntos de datos de entrenamiento como de prueba), la precisión se redujo al 90% con 60 imágenes de entrenamiento (30 imágenes de cada letra). [3]
Para distinguir entre las letras E y F, un problema más complicado debido a su similitud, el mismo perceptrón de 1000 neuronas logró una precisión de más del 80% con 60 imágenes de entrenamiento. La variación se dio únicamente en la posición de la imagen, sin rotación. [3]