Un modelo de texto a video es un modelo de aprendizaje automático que utiliza una descripción en lenguaje natural como entrada para producir un video relevante para el texto de entrada. [1] Los avances durante la década de 2020 en la generación de videos de alta calidad y condicionados por texto han sido impulsados en gran medida por el desarrollo de modelos de difusión de video . [2]
Los ejemplos y la perspectiva de esta sección pueden no representar una visión mundial del tema . ( Agosto de 2024 ) |
Existen diferentes modelos, incluidos modelos de código abierto . Entrada en idioma chino [3] CogVideo es el primer modelo de texto a video "de 9.4 mil millones de parámetros" que se ha desarrollado, con su versión demo de códigos de fuente abierta presentada por primera vez en GitHub en 2022. [4] Ese año, Meta Platforms lanzó un modelo parcial de texto a video llamado "Make-A-Video", [5] [6] [7] y Google 's Brain (más tarde Google DeepMind ) presentó Imagen Video, un modelo de texto a video con 3D U-Net . [8] [9] [10] [11] [12]
En marzo de 2023, se publicó un artículo de investigación titulado "VideoFusion: modelos de difusión descompuestos para la generación de videos de alta calidad", que presenta un enfoque novedoso para la generación de videos. [13] El modelo VideoFusion descompone el proceso de difusión en dos componentes: ruido base y ruido residual, que se comparten entre fotogramas para garantizar la coherencia temporal. Al utilizar un modelo de difusión de imágenes entrenado previamente como generador base, el modelo generó de manera eficiente videos coherentes y de alta calidad. El ajuste fino del modelo entrenado previamente en datos de video abordó la brecha de dominio entre los datos de imagen y video, lo que mejoró la capacidad del modelo para producir secuencias de video realistas y consistentes. [14]
Matthias Niessner y Lourdes Agapito , de la empresa de inteligencia artificial Synthesia, trabajan en el desarrollo de técnicas de renderizado neuronal 3D que pueden sintetizar vídeos realistas mediante el uso de representaciones neuronales 2D y 3D de formas, apariencias y movimiento para la síntesis de vídeo controlable de avatares. [15] En junio de 2024, Luma Labs lanzó su herramienta de vídeo Dream Machine . [16] [17] Ese mismo mes, [18] Kuaishou amplió su modelo de texto a vídeo Kling AI a usuarios internacionales. En julio de 2024, el propietario de TikTok , ByteDance, lanzó Jimeng AI en China, a través de su filial, Faceu Technology. [19]
Los enfoques alternativos a los modelos de texto a video incluyen [20] Phenaki, Hour One, Colossyan de Google , [21] Gen-3 Alpha de Runway , [22] [23] y Sora de OpenAI (a agosto de 2024) , [24] disponible solo para probadores alfa. [25]
Modelo/Producto | Compañía | Año de lanzamiento | ' Estado | Características principales | Capacidades | Precios | Duración del vídeo | Idiomas compatibles |
---|---|---|---|---|---|---|---|---|
Síntesis | Síntesis | 2019 | Liberado | Avatares de IA, soporte multilingüe para más de 60 idiomas, opciones de personalización [26] | Especializado en avatares de IA realistas para capacitación y marketing corporativo [26] | Basado en suscripción, a partir de $30 al mes | Varía según la suscripción. | 60+ |
Inteligencia artificial en vídeo | En video | 2021 | Liberado | Creación de videos con tecnología de inteligencia artificial, gran biblioteca de archivos, avatares parlantes de inteligencia artificial [26] | Diseñado para contenido de redes sociales con plantillas específicas para cada plataforma [26] | Plan gratuito disponible, planes pagos a partir de $16/mes | Varía según el tipo de contenido. | Múltiple (no especificado) |
Fliki | Inteligencia artificial de Fliki | 2022 | Liberado | Texto a video con avatares y voces de IA, amplio soporte de voz e idioma [26] | Admite más de 65 avatares de IA y más de 2000 voces en 70 idiomas [26] | Plan gratuito disponible, planes pagos a partir de $30/mes | Varía según la suscripción. | 70+ |
Pista Gen-2 | Pista de IA | 2023 | Liberado | Generación de vídeo multimodal a partir de texto, imágenes o vídeos [27] | Imágenes de alta calidad, varios modos como estilización y guión gráfico [27] | Prueba gratuita, planes pagos (detalles no especificados) | Hasta 16 segundos | Múltiple (no especificado) |
Laboratorios Pika | Laboratorios Pika | 2024 | Beta | Generación de vídeo dinámico, personalización de cámara y movimiento [28] | Fácil de usar, centrado en la generación dinámica natural [28] | Actualmente gratuito durante la fase beta | Flexible, admite vídeos más largos con continuación de fotogramas. | Múltiple (no especificado) |
Pista Gen-3 Alfa | Pista de IA | 2024 | Alfa | Fidelidad visual mejorada, humanos fotorrealistas, control temporal de grano fino [29] | Generación de videos ultrarrealistas con fotogramas clave precisos y personalización a nivel industrial [29] | Prueba gratuita disponible, precios personalizados para empresas | Hasta 10 segundos por clip, ampliable | Múltiple (no especificado) |
OpenAI Sora | IA abierta | 2024 (previsto) | Alfa | Comprensión profunda del lenguaje, imágenes cinematográficas de alta calidad, videos de múltiples tomas [30] | Capaz de crear videos detallados, dinámicos y emocionalmente expresivos; aún en desarrollo con medidas de seguridad [30] | Precios aún no revelados | Se espera generar videos más largos; detalles de duración a definir | Múltiple (no especificado) |
En 2022 se lanzaron varios modelos de texto a video de alta calidad, sistemas de IA que pueden generar videoclips a partir de texto solicitado.