Un modelo de texto a video es un modelo de aprendizaje automático que utiliza una descripción en lenguaje natural como entrada para producir un video relevante para el texto de entrada. [1] Los avances durante la década de 2020 en la generación de videos de alta calidad y condicionados por texto han sido impulsados en gran medida por el desarrollo de modelos de difusión de video . [2]
Los ejemplos y la perspectiva de esta sección pueden no representar una visión mundial del tema . ( Agosto de 2024 ) |
Existen diferentes modelos, incluidos modelos de código abierto . Entrada en idioma chino [3] CogVideo es el primer modelo de texto a video "de 9.4 mil millones de parámetros" que se ha desarrollado, con su versión demo de códigos de fuente abierta presentada por primera vez en GitHub en 2022. [4] Ese año, Meta Platforms lanzó un modelo parcial de texto a video llamado "Make-A-Video", [5] [6] [7] y Google 's Brain (más tarde Google DeepMind ) presentó Imagen Video, un modelo de texto a video con 3D U-Net . [8] [9] [10] [11] [12]
En marzo de 2023, se publicó un artículo de investigación titulado "VideoFusion: modelos de difusión descompuestos para la generación de videos de alta calidad", que presenta un enfoque novedoso para la generación de videos. [13] El modelo VideoFusion descompone el proceso de difusión en dos componentes: ruido base y ruido residual, que se comparten entre fotogramas para garantizar la coherencia temporal. Al utilizar un modelo de difusión de imágenes entrenado previamente como generador base, el modelo generó de manera eficiente videos coherentes y de alta calidad. El ajuste fino del modelo entrenado previamente en datos de video abordó la brecha de dominio entre los datos de imagen y video, lo que mejoró la capacidad del modelo para producir secuencias de video realistas y consistentes. [14] En el mismo mes, Adobe presentó Firefly AI como parte de sus funciones. [15]
En enero de 2024, Google anunció el desarrollo de un modelo de texto a video llamado Lumiere que se prevé que integre capacidades avanzadas de edición de video. [16] Matthias Niessner y Lourdes Agapito , de la empresa de inteligencia artificial Synthesia, trabajan en el desarrollo de técnicas de renderizado neuronal 3D que pueden sintetizar videos realistas mediante el uso de representaciones neuronales 2D y 3D de formas, apariencias y movimiento para la síntesis de video controlable de avatares. [17] En junio de 2024, Luma Labs lanzó su herramienta de video Dream Machine . [18] [19] Ese mismo mes, [20] Kuaishou extendió su modelo de texto a video Kling AI a usuarios internacionales. En julio de 2024, el propietario de TikTok , ByteDance, lanzó Jimeng AI en China, a través de su subsidiaria, Faceu Technology. [21] En septiembre de 2024, la empresa china de IA MiniMax presentó su modelo video-01, uniéndose a otras empresas de modelos de IA establecidas como Zhipu AI , Baichuan y Moonshot AI , que contribuyen a la participación de China en la tecnología de IA. [22]
Los enfoques alternativos a los modelos de texto a video incluyen [23] Phenaki de Google, Hour One, Colossyan , [3] Gen-3 Alpha de Runway , [24] [25] y Sora de OpenAI, inédito (a agosto de 2024) , [26] disponible solo para probadores alfa. [27] Han surgido varios modelos de texto a video adicionales, como Plug-and-Play, Text2LIVE y TuneAVideo. [28] Google también se está preparando para lanzar una herramienta de generación de videos llamada Veo para YouTube Shorts en 2025. [29] El desarrollador de FLUX.1, Black Forest Labs, ha anunciado su modelo de texto a video SOTA. [30]
Existen varias arquitecturas que se han utilizado para crear modelos de texto a video. De manera similar a los modelos de texto a imagen , estos modelos se pueden entrenar utilizando redes neuronales recurrentes (RNN), como las redes de memoria a corto plazo (LSTM), que se han utilizado para los modelos de transformación de píxeles y los modelos de generación de video estocástico, que ayudan en la consistencia y el realismo respectivamente. [31] Una alternativa para estos incluye los modelos de transformadores. Las redes generativas antagónicas (GAN), los autocodificadores variacionales (VAE), que pueden ayudar en la predicción del movimiento humano [32] , y los modelos de difusión también se han utilizado para desarrollar los aspectos de generación de imágenes del modelo. [33]
Los conjuntos de datos de texto y video utilizados para entrenar modelos incluyen, entre otros, WebVid-10M, HDVILA-100M, CCV, ActivityNet y Panda-70M. [34] [35] Estos conjuntos de datos contienen millones de videos originales de interés, videos generados, videos subtitulados e información textual que ayuda a entrenar modelos para lograr precisión. Los conjuntos de datos de texto y video utilizados para entrenar modelos incluyen, entre otros, PromptSource, DiffusionDB y VidProM. [34] [35] Estos conjuntos de datos proporcionan la variedad de entradas de texto necesarias para enseñar a los modelos cómo interpretar una variedad de indicaciones textuales.
El proceso de generación de video implica sincronizar las entradas de texto con los fotogramas del video, asegurando la alineación y la consistencia a lo largo de la secuencia. [35] Este proceso predictivo está sujeto a una disminución en la calidad a medida que aumenta la duración del video debido a las limitaciones de recursos. [35]
A pesar de la rápida evolución de los modelos de texto a video en su desempeño, una limitación principal es que son muy pesados computacionalmente, lo que limita su capacidad para proporcionar resultados de alta calidad y de larga duración. [36] [37] Además, estos modelos requieren una gran cantidad de datos de entrenamiento específicos para poder generar resultados coherentes y de alta calidad, lo que genera el problema de la accesibilidad. [37] [36]
Además, los modelos pueden malinterpretar las indicaciones textuales, lo que da como resultado salidas de video que se desvían del significado deseado. Esto puede ocurrir debido a limitaciones en la captura del contexto semántico incrustado en el texto, lo que afecta la capacidad del modelo para alinear el video generado con el mensaje deseado por el usuario. [37] [35] Actualmente, se están probando y refinando varios modelos, incluidos Make-A-Video, Imagen Video, Phenaki, CogVideo, GODIVA y NUWA, para mejorar sus capacidades de alineación y el rendimiento general en la generación de texto a video. [37]
La implementación de modelos de conversión de texto a video plantea consideraciones éticas relacionadas con la generación de contenido. Estos modelos tienen el potencial de crear contenido inapropiado o no autorizado, incluido material explícito, violencia gráfica, desinformación y semejanzas con personas reales sin consentimiento. [38] Es esencial garantizar que el contenido generado por IA cumpla con los estándares establecidos para un uso seguro y ético, ya que el contenido generado por estos modelos no siempre se puede identificar fácilmente como dañino o engañoso. La capacidad de la IA para reconocer y filtrar contenido NSFW o con derechos de autor sigue siendo un desafío constante, con implicaciones tanto para los creadores como para las audiencias. [38]
Los modelos de conversión de texto a vídeo ofrecen una amplia gama de aplicaciones que pueden beneficiar a diversos campos, desde el educativo y el promocional hasta las industrias creativas. Estos modelos pueden agilizar la creación de contenido para vídeos de formación, avances de películas, recursos de juegos y visualizaciones, lo que facilita la generación de contenido dinámico de alta calidad. [39] Estas características proporcionan a los usuarios beneficios económicos y personales.
Modelo/Producto | Compañía | Año de lanzamiento | Estado | Características principales | Capacidades | Precios | Duración del vídeo | Idiomas soportados |
---|---|---|---|---|---|---|---|---|
Síntesis | Síntesis | 2019 | Liberado | Avatares de IA, soporte multilingüe para más de 60 idiomas, opciones de personalización [40] | Especializado en avatares de IA realistas para capacitación y marketing corporativo [40] | Basado en suscripción, a partir de $30 al mes | Varía según la suscripción. | 60+ |
Inteligencia artificial en vídeo | En video | 2021 | Liberado | Creación de videos con tecnología de inteligencia artificial, gran biblioteca de archivos, avatares parlantes de inteligencia artificial [40] | Diseñado para contenido de redes sociales con plantillas específicas para cada plataforma [40] | Plan gratuito disponible, planes pagos a partir de $16/mes | Varía según el tipo de contenido. | Múltiple (no especificado) |
Fliki | Inteligencia Artificial Fliki | 2022 | Liberado | Texto a video con avatares y voces de IA, amplio soporte de voz e idioma [40] | Admite más de 65 avatares de IA y más de 2000 voces en 70 idiomas [40] | Plan gratuito disponible, planes pagos a partir de $30/mes | Varía según la suscripción. | 70+ |
Pista Gen-2 | Pista de IA | 2023 | Liberado | Generación de vídeo multimodal a partir de texto, imágenes o vídeos [41] | Imágenes de alta calidad, varios modos como estilización y guión gráfico [41] | Prueba gratuita, planes pagos (detalles no especificados) | Hasta 16 segundos | Múltiple (no especificado) |
Laboratorios Pika | Laboratorios Pika | 2024 | Beta | Generación de vídeo dinámico, personalización de cámara y movimiento [42] | Fácil de usar, centrado en la generación dinámica natural [42] | Actualmente gratuito durante la fase beta | Flexible, admite vídeos más largos con continuación de fotogramas. | Múltiple (no especificado) |
Pista Gen-3 Alfa | Pista de IA | 2024 | Alfa | Fidelidad visual mejorada, humanos fotorrealistas, control temporal de grano fino [43] | Generación de videos ultrarrealistas con fotogramas clave precisos y personalización a nivel industrial [43] | Prueba gratuita disponible, precios personalizados para empresas | Hasta 10 segundos por clip, ampliable | Múltiple (no especificado) |
OpenAI Sora | IA abierta | 2024 (previsto) | Alfa | Comprensión profunda del lenguaje, imágenes cinematográficas de alta calidad, videos de múltiples tomas [44] | Capaz de crear videos detallados, dinámicos y emocionalmente expresivos; aún en desarrollo con medidas de seguridad [44] | Precios aún no revelados | Se espera generar videos más largos; detalles de duración a definir | Múltiple (no especificado) |
En 2022 se lanzaron varios modelos de texto a video de alta calidad, sistemas de IA que pueden generar videoclips a partir de texto solicitado.