Modelo de texto a vídeo

Modelo de aprendizaje automático

Un video generado utilizando el modelo de texto a video Sora de código abierto inédito de OpenAI , utilizando el mensaje:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Un modelo de texto a video es un modelo de aprendizaje automático que utiliza una descripción en lenguaje natural como entrada para producir un video relevante para el texto de entrada. ^[1] Los avances durante la década de 2020 en la generación de videos de alta calidad y condicionados por texto han sido impulsados en gran medida por el desarrollo de modelos de difusión de video . ^[2]

Modelos

Existen diferentes modelos, incluidos modelos de código abierto . Entrada en idioma chino ^[3] CogVideo es el primer modelo de texto a video "de 9.4 mil millones de parámetros" que se ha desarrollado, con su versión demo de códigos de fuente abierta presentada por primera vez en GitHub en 2022. ^[4] Ese año, Meta Platforms lanzó un modelo parcial de texto a video llamado "Make-A-Video", ^[5]^[6]^[7] y Google 's Brain (más tarde Google DeepMind ) presentó Imagen Video, un modelo de texto a video con 3D U-Net . ^[8]^[9]^[10]^[11]^[12]

En marzo de 2023, se publicó un artículo de investigación titulado "VideoFusion: modelos de difusión descompuestos para la generación de videos de alta calidad", que presenta un enfoque novedoso para la generación de videos. ^[13] El modelo VideoFusion descompone el proceso de difusión en dos componentes: ruido base y ruido residual, que se comparten entre fotogramas para garantizar la coherencia temporal. Al utilizar un modelo de difusión de imágenes entrenado previamente como generador base, el modelo generó de manera eficiente videos coherentes y de alta calidad. El ajuste fino del modelo entrenado previamente en datos de video abordó la brecha de dominio entre los datos de imagen y video, lo que mejoró la capacidad del modelo para producir secuencias de video realistas y consistentes. ^[14]

Matthias Niessner y Lourdes Agapito , de la empresa de inteligencia artificial Synthesia, trabajan en el desarrollo de técnicas de renderizado neuronal 3D que pueden sintetizar vídeos realistas mediante el uso de representaciones neuronales 2D y 3D de formas, apariencias y movimiento para la síntesis de vídeo controlable de avatares. ^[15] En junio de 2024, Luma Labs lanzó su herramienta de vídeo Dream Machine . ^[16]^[17] Ese mismo mes, ^[18] Kuaishou amplió su modelo de texto a vídeo Kling AI a usuarios internacionales. En julio de 2024, el propietario de TikTok , ByteDance, lanzó Jimeng AI en China, a través de su filial, Faceu Technology. ^[19]

Los enfoques alternativos a los modelos de texto a video incluyen ^[20] Phenaki, Hour One, Colossyan de Google , ^[21] Gen-3 Alpha de Runway , ^[22]^{[23] y}Sora de OpenAI (a agosto de 2024) , ^[24] disponible solo para probadores alfa. ^[25]

Comparación de modelos existentes


Modelo/Producto	Compañía	Año de lanzamiento	' Estado	Características principales	Capacidades	Precios	Duración del vídeo	Idiomas compatibles
Síntesis	Síntesis	2019	Liberado	Avatares de IA, soporte multilingüe para más de 60 idiomas, opciones de personalización ^[26]	Especializado en avatares de IA realistas para capacitación y marketing corporativo ^[26]	Basado en suscripción, a partir de $30 al mes	Varía según la suscripción.	60+
Inteligencia artificial en vídeo	En video	2021	Liberado	Creación de videos con tecnología de inteligencia artificial, gran biblioteca de archivos, avatares parlantes de inteligencia artificial ^[26]	Diseñado para contenido de redes sociales con plantillas específicas para cada plataforma ^[26]	Plan gratuito disponible, planes pagos a partir de $16/mes	Varía según el tipo de contenido.	Múltiple (no especificado)
Fliki	Inteligencia artificial de Fliki	2022	Liberado	Texto a video con avatares y voces de IA, amplio soporte de voz e idioma ^[26]	Admite más de 65 avatares de IA y más de 2000 voces en 70 idiomas ^[26]	Plan gratuito disponible, planes pagos a partir de $30/mes	Varía según la suscripción.	70+
Pista Gen-2	Pista de IA	2023	Liberado	Generación de vídeo multimodal a partir de texto, imágenes o vídeos ^[27]	Imágenes de alta calidad, varios modos como estilización y guión gráfico ^[27]	Prueba gratuita, planes pagos (detalles no especificados)	Hasta 16 segundos	Múltiple (no especificado)
Laboratorios Pika	Laboratorios Pika	2024	Beta	Generación de vídeo dinámico, personalización de cámara y movimiento ^[28]	Fácil de usar, centrado en la generación dinámica natural ^[28]	Actualmente gratuito durante la fase beta	Flexible, admite vídeos más largos con continuación de fotogramas.	Múltiple (no especificado)
Pista Gen-3 Alfa	Pista de IA	2024	Alfa	Fidelidad visual mejorada, humanos fotorrealistas, control temporal de grano fino ^[29]	Generación de videos ultrarrealistas con fotogramas clave precisos y personalización a nivel industrial ^[29]	Prueba gratuita disponible, precios personalizados para empresas	Hasta 10 segundos por clip, ampliable	Múltiple (no especificado)
OpenAI Sora	IA abierta	2024 (previsto)	Alfa	Comprensión profunda del lenguaje, imágenes cinematográficas de alta calidad, videos de múltiples tomas ^[30]	Capaz de crear videos detallados, dinámicos y emocionalmente expresivos; aún en desarrollo con medidas de seguridad ^[30]	Precios aún no revelados	Se espera generar videos más largos; detalles de duración a definir	Múltiple (no especificado)

Véase también

Modelo de texto a imagen
VideoPoet , el modelo inédito de Google, precursor de Lumière
Falsificación profunda
Síntesis de imágenes humanas
ChatGPT

Referencias

^ Informe del índice de inteligencia artificial 2023 (PDF) (Informe). Instituto Stanford de Inteligencia Artificial Centrada en el Ser Humano. p. 98. En 2022 se lanzaron varios modelos de texto a video de alta calidad, sistemas de IA que pueden generar videoclips a partir de texto solicitado.
^ Melnik, Andrés; Liublianac, Michal; Lu, Cong; Yan, Qi; Ren, Weiming; Ritter, Helge (6 de mayo de 2024). "Modelos de difusión de vídeo: una encuesta". arXiv : 2405.03150 [cs.CV].
^ Modelos de IA generativos de texto a video: la lista definitiva AI Business consultado el 19 de agosto de 2024.
^ CogVideo, THUDM, 12 de octubre de 2022 , consultado el 12 de octubre de 2022
^ Davies, Teli (29 de septiembre de 2022). "Make-A-Video: el nuevo modelo de Meta AI para la generación de texto a video". Pesos y sesgos . Consultado el 12 de octubre de 2022 .
^ Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear un vídeo a partir de un mensaje de texto". Medium . Consultado el 12 de octubre de 2022 .
^ "La inteligencia artificial Make-A-Video de Meta crea videos a partir de texto". www.fonearena.com . Consultado el 12 de octubre de 2022 .
^ "google: Google se enfrenta a Meta y presenta su propia IA generadora de videos". The Economic Times . 6 de octubre de 2022 . Consultado el 12 de octubre de 2022 .
^ Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear un vídeo a partir de un mensaje de texto". Medium . Consultado el 12 de octubre de 2022 .
^ "No, Meta, también podemos hacer inteligencia artificial de texto a video, dice Google". www.theregister.com . Consultado el 12 de octubre de 2022 .
^ "Documentos con código: ver, planificar, predecir: planificación cognitiva guiada por el lenguaje con predicción por video". paperswithcode.com . Consultado el 12 de octubre de 2022 .
^ "Documentos con código: predicción de video basada en texto". paperswithcode.com . Consultado el 12 de octubre de 2022 .
^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu (2023). "VideoFusion: modelos de difusión descompuestos para generación de vídeo de alta calidad". arXiv : 2303.08320 [cs.CV].
^ "VideoFusion: modelos de difusión descompuestos para la generación de videos de alta calidad". ar5iv . Consultado el 30 de agosto de 2024 .
^ "Texto a voz para vídeos" . Consultado el 17 de octubre de 2023 .
^ Luma AI presenta 'Dream Machine' para la generación de videos realistas, lo que calienta la carrera mediática de IA VentureBeat consultado el 16 de agosto de 2024.
^ Apple estrena inteligencia, Mistral recauda 600 millones de dólares y nueva inteligencia artificial de texto a video Forbes consultado el 16 de agosto de 2024.
^ Lo que necesitas saber sobre Kling, el generador de videos con inteligencia artificial rival de Sora que está sorprendiendo a los creadores VentureBeat consultado el 16 de agosto de 2024.
^ ByteDance se une a los rivales de Sora de OpenAI con el lanzamiento de una aplicación de video con inteligencia artificial Reuters consultado el 16 de agosto de 2024.
^ Text2Video-Zero, Picsart AI Research (PAIR), 12 de agosto de 2023 , consultado el 12 de agosto de 2023
^ Modelos de IA generativos de texto a video: la lista definitiva AI Business consultado el 16 de agosto de 2024.
^ El competidor de Sora de Runway, Gen-3 Alpha, ya está disponible The Decoder accedido el 16 de agosto de 2024.
^ La próxima frontera de la IA generativa es el vídeo Bloomberg consultado el 16 de agosto de 2024.
^ OpenAI adelanta 'Sora', su nuevo modelo de inteligencia artificial de texto a video NBC News, consultado el 16 de agosto de 2024.
^ Toys R Us crea la primera película de marca que utiliza la herramienta de texto a video de OpenAI Marketing Dive consultado el 16 de agosto de 2024.
^ abcdef "Los mejores modelos de generación de video con IA de 2024". Deepgram . Consultado el 30 de agosto de 2024 .
^ ab "Runway Research | Gen-2: Genera nuevos vídeos con texto, imágenes o videoclips". runwayml.com . Consultado el 30 de agosto de 2024 .
^ ab Sharma, Shubham (26 de diciembre de 2023). "La plataforma de inteligencia artificial de texto a video de Pika Labs está abierta a todos: aquí se explica cómo usarla". VentureBeat . Consultado el 30 de agosto de 2024 .
^ ab "Runway Research | Presentamos Gen-3 Alpha: una nueva frontera para la generación de video". runwayml.com . Consultado el 30 de agosto de 2024 .
^ ab "Sora | OpenAI". openai.com . Consultado el 30 de agosto de 2024 .

[AIIR-1] Informe del índice de inteligencia artificial 2023 (PDF) (Informe). Instituto Stanford de Inteligencia Artificial Centrada en el Ser Humano. p. 98. En 2022 se lanzaron varios modelos de texto a video de alta calidad, sistemas de IA que pueden generar videoclips a partir de texto solicitado.

[2] Melnik, Andrés; Liublianac, Michal; Lu, Cong; Yan, Qi; Ren, Weiming; Ritter, Helge (6 de mayo de 2024). "Modelos de difusión de vídeo: una encuesta". arXiv : 2405.03150 [cs.CV].

[3] Modelos de IA generativos de texto a video: la lista definitiva AI Business consultado el 19 de agosto de 2024.

[4] CogVideo, THUDM, 12 de octubre de 2022 , consultado el 12 de octubre de 2022

[5] Davies, Teli (29 de septiembre de 2022). "Make-A-Video: el nuevo modelo de Meta AI para la generación de texto a video". Pesos y sesgos . Consultado el 12 de octubre de 2022 .

[6] Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear un vídeo a partir de un mensaje de texto". Medium . Consultado el 12 de octubre de 2022 .

[7] "La inteligencia artificial Make-A-Video de Meta crea videos a partir de texto". www.fonearena.com . Consultado el 12 de octubre de 2022 .

[8] "google: Google se enfrenta a Meta y presenta su propia IA generadora de videos". The Economic Times . 6 de octubre de 2022 . Consultado el 12 de octubre de 2022 .

[9] Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear un vídeo a partir de un mensaje de texto". Medium . Consultado el 12 de octubre de 2022 .

[10] "No, Meta, también podemos hacer inteligencia artificial de texto a video, dice Google". www.theregister.com . Consultado el 12 de octubre de 2022 .

[11] "Documentos con código: ver, planificar, predecir: planificación cognitiva guiada por el lenguaje con predicción por video". paperswithcode.com . Consultado el 12 de octubre de 2022 .

[12] "Documentos con código: predicción de video basada en texto". paperswithcode.com . Consultado el 12 de octubre de 2022 .

[13] Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu (2023). "VideoFusion: modelos de difusión descompuestos para generación de vídeo de alta calidad". arXiv : 2303.08320 [cs.CV].

[14] "VideoFusion: modelos de difusión descompuestos para la generación de videos de alta calidad". ar5iv . Consultado el 30 de agosto de 2024 .

[15] "Texto a voz para vídeos" . Consultado el 17 de octubre de 2023 .

[16] Luma AI presenta 'Dream Machine' para la generación de videos realistas, lo que calienta la carrera mediática de IA VentureBeat consultado el 16 de agosto de 2024.

[17] Apple estrena inteligencia, Mistral recauda 600 millones de dólares y nueva inteligencia artificial de texto a video Forbes consultado el 16 de agosto de 2024.

[18] Lo que necesitas saber sobre Kling, el generador de videos con inteligencia artificial rival de Sora que está sorprendiendo a los creadores VentureBeat consultado el 16 de agosto de 2024.

[19] ByteDance se une a los rivales de Sora de OpenAI con el lanzamiento de una aplicación de video con inteligencia artificial Reuters consultado el 16 de agosto de 2024.

[20] Text2Video-Zero, Picsart AI Research (PAIR), 12 de agosto de 2023 , consultado el 12 de agosto de 2023

[21] Modelos de IA generativos de texto a video: la lista definitiva AI Business consultado el 16 de agosto de 2024.

[22] El competidor de Sora de Runway, Gen-3 Alpha, ya está disponible The Decoder accedido el 16 de agosto de 2024.

[23] La próxima frontera de la IA generativa es el vídeo Bloomberg consultado el 16 de agosto de 2024.

[24] OpenAI adelanta 'Sora', su nuevo modelo de inteligencia artificial de texto a video NBC News, consultado el 16 de agosto de 2024.

[25] Toys R Us crea la primera película de marca que utiliza la herramienta de texto a video de OpenAI Marketing Dive consultado el 16 de agosto de 2024.

[:3-26] "Los mejores modelos de generación de video con IA de 2024". Deepgram . Consultado el 30 de agosto de 2024 .

[:0-27] "Runway Research | Gen-2: Genera nuevos vídeos con texto, imágenes o videoclips". runwayml.com . Consultado el 30 de agosto de 2024 .

[:1-28] Sharma, Shubham (26 de diciembre de 2023). "La plataforma de inteligencia artificial de texto a video de Pika Labs está abierta a todos: aquí se explica cómo usarla". VentureBeat . Consultado el 30 de agosto de 2024 .

[:2-29] "Runway Research | Presentamos Gen-3 Alpha: una nueva frontera para la generación de video". runwayml.com . Consultado el 30 de agosto de 2024 .

[:4-30] "Sora | OpenAI". openai.com . Consultado el 30 de agosto de 2024 .