Modelo de texto a vídeo

Modelo de aprendizaje automático

Un video generado utilizando el modelo de texto a video Sora de código abierto inédito de OpenAI , utilizando el mensaje:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Un modelo de texto a video es un modelo de aprendizaje automático que utiliza una descripción en lenguaje natural como entrada para producir un video relevante para el texto de entrada. [1] Los avances durante la década de 2020 en la generación de videos de alta calidad y condicionados por texto han sido impulsados ​​en gran medida por el desarrollo de modelos de difusión de video . [2]

Modelos

Existen diferentes modelos, incluidos modelos de código abierto . Entrada en idioma chino [3] CogVideo es el primer modelo de texto a video "de 9.4 mil millones de parámetros" que se ha desarrollado, con su versión demo de códigos de fuente abierta presentada por primera vez en GitHub en 2022. [4] Ese año, Meta Platforms lanzó un modelo parcial de texto a video llamado "Make-A-Video", [5] [6] [7] y Google 's Brain (más tarde Google DeepMind ) presentó Imagen Video, un modelo de texto a video con 3D U-Net . [8] [9] [10] [11] [12]

En marzo de 2023, se publicó un artículo de investigación titulado "VideoFusion: modelos de difusión descompuestos para la generación de videos de alta calidad", que presenta un enfoque novedoso para la generación de videos. [13] El modelo VideoFusion descompone el proceso de difusión en dos componentes: ruido base y ruido residual, que se comparten entre fotogramas para garantizar la coherencia temporal. Al utilizar un modelo de difusión de imágenes entrenado previamente como generador base, el modelo generó de manera eficiente videos coherentes y de alta calidad. El ajuste fino del modelo entrenado previamente en datos de video abordó la brecha de dominio entre los datos de imagen y video, lo que mejoró la capacidad del modelo para producir secuencias de video realistas y consistentes. [14] En el mismo mes, Adobe presentó Firefly AI como parte de sus funciones. [15]

En enero de 2024, Google anunció el desarrollo de un modelo de texto a video llamado Lumiere que se prevé que integre capacidades avanzadas de edición de video. [16] Matthias Niessner y Lourdes Agapito , de la empresa de inteligencia artificial Synthesia, trabajan en el desarrollo de técnicas de renderizado neuronal 3D que pueden sintetizar videos realistas mediante el uso de representaciones neuronales 2D y 3D de formas, apariencias y movimiento para la síntesis de video controlable de avatares. [17] En junio de 2024, Luma Labs lanzó su herramienta de video Dream Machine . [18] [19] Ese mismo mes, [20] Kuaishou extendió su modelo de texto a video Kling AI a usuarios internacionales. En julio de 2024, el propietario de TikTok , ByteDance, lanzó Jimeng AI en China, a través de su subsidiaria, Faceu Technology. [21] En septiembre de 2024, la empresa china de IA MiniMax presentó su modelo video-01, uniéndose a otras empresas de modelos de IA establecidas como Zhipu AI , Baichuan y Moonshot AI , que contribuyen a la participación de China en la tecnología de IA. [22]

Los enfoques alternativos a los modelos de texto a video incluyen [23] Phenaki de Google, Hour One, Colossyan , [3] Gen-3 Alpha de Runway , [24] [25] y Sora de OpenAI, inédito (a agosto de 2024) , [26] disponible solo para probadores alfa. [27] Han surgido varios modelos de texto a video adicionales, como Plug-and-Play, Text2LIVE y TuneAVideo. [28] Google también se está preparando para lanzar una herramienta de generación de videos llamada Veo para YouTube Shorts en 2025. [29] El desarrollador de FLUX.1, Black Forest Labs, ha anunciado su modelo de texto a video SOTA. [30]

Arquitectura y Formación

Existen varias arquitecturas que se han utilizado para crear modelos de texto a video. De manera similar a los modelos de texto a imagen , estos modelos se pueden entrenar utilizando redes neuronales recurrentes (RNN), como las redes de memoria a corto plazo (LSTM), que se han utilizado para los modelos de transformación de píxeles y los modelos de generación de video estocástico, que ayudan en la consistencia y el realismo respectivamente. [31] Una alternativa para estos incluye los modelos de transformadores. Las redes generativas antagónicas (GAN), los autocodificadores variacionales (VAE), que pueden ayudar en la predicción del movimiento humano [32] , y los modelos de difusión también se han utilizado para desarrollar los aspectos de generación de imágenes del modelo. [33]

Los conjuntos de datos de texto y video utilizados para entrenar modelos incluyen, entre otros, WebVid-10M, HDVILA-100M, CCV, ActivityNet y Panda-70M. [34] [35] Estos conjuntos de datos contienen millones de videos originales de interés, videos generados, videos subtitulados e información textual que ayuda a entrenar modelos para lograr precisión. Los conjuntos de datos de texto y video utilizados para entrenar modelos incluyen, entre otros, PromptSource, DiffusionDB y VidProM. [34] [35] Estos conjuntos de datos proporcionan la variedad de entradas de texto necesarias para enseñar a los modelos cómo interpretar una variedad de indicaciones textuales.

El proceso de generación de video implica sincronizar las entradas de texto con los fotogramas del video, asegurando la alineación y la consistencia a lo largo de la secuencia. [35] Este proceso predictivo está sujeto a una disminución en la calidad a medida que aumenta la duración del video debido a las limitaciones de recursos. [35]

Limitaciones

A pesar de la rápida evolución de los modelos de texto a video en su desempeño, una limitación principal es que son muy pesados ​​computacionalmente, lo que limita su capacidad para proporcionar resultados de alta calidad y de larga duración. [36] [37] Además, estos modelos requieren una gran cantidad de datos de entrenamiento específicos para poder generar resultados coherentes y de alta calidad, lo que genera el problema de la accesibilidad. [37] [36]

Además, los modelos pueden malinterpretar las indicaciones textuales, lo que da como resultado salidas de video que se desvían del significado deseado. Esto puede ocurrir debido a limitaciones en la captura del contexto semántico incrustado en el texto, lo que afecta la capacidad del modelo para alinear el video generado con el mensaje deseado por el usuario. [37] [35] Actualmente, se están probando y refinando varios modelos, incluidos Make-A-Video, Imagen Video, Phenaki, CogVideo, GODIVA y NUWA, para mejorar sus capacidades de alineación y el rendimiento general en la generación de texto a video. [37]

Ética

La implementación de modelos de conversión de texto a video plantea consideraciones éticas relacionadas con la generación de contenido. Estos modelos tienen el potencial de crear contenido inapropiado o no autorizado, incluido material explícito, violencia gráfica, desinformación y semejanzas con personas reales sin consentimiento. [38] Es esencial garantizar que el contenido generado por IA cumpla con los estándares establecidos para un uso seguro y ético, ya que el contenido generado por estos modelos no siempre se puede identificar fácilmente como dañino o engañoso. La capacidad de la IA para reconocer y filtrar contenido NSFW o con derechos de autor sigue siendo un desafío constante, con implicaciones tanto para los creadores como para las audiencias. [38]

Impactos y aplicaciones

Los modelos de conversión de texto a vídeo ofrecen una amplia gama de aplicaciones que pueden beneficiar a diversos campos, desde el educativo y el promocional hasta las industrias creativas. Estos modelos pueden agilizar la creación de contenido para vídeos de formación, avances de películas, recursos de juegos y visualizaciones, lo que facilita la generación de contenido dinámico de alta calidad. [39] Estas características proporcionan a los usuarios beneficios económicos y personales.

Comparación de modelos existentes

Modelo/ProductoCompañíaAño de lanzamientoEstadoCaracterísticas principalesCapacidadesPreciosDuración del vídeoIdiomas soportados
SíntesisSíntesis2019LiberadoAvatares de IA, soporte multilingüe para más de 60 idiomas, opciones de personalización [40]Especializado en avatares de IA realistas para capacitación y marketing corporativo [40]Basado en suscripción, a partir de $30 al mesVaría según la suscripción.60+
Inteligencia artificial en vídeoEn video2021LiberadoCreación de videos con tecnología de inteligencia artificial, gran biblioteca de archivos, avatares parlantes de inteligencia artificial [40]Diseñado para contenido de redes sociales con plantillas específicas para cada plataforma [40]Plan gratuito disponible, planes pagos a partir de $16/mesVaría según el tipo de contenido.Múltiple (no especificado)
FlikiInteligencia Artificial Fliki2022LiberadoTexto a video con avatares y voces de IA, amplio soporte de voz e idioma [40]Admite más de 65 avatares de IA y más de 2000 voces en 70 idiomas [40]Plan gratuito disponible, planes pagos a partir de $30/mesVaría según la suscripción.70+
Pista Gen-2Pista de IA2023LiberadoGeneración de vídeo multimodal a partir de texto, imágenes o vídeos [41]Imágenes de alta calidad, varios modos como estilización y guión gráfico [41]Prueba gratuita, planes pagos (detalles no especificados)Hasta 16 segundosMúltiple (no especificado)
Laboratorios PikaLaboratorios Pika2024BetaGeneración de vídeo dinámico, personalización de cámara y movimiento [42]Fácil de usar, centrado en la generación dinámica natural [42]Actualmente gratuito durante la fase betaFlexible, admite vídeos más largos con continuación de fotogramas.Múltiple (no especificado)
Pista Gen-3 AlfaPista de IA2024AlfaFidelidad visual mejorada, humanos fotorrealistas, control temporal de grano fino [43]Generación de videos ultrarrealistas con fotogramas clave precisos y personalización a nivel industrial [43]Prueba gratuita disponible, precios personalizados para empresasHasta 10 segundos por clip, ampliableMúltiple (no especificado)
OpenAI SoraIA abierta2024 (previsto)AlfaComprensión profunda del lenguaje, imágenes cinematográficas de alta calidad, videos de múltiples tomas [44]Capaz de crear videos detallados, dinámicos y emocionalmente expresivos; aún en desarrollo con medidas de seguridad [44]Precios aún no reveladosSe espera generar videos más largos; detalles de duración a definirMúltiple (no especificado)

Véase también

Referencias

  1. ^ Informe del índice de inteligencia artificial 2023 (PDF) (Informe). Instituto Stanford de Inteligencia Artificial Centrada en el Ser Humano. p. 98. En 2022 se lanzaron varios modelos de texto a video de alta calidad, sistemas de IA que pueden generar videoclips a partir de texto solicitado.
  2. ^ Melnik, Andrés; Liublianac, Michal; Lu, Cong; Yan, Qi; Ren, Weiming; Ritter, Helge (6 de mayo de 2024). "Modelos de difusión de vídeo: una encuesta". arXiv : 2405.03150 [cs.CV].
  3. ^ ab Wodecki, Ben (11 de agosto de 2023). "Modelos de IA generativos de texto a video: la lista definitiva". AI Business . Informa . Consultado el 18 de noviembre de 2024 .
  4. ^ CogVideo, THUDM, 12 de octubre de 2022 , consultado el 12 de octubre de 2022
  5. ^ Davies, Teli (29 de septiembre de 2022). "Make-A-Video: el nuevo modelo de Meta AI para la generación de texto a video". Pesos y sesgos . Consultado el 12 de octubre de 2022 .
  6. ^ Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear un vídeo a partir de un mensaje de texto". Medium . Consultado el 12 de octubre de 2022 .
  7. ^ "La inteligencia artificial Make-A-Video de Meta crea videos a partir de texto". www.fonearena.com . Consultado el 12 de octubre de 2022 .
  8. ^ "Google: Google se enfrenta a Meta y presenta su propia inteligencia artificial para generar videos". The Economic Times . 6 de octubre de 2022 . Consultado el 12 de octubre de 2022 .
  9. ^ Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear un vídeo a partir de un mensaje de texto". Medium . Consultado el 12 de octubre de 2022 .
  10. ^ "No, Meta, también podemos hacer inteligencia artificial de texto a video, dice Google". The Register . Consultado el 12 de octubre de 2022 .
  11. ^ "Documentos con código: ver, planificar, predecir: planificación cognitiva guiada por el lenguaje con predicción por video". paperswithcode.com . Consultado el 12 de octubre de 2022 .
  12. ^ "Documentos con código: predicción de video basada en texto". paperswithcode.com . Consultado el 12 de octubre de 2022 .
  13. ^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu (2023). "VideoFusion: modelos de difusión descompuestos para generación de vídeo de alta calidad". arXiv : 2303.08320 [cs.CV].
  14. ^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu (2023). "VideoFusion: modelos de difusión descompuestos para generación de vídeo de alta calidad". arXiv : 2303.08320 [cs.CV].
  15. ^ "Adobe lanza el modelo Firefly Video y mejora los modelos de imagen, vector y diseño. Adobe Newsroom". Adobe Inc. 10 de octubre de 2024. Consultado el 18 de noviembre de 2024 .
  16. ^ Yirka, Bob (26 de enero de 2024). «Google anuncia el desarrollo de Lumiere, un generador de texto a vídeo de última generación basado en IA». Tech Xplore . Consultado el 18 de noviembre de 2024 .
  17. ^ "Texto a voz para vídeos". Synthesia.io . Consultado el 17 de octubre de 2023 .
  18. ^ Nuñez, Michael (12 de junio de 2024). «Luma AI presenta 'Dream Machine' para la generación de videos realistas, lo que calienta la carrera mediática de la IA». VentureBeat . Consultado el 18 de noviembre de 2024 .
  19. ^ Fink, Charlie. "Apple presenta inteligencia, Mistral recauda 600 millones de dólares y nueva inteligencia artificial para texto a video". Forbes . Consultado el 18 de noviembre de 2024 .
  20. ^ Franzen, Carl (12 de junio de 2024). "Lo que necesitas saber sobre Kling, el generador de videos de IA rival de Sora que está asombrando a los creadores". VentureBeat . Consultado el 18 de noviembre de 2024 .
  21. ^ "ByteDance se suma a los rivales de Sora de OpenAI con el lanzamiento de una aplicación de video con inteligencia artificial". Reuters . 6 de agosto de 2024 . Consultado el 18 de noviembre de 2024 .
  22. ^ "El "tigre" chino Minimax lanza un modelo de generación de texto a video para competir con Sora de OpenAI". Yahoo! Finance . 2 de septiembre de 2024 . Consultado el 18 de noviembre de 2024 .
  23. ^ Text2Video-Zero, Picsart AI Research (PAIR), 12 de agosto de 2023 , consultado el 12 de agosto de 2023
  24. ^ Kemper, Jonathan (1 de julio de 2024). «El competidor de Runway Sora, Gen-3 Alpha, ya está disponible». THE DECODER . Consultado el 18 de noviembre de 2024 .
  25. ^ "La próxima frontera de la IA generativa es el vídeo". Bloomberg.com . 20 de marzo de 2023 . Consultado el 18 de noviembre de 2024 .
  26. ^ "OpenAI adelanta 'Sora', su nuevo modelo de IA de texto a video". NBC News . 15 de febrero de 2024 . Consultado el 18 de noviembre de 2024 .
  27. ^ Kelly, Chris (25 de junio de 2024). «Toys R Us crea la primera película de marca que utiliza la herramienta de conversión de texto a vídeo de OpenAI». Marketing Dive . Informa . Consultado el 18 de noviembre de 2024 .
  28. ^ Jin, Jiayao; Wu, Jianhang; Xu, Zhoucheng; Zhang, Hang; Wang, Yaxin; Yang, Jielong (4 de agosto de 2023). "Texto a vídeo: mejora de la generación de vídeo mediante modelos de difusión y redes de reconstrucción". 2023 2.ª Conferencia internacional sobre informática, comunicación, percepción y tecnología cuántica (CCPQT) . IEEE. págs. 108–114. doi :10.1109/CCPQT60491.2023.00024. ISBN . 979-8-3503-4269-7.
  29. ^ Forlini, Emily Dreibelbis (18 de septiembre de 2024). "El generador de IA de conversión de texto a video Veo de Google llegará a YouTube Shorts". PC Magazine . Consultado el 18 de noviembre de 2024 .
  30. ^ "Anunciamos Black Forest Labs". Black Forest Labs . 1 de agosto de 2024 . Consultado el 18 de noviembre de 2024 .
  31. ^ Bhagwatkar, Rishika; Bachu, Saketh; Montador, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital (17 de diciembre de 2020). "Una revisión de los enfoques de generación de vídeos". 2020 Conferencia Internacional sobre Energía, Instrumentación, Control y Computación (PICC) . IEEE. págs. 1 a 5. doi :10.1109/PICC51425.2020.9362485. ISBN 978-1-7281-7590-4.
  32. ^ Kim, Taehoon; Kang, ChanHee; Park, JaeHyuk; Jeong, Daun; Yang, ChangHee; Kang, Suk-Ju; Kong, Kyeongbo (3 de enero de 2024). "Generación de texto a vídeo con reconocimiento del movimiento humano y control explícito de la cámara". Conferencia de invierno IEEE/CVF de 2024 sobre aplicaciones de visión artificial (WACV) . IEEE. págs. 5069–5078. doi :10.1109/WACV57701.2024.00500. ISBN . 979-8-3503-1892-0.
  33. ^ Singh, Aditi (9 de mayo de 2023). "Un estudio de los generadores de texto a imagen y de texto a vídeo de IA". 2023 4.ª Conferencia internacional sobre inteligencia artificial, robótica y control (AIRC) . IEEE. págs. 32–36. arXiv : 2311.06329 . doi :10.1109/AIRC57904.2023.10303174. ISBN . 979-8-3503-4824-8.
  34. ^ ab Miao, Yibo; Zhu, Yifan; Dong, Yinpeng; Yu, Lijia; Zhu, junio; Gao, Xiao-Shan (8 de septiembre de 2024). "T2VSafetyBench: Evaluación de la seguridad de los modelos generativos de texto a vídeo". arXiv : 2407.05965 [cs.CV].
  35. ^ abcde Zhang, Ji; Mei, Kuizhi; Wang, Xiao; Zheng, Yu; Fan, Jianping (agosto de 2018). "Del texto al vídeo: explotación de la semántica de nivel medio para la clasificación de vídeos a gran escala". 2018 24.ª Conferencia internacional sobre reconocimiento de patrones (ICPR) . IEEE. págs. 1695–1700. doi :10.1109/ICPR.2018.8545513. ISBN . 978-1-5386-3788-3.
  36. ^ ab Bhagwatkar, Rishika; Bachu, Saketh; Montador, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital (17 de diciembre de 2020). "Una revisión de los enfoques de generación de vídeos". 2020 Conferencia Internacional sobre Energía, Instrumentación, Control y Computación (PICC) . IEEE. págs. 1 a 5. doi :10.1109/PICC51425.2020.9362485. ISBN 978-1-7281-7590-4.
  37. ^ abcd Singh, Aditi (9 de mayo de 2023). "Un estudio de los generadores de texto a imagen y texto a vídeo de IA". 2023 4.ª Conferencia internacional sobre inteligencia artificial, robótica y control (AIRC) . IEEE. págs. 32–36. arXiv : 2311.06329 . doi :10.1109/AIRC57904.2023.10303174. ISBN . 979-8-3503-4824-8.
  38. ^ ab Miao, Yibo; Zhu, Yifan; Dong, Yinpeng; Yu, Lijia; Zhu, junio; Gao, Xiao-Shan (8 de septiembre de 2024). "T2VSafetyBench: Evaluación de la seguridad de los modelos generativos de texto a vídeo". arXiv : 2407.05965 [cs.CV].
  39. ^ Singh, Aditi (9 de mayo de 2023). "Un estudio de los generadores de texto a imagen y de texto a vídeo de IA". 2023 4.ª Conferencia internacional sobre inteligencia artificial, robótica y control (AIRC) . IEEE. págs. 32–36. arXiv : 2311.06329 . doi :10.1109/AIRC57904.2023.10303174. ISBN . 979-8-3503-4824-8.
  40. ^ abcdef "Los mejores modelos de generación de video con IA de 2024". Deepgram . Consultado el 30 de agosto de 2024 .
  41. ^ ab "Runway Research | Gen-2: Genera nuevos vídeos con texto, imágenes o videoclips". runwayml.com . Consultado el 30 de agosto de 2024 .
  42. ^ ab Sharma, Shubham (26 de diciembre de 2023). "La plataforma de inteligencia artificial de texto a video de Pika Labs está abierta a todos: aquí se explica cómo usarla". VentureBeat . Consultado el 30 de agosto de 2024 .
  43. ^ ab "Runway Research | Presentamos Gen-3 Alpha: una nueva frontera para la generación de video". runwayml.com . Consultado el 30 de agosto de 2024 .
  44. ^ ab "Sora | OpenAI". openai.com . Consultado el 30 de agosto de 2024 .
Obtenido de "https://es.wikipedia.org/w/index.php?title=Modelo_de_texto_a_video&oldid=1258181290"