Síntesis de imágenes humanas

Generación de imágenes humanas por computadora

En este sistema de animación de objetivos de transformación se han definido cuatro "expresiones" como deformaciones de la geometría del modelo. Se puede utilizar cualquier combinación de estas cuatro expresiones para animar la forma de la boca. Se pueden aplicar controles similares para animar un modelo completo de apariencia humana.

La síntesis de imágenes humanas es una tecnología que se puede aplicar para hacer representaciones creíbles e incluso fotorrealistas [1] [2] de personajes humanos, en movimiento o estáticos. Existe efectivamente desde principios de la década de 2000. Muchas películas que utilizan imágenes generadas por computadora han presentado imágenes sintéticas de personajes similares a humanos compuestas digitalmente sobre el material cinematográfico real u otro material simulado. Hacia fines de la década de 2010, se aplicó la inteligencia artificial de aprendizaje profundo para sintetizar imágenes y videos que parecen humanos, sin necesidad de asistencia humana, una vez que se ha completado la fase de entrenamiento, mientras que la ruta 7D de la vieja escuela requería cantidades masivas de trabajo humano.

Cronología de la síntesis de imágenes humanas

  • A finales de 2017 [18] y principios de 2018 surgió la controversia de los deepfakes , en los que se manipulaban videos pornográficos mediante aprendizaje automático profundo para que el rostro de la actriz fuera reemplazado por la opinión del software de cómo se vería el rostro de otra persona en la misma pose e iluminación.
  • En la Game Developers Conference de 2018, Epic Games y Tencent Games presentaron a "Siren", una imitadora digital de la actriz Bingjie Jiang. Esto fue posible gracias a las siguientes tecnologías: el sistema de visión artificial de CubicMotion , el sistema de manipulación facial de 3Lateral y el sistema de captura de movimiento de Vicon . La demostración se realizó casi en tiempo real a 60 cuadros por segundo en Unreal Engine 4. [ 19]
  • En 2018, en la Conferencia Mundial de Internet en Wuzhen, la Agencia de Noticias Xinhua presentó dos dobles digitales hechos con el mismo parecido a sus presentadores de noticias reales, Qiu Hao (idioma chino) [20] y Zhang Zhao (idioma inglés). Los dobles digitales se hicieron en conjunto con Sogou . [21] Ni la síntesis de voz utilizada ni los gestos de los presentadores dobles digitales fueron lo suficientemente buenos como para engañar al espectador y confundirlos con humanos reales fotografiados con una cámara de televisión.
  • En septiembre de 2018, Google añadió "imágenes pornográficas sintéticas involuntarias" a su lista de prohibiciones, lo que permite a cualquier persona solicitar al motor de búsqueda que bloquee los resultados que los representan falsamente como "desnudos o en una situación sexual explícita". [22]
  • En junio de 2019 , el CSAIL del MIT presentó un sistema llamado "Speech2Face: Learning the Face Behind a Voice" (Aprender el rostro detrás de una voz) que sintetiza rostros probables basándose únicamente en la grabación de una voz. Se entrenó con enormes cantidades de videos de personas hablando.
  • Desde el 1 de julio de 2019 [25] Virginia ha tipificado como delito la venta y difusión de pornografía sintética no autorizada, pero no la fabricación. [26] , como § 18.2–386.2 titulado 'Difusión o venta ilegal de imágenes de otra persona; pena.' pasó a formar parte del Código de Virginia . El texto de la ley establece: " Cualquier persona que, con la intención de coaccionar , acosar o intimidar , difunda o venda maliciosamente cualquier videográfico o imagen fija creada por cualquier medio que represente a otra persona totalmente desnuda o en un estado de desnudez de modo que exponga los genitales , el área púbica, las nalgas o el pecho femenino , cuando dicha persona sepa o tenga motivos para saber que no tiene licencia o autorización para difundir o vender dicho videográfico o imagen fija es culpable de un delito menor de Clase 1. " . [26] Los proyectos de ley idénticos fueron el Proyecto de Ley de la Cámara 2678 presentado por el delegado Marcus Simon a la Cámara de Delegados de Virginia el 14 de enero de 2019 y tres días después, un proyecto de ley idéntico del Senado 1736 fue presentado al Senado de Virginia por el senador Adam Ebbin .
  • Desde el 1 de septiembre de 2019, el proyecto de ley SB 751 del Senado de Texas , que modifica el código electoral, otorga a los candidatos un período de protección de 30 días durante el cual la creación y distribución de imitaciones digitales o falsificaciones sintéticas de los candidatos constituye un delito. El texto de la ley define el objeto de la ley como " un vídeo, creado con la intención de engañar, que parece mostrar a una persona real realizando una acción que no ocurrió en la realidad " [27]
  • En septiembre de 2019, Yle , la empresa de radiodifusión pública finlandesa , emitió un resultado de periodismo experimental, un deepfake del presidente en ejercicio Sauli Niinistö en su principal emisión de noticias con el propósito de resaltar el avance de la tecnología de desinformación y los problemas que surgen de ella.
  • 1 de enero de 2020 [28] En California, la ley estatal AB-602 entró en vigor y prohíbe la fabricación y distribución de pornografía sintética sin el consentimiento de las personas representadas. La AB-602 ofrece a las víctimas de pornografía sintética medidas cautelares y plantea amenazas legales de daños estatutarios y punitivos a los delincuentes que fabriquen o distribuyan pornografía sintética sin consentimiento. El gobernador de California, Gavin Newsom, firmó el proyecto de ley AB-602 el 3 de octubre de 2019 y fue redactado por el miembro de la Asamblea Estatal de California, Marc Berman . [29]
  • El 1 de enero de 2020 entró en vigor la ley china que exige que las imágenes falsificadas sintéticamente incluyan un aviso claro sobre su falsedad. El incumplimiento de esta ley podría considerarse un delito, según declaró la Administración del Ciberespacio de China en su sitio web. China anunció esta nueva ley en noviembre de 2019. [30] El gobierno chino parece reservarse el derecho de procesar tanto a los usuarios como a las plataformas de vídeo en línea que no respeten las normas. [31] 12 de noviembre [deepfake]

Un avance clave para el fotorrealismo: la captura de reflectancia

ESPER LightCage es un ejemplo de un escenario de luz esférica con una configuración de múltiples cámaras alrededor de la esfera adecuada para capturar un modelo de reflectancia 7D.

En 1999, Paul Debevec et al. de la USC realizaron la primera captura de reflectancia conocida sobre el rostro humano con su platina de luz extremadamente simple . Presentaron su método y resultados en SIGGRAPH 2000. [5]

La función de distribución de dispersión bidireccional (BSDF) para asemejar la piel humana requiere tanto BRDF como un caso especial de BTDF donde la luz ingresa a la piel, se transmite y sale de la piel .

El avance científico requirió encontrar el componente de luz del subsuelo (los modelos de simulación brillan ligeramente desde adentro), lo que se puede encontrar utilizando el conocimiento de que la luz que se refleja desde la capa de petróleo y aire conserva su polarización y la luz del subsuelo pierde su polarización. Así que, equipados únicamente con una fuente de luz móvil, una cámara de video móvil, 2 polarizadores y un programa de computadora que realizaba cálculos matemáticos extremadamente simples, se adquirió la última pieza necesaria para alcanzar el fotorrealismo. [5]

Para obtener un resultado creíble, se deben capturar y simular tanto la luz reflejada desde la piel ( BRDF ) como la luz dentro de la piel (un caso especial de BTDF ), que juntas forman la BSDF .

Capturando

Síntesis

Todo el proceso de crear imitaciones digitales, es decir, personajes tan reales y vívidos que puedan hacerse pasar por imágenes de humanos, es una tarea muy compleja, ya que requiere modelado fotorrealista , animación, mapeo cruzado y representación de la dinámica corporal blanda de la apariencia humana.

La síntesis con un actor y algoritmos adecuados se aplica mediante potentes ordenadores. La parte del actor en la síntesis es encargarse de imitar las expresiones humanas en la síntesis de imágenes fijas y también el movimiento humano en la síntesis de imágenes en movimiento. Se necesitan algoritmos para simular las leyes de la física y la fisiología y para representar los modelos y su apariencia, movimientos e interacción en consecuencia.

A menudo , en la parte de síntesis se emplean tanto modelos y renderizados basados ​​en la física o la fisiología (es decir, la animación esquelética ) como en imágenes. Los modelos híbridos que emplean ambos enfoques han demostrado los mejores resultados en cuanto a realismo y facilidad de uso. La animación de objetivos de transformación reduce la carga de trabajo al brindar un mayor nivel de control, donde las diferentes expresiones faciales se definen como deformaciones del modelo, lo que permite ajustar las expresiones de manera intuitiva. La animación de objetivos de transformación puede transformar el modelo entre diferentes expresiones faciales definidas o poses corporales sin mucha necesidad de intervención humana.

El uso del mapeo de desplazamiento juega un papel importante para obtener un resultado realista con detalles finos de la piel, como poros y arrugas tan pequeñas como 100 μm .

Enfoque de aprendizaje automático

A finales de la década de 2010, NVIDIA utilizó el aprendizaje automático y, más precisamente, las redes generativas antagónicas (GAN) para producir retratos aleatorios pero fotorrealistas similares a los humanos. El sistema, llamado StyleGAN , se entrenó en una base de datos de 70.000 imágenes del sitio web de depósito de imágenes Flickr . El código fuente se hizo público en GitHub en 2019. [32] Los resultados de la red generadora a partir de una entrada aleatoria se pusieron a disposición del público en varios sitios web. [33] [34]

De manera similar, desde 2018, la tecnología deepfake ha permitido a las GAN intercambiar caras entre actores; combinada con la capacidad de falsificar voces, las GAN pueden generar videos falsos que parecen convincentes. [35]

Aplicaciones

Las principales aplicaciones se encuentran en los dominios de la fotografía de archivo , los conjuntos de datos sintéticos , la cinematografía virtual , los juegos de computadora y de video y los ataques encubiertos de desinformación . [36] [34] Algunas IA de reconocimiento facial utilizan imágenes generadas por otras IA como datos sintéticos para el entrenamiento. [37]

Además, algunas investigaciones sugieren que puede tener efectos terapéuticos ya que " los psicólogos y consejeros también han comenzado a usar avatares para brindar terapia a clientes que tienen fobias , antecedentes de trauma , adicciones, síndrome de Asperger o ansiedad social ". [38] La fuerte huella de memoria y los efectos de activación cerebral causados ​​​​por ver un avatar digital parecido a uno mismo se denominan efecto Doppelgänger . [38] El efecto doppelgänger puede curar cuando un ataque de desinformación encubierto se expone como tal a los objetivos del ataque.

La síntesis de voz ha estado al borde de ser completamente indistinguible de una grabación de la voz de un humano real desde la introducción en 2016 del software de edición y generación de voz Adobe Voco , un prototipo programado para ser parte de Adobe Creative Suite y DeepMind WaveNet , un prototipo de Google. [39] La capacidad de robar y manipular las voces de otras personas plantea preocupaciones éticas obvias. [40]

En la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) de 2018, investigadores de Google presentaron el trabajo 'Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis', que transfiere el aprendizaje de la verificación del hablante para lograr una síntesis de texto a voz, que puede hacerse sonar casi como cualquier persona a partir de una muestra de voz de solo 5 segundos (escuchar). [41]

La obtención de imágenes para el entrenamiento de IA plantea una cuestión de privacidad, ya que las personas que se utilizan para el entrenamiento no dieron su consentimiento. [42]

La tecnología de sonidos digitales similares llegó a manos de delincuentes: en 2019, los investigadores de Symantec conocieron tres casos en los que se utilizó esta tecnología para cometer delitos. [43] [44]

Esto, sumado al hecho de que (a partir de 2016) se han demostrado de manera creíble técnicas que permiten la falsificación casi en tiempo real de expresiones faciales en videos 2D existentes, aumenta la presión sobre la situación de desinformación. [15]

Véase también

Referencias

  1. ^ Modelo muscular basado en la física para el control de la forma de la boca en IEEE Explore (requiere membresía)
  2. ^ Animación facial 3D realista en una teleconferencia virtual en IEEE Explore (requiere membresía)
  3. ^ Berlín, Isabelle (14 de septiembre de 2008). "Imágenes de síntesis: palma de la longévité pour l'ombrage de Gouraud". Intersticios (en francés) . Consultado el 3 de octubre de 2024 .
  4. ^ "Imágenes de síntesis: palma de la longévité pour l'ombrage de Gouraud". 14 de septiembre de 2008.
  5. ^ abc Debevec, Paul (2000). "Adquisición del campo de reflectancia de un rostro humano". Actas de la 27.ª conferencia anual sobre gráficos por ordenador y técnicas interactivas - SIGGRAPH '00 . ACM. págs. 145-156. doi :10.1145/344779.344855. ISBN 978-1581132083. S2CID  2860203 . Consultado el 24 de mayo de 2017 .
  6. ^ Pighin, Frédéric. "Siggraph 2005 Digital Face Cloning Course Notes" (PDF) . Consultado el 24 de mayo de 2017 .
  7. ^ "St. Andrews Face Transformer". Futility Closet . 30 de enero de 2005. Consultado el 7 de diciembre de 2020 .
  8. ^ ab West, Marc (4 de diciembre de 2007). «Cambiando la cara de la ciencia». Revista Plus . Consultado el 7 de diciembre de 2020 .
  9. ^ Goddard, John (27 de enero de 2010). "Las múltiples caras de la investigación racial". thestar.com . Consultado el 7 de diciembre de 2020 .
  10. ^ En este video de la charla TED en 00:04:59 puedes ver dos clips, uno con la Emily real filmado con una cámara real y otro con una doble digital de Emily, filmado con una simulación de una cámara. Es difícil decir cuál es cuál . Bruce Lawmen fue escaneado usando la etapa de luz USC 6 en posición fija y también grabado corriendo allí en una cinta de correr . Se ven muchos, muchos dobles digitales de Bruce corriendo con fluidez y con un aspecto natural en la secuencia final del video de la charla TED.
  11. ^ ReForm – Hollywood está creando clones digitales (youtube). The Creators Project. 24 de mayo de 2017.
  12. ^ Debevec, Paul. «Digital Ira SIGGRAPH 2013 Real-Time Live». Archivado desde el original el 21 de febrero de 2015. Consultado el 24 de mayo de 2017 .
  13. ^ "Escaneo e impresión de un retrato en 3D del presidente Barack Obama". Universidad del Sur de California. 2013. Archivado desde el original el 17 de septiembre de 2015. Consultado el 24 de mayo de 2017 .
  14. ^ Giardina, Carolyn (25 de marzo de 2015). «'Furious 7' y cómo Weta de Peter Jackson creó al Paul Walker digital». The Hollywood Reporter . Consultado el 24 de mayo de 2017 .
  15. ^ ab Thies, Justus (2016). "Face2Face: captura de rostros en tiempo real y recreación de videos RGB". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE . Consultado el 24 de mayo de 2017 .
  16. ^ "Sintetizando a Obama: aprendiendo a sincronizar los labios con el audio". grail.cs.washington.edu . Consultado el 3 de octubre de 2024 .
  17. ^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Sintetizando a Obama: Aprendiendo a sincronizar los labios con el audio, Universidad de Washington , consultado el 2 de marzo de 2018
  18. ^ Roettgers, Janko (21 de febrero de 2018). "Productores de pornografía ofrecen ayuda a Hollywood para eliminar los vídeos deepfake". Variety . Consultado el 28 de febrero de 2018 .
  19. ^ Takahashi, Dean (21 de marzo de 2018). "Epic Games muestra un asombroso humano digital en tiempo real con la demostración de Siren". VentureBeat . Consultado el 10 de septiembre de 2018 .
  20. ^ Kuo, Lily (9 de noviembre de 2018). «Se presentó en China el primer presentador de noticias con inteligencia artificial del mundo». TheGuardian.com . Consultado el 9 de noviembre de 2018 .
  21. ^ Hamilton, Isobel Asher (9 de noviembre de 2018). "China creó lo que afirma es el primer presentador de noticias con inteligencia artificial: mírelo en acción aquí". Business Insider . Consultado el 9 de noviembre de 2018 .
  22. ^ Harwell, Drew (30 de diciembre de 2018). "Los videos pornográficos falsos se están utilizando como arma para acosar y humillar a las mujeres: 'Todo el mundo es un objetivo potencial'". The Washington Post . Consultado el 14 de marzo de 2019. En septiembre [de 2018], Google agregó "imágenes pornográficas sintéticas involuntarias" a su lista de prohibiciones .
  23. ^ "NVIDIA crea un generador de rostros hiperrealistas StyleGAN de código abierto". Medium.com . 9 de febrero de 2019 . Consultado el 3 de octubre de 2019 .
  24. ^ ab Paez, Danny (13 de febrero de 2019). "Esta persona no existe es el mejor sitio web único de 2019". Inverse . Consultado el 5 de marzo de 2018 .
  25. ^ "Las nuevas leyes estatales entran en vigor el 1 de julio". 24 de junio de 2019.
  26. ^ ab "§ 18.2–386.2. Difusión o venta ilícita de imágenes de otra persona; sanción". Virginia . Consultado el 1 de enero de 2020 .
  27. ^ "Relacionado con la creación de un delito penal por fabricar un video engañoso con la intención de influir en el resultado de una elección". Texas . 14 de junio de 2019 . Consultado el 2 de enero de 2020 . En esta sección, "video deep fake" significa un video, creado con la intención de engañar, que parece mostrar a una persona real realizando una acción que no ocurrió en la realidad
  28. ^ Johnson, RJ (30 de diciembre de 2019). "Estas son las nuevas leyes de California que entrarán en vigor en 2020". KFI . iHeartMedia . Consultado el 1 de enero de 2020 .
  29. ^ Mihalcik, Carrie (4 de octubre de 2019). "Las leyes de California buscan acabar con los deepfakes en la política y la pornografía". cnet.com . CNET . Consultado el 14 de octubre de 2019 .
  30. ^ "China busca erradicar las noticias falsas y los deepfakes con nuevas reglas de contenido en línea". Reuters.com . Reuters . 29 de noviembre de 2019 . Consultado el 8 de diciembre de 2019 .
  31. ^ Statt, Nick (29 de noviembre de 2019). "China tipifica como delito la publicación de deepfakes o noticias falsas sin divulgación". The Verge . Consultado el 8 de diciembre de 2019 .
  32. ^ Sincronizado (9 de febrero de 2019). «NVIDIA crea el generador de rostros hiperrealistas StyleGAN de código abierto». Sincronizado . Consultado el 4 de agosto de 2020 .
  33. ^ Sitio web de presentación pública de StyleGAN
  34. ^ ab Porter, Jon (20 de septiembre de 2019). "100.000 retratos gratuitos generados por IA ponen en alerta a las empresas de fotografías de stock". The Verge . Consultado el 7 de agosto de 2020 .
  35. ^ "¿Qué es un deepfake?". PCMAG.com . Marzo de 2020. Consultado el 8 de junio de 2020 .
  36. ^ Harwell, Drew. "Las aplicaciones de citas necesitan mujeres. Los anunciantes necesitan diversidad. Las empresas de inteligencia artificial ofrecen una solución: personas falsas". Washington Post . Consultado el 4 de agosto de 2020 .
  37. ^ "Las redes neuronales necesitan datos para aprender. Incluso si son falsos". Revista Quanta . 11 de diciembre de 2023 . Consultado el 18 de junio de 2023 .
  38. ^ ab Murphy, Samantha (2023). "Scientific American: Your Avatar, Your Guide" (.pdf) . Scientific American / Universidad de Stanford . Consultado el 11 de diciembre de 2023 .
  39. ^ "WaveNet: un modelo generativo para audio sin procesar". Deepmind.com . 8 de septiembre de 2016. Archivado desde el original el 27 de mayo de 2017. Consultado el 24 de mayo de 2017 .
  40. ^ "El 'Photoshop para voz' de Adobe Voco genera preocupación". BBC.com . BBC . 7 de noviembre de 2016 . Consultado el 5 de julio de 2016 .
  41. ^ Jia, Ye; Zhang, Yu; Weiss, Ron J. (12 de junio de 2018), "Transferencia de aprendizaje desde la verificación de habla a la síntesis de texto a voz de múltiples hablantes", Advances in Neural Information Processing Systems , 31 : 4485–4495, arXiv : 1806.04558 , Bibcode :2018arXiv180604558J
  42. ^ Rachel Metz (19 de abril de 2019). "Si tu imagen está en línea, es posible que esté entrenando a una IA de reconocimiento facial". CNN . Consultado el 4 de agosto de 2020 .
  43. ^ "Las voces falsas 'ayudan a los cibercriminales a robar dinero'". bbc.com . BBC . 8 de julio de 2019 . Consultado el 16 de abril de 2020 .
  44. ^ Drew, Harwell (16 de abril de 2020). "Una primicia en inteligencia artificial: software que imita la voz supuestamente utilizado en un importante robo". Washington Post . Consultado el 8 de septiembre de 2019 .
Obtenido de "https://es.wikipedia.org/w/index.php?title=Síntesis_de_imagen_humana&oldid=1257442505"