Síntesis de imágenes humanas

Generación de imágenes humanas por computadora

En este sistema de animación de objetivos de transformación se han definido cuatro "expresiones" como deformaciones de la geometría del modelo. Se puede utilizar cualquier combinación de estas cuatro expresiones para animar la forma de la boca. Se pueden aplicar controles similares para animar un modelo completo de apariencia humana.

La síntesis de imágenes humanas es una tecnología que se puede aplicar para hacer representaciones creíbles e incluso fotorrealistas ^[1]^[2] de personajes humanos, en movimiento o estáticos. Existe efectivamente desde principios de la década de 2000. Muchas películas que utilizan imágenes generadas por computadora han presentado imágenes sintéticas de personajes similares a humanos compuestas digitalmente sobre el material cinematográfico real u otro material simulado. Hacia fines de la década de 2010, se aplicó la inteligencia artificial de aprendizaje profundo para sintetizar imágenes y videos que parecen humanos, sin necesidad de asistencia humana, una vez que se ha completado la fase de entrenamiento, mientras que la ruta 7D de la vieja escuela requería cantidades masivas de trabajo humano.

Cronología de la síntesis de imágenes humanas

En 1971, Henri Gouraud realizó la primera representación y captura de geometría generada por computadora de un rostro humano. Su esposa Sylvie Gouraud fue la encargada del modelado. El modelo 3D era un modelo simple de estructura alámbrica y aplicó el sombreador Gouraud por el que es más conocido para producir la primera representación conocida de la apariencia humana en una computadora. ^[3]^[4]
El cortometraje de 1972 A Computer Animated Hand de Edwin Catmull y Fred Parke fue la primera vez que se utilizaron imágenes generadas por computadora en una película para simular la apariencia humana en movimiento. La película presentaba una mano y un rostro simulados por computadora (ver la película aquí).
La película Futureworld de 1976 reutilizó partes de A Computer Animated Hand en la pantalla grande.
El video musical de 1983 de la canción Musique Non-Stop de la banda alemana Kraftwerk se emitió en 1986. Creado por la artista Rebecca Allen , presenta simulaciones por computadora de los miembros de la banda que no parecen realistas, pero son claramente reconocibles.
La película de 1994 El cuervo fue la primera producción cinematográfica en utilizar la composición digital de una representación simulada por ordenador de un rostro en escenas filmadas con un doble . La necesidad fue la inspiración, ya que el actor Brandon Lee, que interpretaba al protagonista, murió trágicamente de forma accidental en el escenario.
En 1999, Paul Debevec y otros, de la USC, capturaron el campo de reflectancia de un rostro humano con su primera versión de un plató de luz . Presentaron su método en SIGGRAPH 2000 ^[5].

En 2003, el debut de la audiencia de imágenes realistas de apariencia humana en las películas de 2003 The Matrix Reloaded en la violenta secuencia de pelea donde hasta 100 agentes Smith luchan contra Neo y en The Matrix Revolutions donde al comienzo del enfrentamiento final, Neo le da un puñetazo en el pómulo al agente Smith , dejando al doble digital ileso de forma antinatural. El DVD adicional de The Matrix Revolutions documenta y describe el proceso con cierto detalle y las técnicas utilizadas, incluida la captura de movimiento facial y de movimiento limbar , y la proyección sobre modelos.
En 2003, The Animatrix: Final Flight of the Osiris, una película de última generación con imágenes de seres humanos que no engañan al espectador, realizada por Square Pictures .
En 2003 , Sony Pictures Imageworks realizó una imagen digital de Tobey Maguire para las películas Spider-Man 2 y Spider-Man 3.^[6]
En 2005 se creó el proyecto Face of the Future ^[7] , creado por la Universidad de St Andrews y el Laboratorio de Percepción y financiado por el EPSRC . ^[8] El sitio web contiene un "Face Transformer", que permite a los usuarios transformar su rostro en una imagen de cualquier etnia y edad , así como la posibilidad de transformar su rostro en una pintura (al estilo de Sandro Botticelli o Amedeo Modigliani ). ^[9] Este proceso se logra combinando la fotografía del usuario con un rostro promedio . ^[8]
En 2009, Debevec et al. presentaron nuevas semejanzas digitales, realizadas por Image Metrics , esta vez de la actriz Emily O'Brien, cuya reflectancia fue capturada con la etapa de luz USC 5 ^[10]. El movimiento parece bastante convincente en contraste con la torpe ejecución en Animatrix: Final Flight of the Osiris, que era lo último en tecnología en 2003 si el fotorrealismo era la intención de los animadores.
En 2009, se realizó un retrato digital de un joven Arnold Schwarzenegger para la película Terminator Salvation, aunque el resultado final fue criticado por no ser convincente. La geometría facial se obtuvo a partir de un molde de Schwarzenegger de 1984.
En 2010, Walt Disney Pictures lanzó una secuela de ciencia ficción titulada Tron: Legacy con un doble digitalmente rejuvenecido del actor Jeff Bridges interpretando al antagonista CLU .
En SIGGGRAPH 2013, Activision y USC presentaron en tiempo real un "Ira digital", una imitación digital del rostro de Ari Shapiro, un científico investigador de TIC de USC, ^[11] que utilizó la etapa de iluminación USC X de Ghosh et al. para el campo de reflectancia y la captura de movimiento. ^[12] El resultado final, tanto precalculado como renderizado en tiempo real con la GPU de juegos más moderna que se muestra aquí, parece bastante realista.
En 2014, el retrato presidencial del Instituto de Tecnologías Creativas de la USC en colaboración con el Instituto Smithsonian se realizó utilizando el último escenario de iluminación móvil de la USC, en el que el presidente Barack Obama capturó su geometría, texturas y reflectancia. ^[13]

En 2014, Ian Goodfellow et al. presentaron los principios de una red generativa antagónica . Las GAN fueron noticia a principios de 2018 con las controversias sobre los deepfakes .
Para la película Furious 7 de 2015, Weta Digital realizó una réplica digital del actor Paul Walker , quien murió en un accidente durante el rodaje , para permitir la finalización de la película. ^[14]
En 2016 se demostraron de manera creíble técnicas que permiten falsificar en tiempo casi real las expresiones faciales en vídeos 2D existentes. ^[15]
En 2016, se creó una réplica digital de Peter Cushing para la película Rogue One , donde parecería tener la misma edad que el actor durante el rodaje de la película original de Star Wars de 1977 .
En SIGGRAPH 2017, investigadores de la Universidad de Washington presentaron una imitación digital del torso superior de Barack Obama impulsada por audio . ^[16] Fue impulsada únicamente por una pista de voz como datos de origen para la animación después de que se completó la fase de entrenamiento para adquirir sincronización de labios e información facial más amplia a partir del material de entrenamiento que consistía en videos 2D con audio. ^[17]

A finales de 2017 ^[18] y principios de 2018 surgió la controversia de los deepfakes , en los que se manipulaban videos pornográficos mediante aprendizaje automático profundo para que el rostro de la actriz fuera reemplazado por la opinión del software de cómo se vería el rostro de otra persona en la misma pose e iluminación.
En la Game Developers Conference de 2018, Epic Games y Tencent Games presentaron a "Siren", una imitadora digital de la actriz Bingjie Jiang. Esto fue posible gracias a las siguientes tecnologías: el sistema de visión artificial de CubicMotion , el sistema de manipulación facial de 3Lateral y el sistema de captura de movimiento de Vicon . La demostración se realizó casi en tiempo real a 60 cuadros por segundo en Unreal Engine 4. [ ^19]
En 2018, en la Conferencia Mundial de Internet en Wuzhen, la Agencia de Noticias Xinhua presentó dos dobles digitales hechos con el mismo parecido a sus presentadores de noticias reales, Qiu Hao (idioma chino) ^[20] y Zhang Zhao (idioma inglés). Los dobles digitales se hicieron en conjunto con Sogou . ^[21] Ni la síntesis de voz utilizada ni los gestos de los presentadores dobles digitales fueron lo suficientemente buenos como para engañar al espectador y confundirlos con humanos reales fotografiados con una cámara de televisión.
En septiembre de 2018, Google añadió "imágenes pornográficas sintéticas involuntarias" a su lista de prohibiciones, lo que permite a cualquier persona solicitar al motor de búsqueda que bloquee los resultados que los representan falsamente como "desnudos o en una situación sexual explícita". ^[22]

En febrero de 2019, Nvidia publicó el código fuente abierto de StyleGAN , una novedosa red generativa antagónica . ^[23] Inmediatamente después, Phillip Wang creó el sitio web ThisPersonDoesNotExist.com con StyleGAN para demostrar que se pueden crear automáticamente cantidades ilimitadas de retratos faciales de personas que a menudo parecen fotorrealistas usando una GAN. ^[24] StyleGAN de Nvidia se presentó en un artículo aún no revisado por pares a fines de 2018. ^[24]

En junio de 2019 , el CSAIL del MIT presentó un sistema llamado "Speech2Face: Learning the Face Behind a Voice" (Aprender el rostro detrás de una voz) que sintetiza rostros probables basándose únicamente en la grabación de una voz. Se entrenó con enormes cantidades de videos de personas hablando.
Desde el 1 de julio de 2019 ^[25] Virginia ha tipificado como delito la venta y difusión de pornografía sintética no autorizada, pero no la fabricación. ^[26] , como § 18.2–386.2 titulado 'Difusión o venta ilegal de imágenes de otra persona; pena.' pasó a formar parte del Código de Virginia . El texto de la ley establece: " Cualquier persona que, con la intención de coaccionar , acosar o intimidar , difunda o venda maliciosamente cualquier videográfico o imagen fija creada por cualquier medio que represente a otra persona totalmente desnuda o en un estado de desnudez de modo que exponga los genitales , el área púbica, las nalgas o el pecho femenino , cuando dicha persona sepa o tenga motivos para saber que no tiene licencia o autorización para difundir o vender dicho videográfico o imagen fija es culpable de un delito menor de Clase 1. " . ^[26] Los proyectos de ley idénticos fueron el Proyecto de Ley de la Cámara 2678 presentado por el delegado Marcus Simon a la Cámara de Delegados de Virginia el 14 de enero de 2019 y tres días después, un proyecto de ley idéntico del Senado 1736 fue presentado al Senado de Virginia por el senador Adam Ebbin .

Desde el 1 de septiembre de 2019, el proyecto de ley SB 751 del Senado de Texas , que modifica el código electoral, otorga a los candidatos un período de protección de 30 días durante el cual la creación y distribución de imitaciones digitales o falsificaciones sintéticas de los candidatos constituye un delito. El texto de la ley define el objeto de la ley como " un vídeo, creado con la intención de engañar, que parece mostrar a una persona real realizando una acción que no ocurrió en la realidad " ^[27]
En septiembre de 2019, Yle , la empresa de radiodifusión pública finlandesa , emitió un resultado de periodismo experimental, un deepfake del presidente en ejercicio Sauli Niinistö en su principal emisión de noticias con el propósito de resaltar el avance de la tecnología de desinformación y los problemas que surgen de ella.
1 de enero de 2020 ^[28] En California, la ley estatal AB-602 entró en vigor y prohíbe la fabricación y distribución de pornografía sintética sin el consentimiento de las personas representadas. La AB-602 ofrece a las víctimas de pornografía sintética medidas cautelares y plantea amenazas legales de daños estatutarios y punitivos a los delincuentes que fabriquen o distribuyan pornografía sintética sin consentimiento. El gobernador de California, Gavin Newsom, firmó el proyecto de ley AB-602 el 3 de octubre de 2019 y fue redactado por el miembro de la Asamblea Estatal de California, Marc Berman . ^[29]
El 1 de enero de 2020 entró en vigor la ley china que exige que las imágenes falsificadas sintéticamente incluyan un aviso claro sobre su falsedad. El incumplimiento de esta ley podría considerarse un delito, según declaró la Administración del Ciberespacio de China en su sitio web. China anunció esta nueva ley en noviembre de 2019. ^[30] El gobierno chino parece reservarse el derecho de procesar tanto a los usuarios como a las plataformas de vídeo en línea que no respeten las normas. ^[31] 12 de noviembre [deepfake]

Un avance clave para el fotorrealismo: la captura de reflectancia

En 1999, Paul Debevec et al. de la USC realizaron la primera captura de reflectancia conocida sobre el rostro humano con su platina de luz extremadamente simple . Presentaron su método y resultados en SIGGRAPH 2000. ^[5]

El avance científico requirió encontrar el componente de luz del subsuelo (los modelos de simulación brillan ligeramente desde adentro), lo que se puede encontrar utilizando el conocimiento de que la luz que se refleja desde la capa de petróleo y aire conserva su polarización y la luz del subsuelo pierde su polarización. Así que, equipados únicamente con una fuente de luz móvil, una cámara de video móvil, 2 polarizadores y un programa de computadora que realizaba cálculos matemáticos extremadamente simples, se adquirió la última pieza necesaria para alcanzar el fotorrealismo. ^[5]

Para obtener un resultado creíble, se deben capturar y simular tanto la luz reflejada desde la piel ( BRDF ) como la luz dentro de la piel (un caso especial de BTDF ), que juntas forman la BSDF .

Capturando

La geometría y las texturas 3D se capturan en un modelo 3D mediante un método de reconstrucción 3D , como el muestreo del objetivo mediante escaneo 3D con un escáner RGB XYZ como Arius3d o Cyberware (texturas a partir de fotos, no un escáner RGB XYZ puro), estereofotogramétricamente a partir de fotos sincronizadas o incluso a partir de suficientes fotos repetidas no simultáneas . El esculpido digital se puede utilizar para crear modelos de las partes del cuerpo para las que no se pueden adquirir datos, por ejemplo, partes del cuerpo cubiertas por ropa.
Para obtener resultados creíbles, también se debe capturar el campo de reflectancia o se debe elegir una aproximación de las bibliotecas para formar un modelo de reflectancia 7D del objetivo.

Síntesis

Todo el proceso de crear imitaciones digitales, es decir, personajes tan reales y vívidos que puedan hacerse pasar por imágenes de humanos, es una tarea muy compleja, ya que requiere modelado fotorrealista , animación, mapeo cruzado y representación de la dinámica corporal blanda de la apariencia humana.

La síntesis con un actor y algoritmos adecuados se aplica mediante potentes ordenadores. La parte del actor en la síntesis es encargarse de imitar las expresiones humanas en la síntesis de imágenes fijas y también el movimiento humano en la síntesis de imágenes en movimiento. Se necesitan algoritmos para simular las leyes de la física y la fisiología y para representar los modelos y su apariencia, movimientos e interacción en consecuencia.

A menudo , en la parte de síntesis se emplean tanto modelos y renderizados basados en la física o la fisiología (es decir, la animación esquelética ) como en imágenes. Los modelos híbridos que emplean ambos enfoques han demostrado los mejores resultados en cuanto a realismo y facilidad de uso. La animación de objetivos de transformación reduce la carga de trabajo al brindar un mayor nivel de control, donde las diferentes expresiones faciales se definen como deformaciones del modelo, lo que permite ajustar las expresiones de manera intuitiva. La animación de objetivos de transformación puede transformar el modelo entre diferentes expresiones faciales definidas o poses corporales sin mucha necesidad de intervención humana.

El uso del mapeo de desplazamiento juega un papel importante para obtener un resultado realista con detalles finos de la piel, como poros y arrugas tan pequeñas como 100 μm .

Enfoque de aprendizaje automático

A finales de la década de 2010, NVIDIA utilizó el aprendizaje automático y, más precisamente, las redes generativas antagónicas (GAN) para producir retratos aleatorios pero fotorrealistas similares a los humanos. El sistema, llamado StyleGAN , se entrenó en una base de datos de 70.000 imágenes del sitio web de depósito de imágenes Flickr . El código fuente se hizo público en GitHub en 2019. ^[32] Los resultados de la red generadora a partir de una entrada aleatoria se pusieron a disposición del público en varios sitios web. ^[33]^[34]

De manera similar, desde 2018, la tecnología deepfake ha permitido a las GAN intercambiar caras entre actores; combinada con la capacidad de falsificar voces, las GAN pueden generar videos falsos que parecen convincentes. ^[35]

Aplicaciones

Las principales aplicaciones se encuentran en los dominios de la fotografía de archivo , los conjuntos de datos sintéticos , la cinematografía virtual , los juegos de computadora y de video y los ataques encubiertos de desinformación . ^[36]^[34] Algunas IA de reconocimiento facial utilizan imágenes generadas por otras IA como datos sintéticos para el entrenamiento. ^[37]

Además, algunas investigaciones sugieren que puede tener efectos terapéuticos ya que " los psicólogos y consejeros también han comenzado a usar avatares para brindar terapia a clientes que tienen fobias , antecedentes de trauma , adicciones, síndrome de Asperger o ansiedad social ". ^[38] La fuerte huella de memoria y los efectos de activación cerebral causados por ver un avatar digital parecido a uno mismo se denominan efecto Doppelgänger . ^[38] El efecto doppelgänger puede curar cuando un ataque de desinformación encubierto se expone como tal a los objetivos del ataque.

Cuestiones relacionadas

La síntesis de voz ha estado al borde de ser completamente indistinguible de una grabación de la voz de un humano real desde la introducción en 2016 del software de edición y generación de voz Adobe Voco , un prototipo programado para ser parte de Adobe Creative Suite y DeepMind WaveNet , un prototipo de Google. ^[39] La capacidad de robar y manipular las voces de otras personas plantea preocupaciones éticas obvias. ^[40]

En la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) de 2018, investigadores de Google presentaron el trabajo 'Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis', que transfiere el aprendizaje de la verificación del hablante para lograr una síntesis de texto a voz, que puede hacerse sonar casi como cualquier persona a partir de una muestra de voz de solo 5 segundos (escuchar). ^[41]

La obtención de imágenes para el entrenamiento de IA plantea una cuestión de privacidad, ya que las personas que se utilizan para el entrenamiento no dieron su consentimiento. ^[42]

La tecnología de sonidos digitales similares llegó a manos de delincuentes: en 2019, los investigadores de Symantec conocieron tres casos en los que se utilizó esta tecnología para cometer delitos. ^[43]^[44]

Esto, sumado al hecho de que (a partir de 2016) se han demostrado de manera creíble técnicas que permiten la falsificación casi en tiempo real de expresiones faciales en videos 2D existentes, aumenta la presión sobre la situación de desinformación. ^[15]

Véase también

Actuación mediante captura de movimiento
Manipulación de Internet
Síntesis de medios
Técnicas de propaganda
Adquisición de datos 3D y reconstrucción de objetos
Reconstrucción 3D a partir de múltiples imágenes
Estimación de la pose 3D en general y estimación de la pose del cuerpo articulado especialmente relacionada con la captura de la semejanza humana.
Reconstrucción 4D
Seguimiento de dedos
Reconocimiento de gestos
EstiloGAN

Referencias

^ Modelo muscular basado en la física para el control de la forma de la boca en IEEE Explore (requiere membresía)
^ Animación facial 3D realista en una teleconferencia virtual en IEEE Explore (requiere membresía)
^ Berlín, Isabelle (14 de septiembre de 2008). "Imágenes de síntesis: palma de la longévité pour l'ombrage de Gouraud". Intersticios (en francés) . Consultado el 3 de octubre de 2024 .
^ "Imágenes de síntesis: palma de la longévité pour l'ombrage de Gouraud". 14 de septiembre de 2008.
^ abc Debevec, Paul (2000). "Adquisición del campo de reflectancia de un rostro humano". Actas de la 27.ª conferencia anual sobre gráficos por ordenador y técnicas interactivas - SIGGRAPH '00 . ACM. págs. 145-156. doi :10.1145/344779.344855. ISBN 978-1581132083. S2CID 2860203 . Consultado el 24 de mayo de 2017 .
^ Pighin, Frédéric. "Siggraph 2005 Digital Face Cloning Course Notes" (PDF) . Consultado el 24 de mayo de 2017 .
^ "St. Andrews Face Transformer". Futility Closet . 30 de enero de 2005. Consultado el 7 de diciembre de 2020 .
^ ab West, Marc (4 de diciembre de 2007). «Cambiando la cara de la ciencia». Revista Plus . Consultado el 7 de diciembre de 2020 .
^ Goddard, John (27 de enero de 2010). "Las múltiples caras de la investigación racial". thestar.com . Consultado el 7 de diciembre de 2020 .
^ En este video de la charla TED en 00:04:59 puedes ver dos clips, uno con la Emily real filmado con una cámara real y otro con una doble digital de Emily, filmado con una simulación de una cámara. Es difícil decir cuál es cuál . Bruce Lawmen fue escaneado usando la etapa de luz USC 6 en posición fija y también grabado corriendo allí en una cinta de correr . Se ven muchos, muchos dobles digitales de Bruce corriendo con fluidez y con un aspecto natural en la secuencia final del video de la charla TED.
^ ReForm – Hollywood está creando clones digitales (youtube). The Creators Project. 24 de mayo de 2017.
^ Debevec, Paul. «Digital Ira SIGGRAPH 2013 Real-Time Live». Archivado desde el original el 21 de febrero de 2015. Consultado el 24 de mayo de 2017 .
^ "Escaneo e impresión de un retrato en 3D del presidente Barack Obama". Universidad del Sur de California. 2013. Archivado desde el original el 17 de septiembre de 2015. Consultado el 24 de mayo de 2017 .
^ Giardina, Carolyn (25 de marzo de 2015). «'Furious 7' y cómo Weta de Peter Jackson creó al Paul Walker digital». The Hollywood Reporter . Consultado el 24 de mayo de 2017 .
^ ab Thies, Justus (2016). "Face2Face: captura de rostros en tiempo real y recreación de videos RGB". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE . Consultado el 24 de mayo de 2017 .
^ "Sintetizando a Obama: aprendiendo a sincronizar los labios con el audio". grail.cs.washington.edu . Consultado el 3 de octubre de 2024 .
^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Sintetizando a Obama: Aprendiendo a sincronizar los labios con el audio, Universidad de Washington , consultado el 2 de marzo de 2018
^ Roettgers, Janko (21 de febrero de 2018). "Productores de pornografía ofrecen ayuda a Hollywood para eliminar los vídeos deepfake". Variety . Consultado el 28 de febrero de 2018 .
^ Takahashi, Dean (21 de marzo de 2018). "Epic Games muestra un asombroso humano digital en tiempo real con la demostración de Siren". VentureBeat . Consultado el 10 de septiembre de 2018 .
^ Kuo, Lily (9 de noviembre de 2018). «Se presentó en China el primer presentador de noticias con inteligencia artificial del mundo». TheGuardian.com . Consultado el 9 de noviembre de 2018 .
^ Hamilton, Isobel Asher (9 de noviembre de 2018). "China creó lo que afirma es el primer presentador de noticias con inteligencia artificial: mírelo en acción aquí". Business Insider . Consultado el 9 de noviembre de 2018 .
^ Harwell, Drew (30 de diciembre de 2018). "Los videos pornográficos falsos se están utilizando como arma para acosar y humillar a las mujeres: 'Todo el mundo es un objetivo potencial'". The Washington Post . Consultado el 14 de marzo de 2019. En septiembre [de 2018], Google agregó "imágenes pornográficas sintéticas involuntarias" a su lista de prohibiciones .
^ "NVIDIA crea un generador de rostros hiperrealistas StyleGAN de código abierto". Medium.com . 9 de febrero de 2019 . Consultado el 3 de octubre de 2019 .
^ ab Paez, Danny (13 de febrero de 2019). "Esta persona no existe es el mejor sitio web único de 2019". Inverse . Consultado el 5 de marzo de 2018 .
^ "Las nuevas leyes estatales entran en vigor el 1 de julio". 24 de junio de 2019.
^ ab "§ 18.2–386.2. Difusión o venta ilícita de imágenes de otra persona; sanción". Virginia . Consultado el 1 de enero de 2020 .
^ "Relacionado con la creación de un delito penal por fabricar un video engañoso con la intención de influir en el resultado de una elección". Texas . 14 de junio de 2019 . Consultado el 2 de enero de 2020 . En esta sección, "video deep fake" significa un video, creado con la intención de engañar, que parece mostrar a una persona real realizando una acción que no ocurrió en la realidad
^ Johnson, RJ (30 de diciembre de 2019). "Estas son las nuevas leyes de California que entrarán en vigor en 2020". KFI . iHeartMedia . Consultado el 1 de enero de 2020 .
^ Mihalcik, Carrie (4 de octubre de 2019). "Las leyes de California buscan acabar con los deepfakes en la política y la pornografía". cnet.com . CNET . Consultado el 14 de octubre de 2019 .
^ "China busca erradicar las noticias falsas y los deepfakes con nuevas reglas de contenido en línea". Reuters.com . Reuters . 29 de noviembre de 2019 . Consultado el 8 de diciembre de 2019 .
^ Statt, Nick (29 de noviembre de 2019). "China tipifica como delito la publicación de deepfakes o noticias falsas sin divulgación". The Verge . Consultado el 8 de diciembre de 2019 .
^ Sincronizado (9 de febrero de 2019). «NVIDIA crea el generador de rostros hiperrealistas StyleGAN de código abierto». Sincronizado . Consultado el 4 de agosto de 2020 .
^ Sitio web de presentación pública de StyleGAN
^ ab Porter, Jon (20 de septiembre de 2019). "100.000 retratos gratuitos generados por IA ponen en alerta a las empresas de fotografías de stock". The Verge . Consultado el 7 de agosto de 2020 .
^ "¿Qué es un deepfake?". PCMAG.com . Marzo de 2020. Consultado el 8 de junio de 2020 .
^ Harwell, Drew. "Las aplicaciones de citas necesitan mujeres. Los anunciantes necesitan diversidad. Las empresas de inteligencia artificial ofrecen una solución: personas falsas". Washington Post . Consultado el 4 de agosto de 2020 .
^ "Las redes neuronales necesitan datos para aprender. Incluso si son falsos". Revista Quanta . 11 de diciembre de 2023 . Consultado el 18 de junio de 2023 .
^ ab Murphy, Samantha (2023). "Scientific American: Your Avatar, Your Guide" (.pdf) . Scientific American / Universidad de Stanford . Consultado el 11 de diciembre de 2023 .
^ "WaveNet: un modelo generativo para audio sin procesar". Deepmind.com . 8 de septiembre de 2016. Archivado desde el original el 27 de mayo de 2017. Consultado el 24 de mayo de 2017 .
^ "El 'Photoshop para voz' de Adobe Voco genera preocupación". BBC.com . BBC . 7 de noviembre de 2016 . Consultado el 5 de julio de 2016 .
^ Jia, Ye; Zhang, Yu; Weiss, Ron J. (12 de junio de 2018), "Transferencia de aprendizaje desde la verificación de habla a la síntesis de texto a voz de múltiples hablantes", Advances in Neural Information Processing Systems , 31 : 4485–4495, arXiv : 1806.04558 , Bibcode :2018arXiv180604558J
^ Rachel Metz (19 de abril de 2019). "Si tu imagen está en línea, es posible que esté entrenando a una IA de reconocimiento facial". CNN . Consultado el 4 de agosto de 2020 .
^ "Las voces falsas 'ayudan a los cibercriminales a robar dinero'". bbc.com . BBC . 8 de julio de 2019 . Consultado el 16 de abril de 2020 .
^ Drew, Harwell (16 de abril de 2020). "Una primicia en inteligencia artificial: software que imita la voz supuestamente utilizado en un importante robo". Washington Post . Consultado el 8 de septiembre de 2019 .

[1] Modelo muscular basado en la física para el control de la forma de la boca en IEEE Explore (requiere membresía)

[2] Animación facial 3D realista en una teleconferencia virtual en IEEE Explore (requiere membresía)

[3] Berlín, Isabelle (14 de septiembre de 2008). "Imágenes de síntesis: palma de la longévité pour l'ombrage de Gouraud". Intersticios (en francés) . Consultado el 3 de octubre de 2024 .

[4] "Imágenes de síntesis: palma de la longévité pour l'ombrage de Gouraud". 14 de septiembre de 2008.

[Deb2000-5] Debevec, Paul (2000). "Adquisición del campo de reflectancia de un rostro humano". Actas de la 27.ª conferencia anual sobre gráficos por ordenador y técnicas interactivas - SIGGRAPH '00 . ACM. págs. 145-156. doi :10.1145/344779.344855. ISBN 978-1581132083. S2CID 2860203 . Consultado el 24 de mayo de 2017 .

[Pig2005-6] Pighin, Frédéric. "Siggraph 2005 Digital Face Cloning Course Notes" (PDF) . Consultado el 24 de mayo de 2017 .

[Beginning-7] "St. Andrews Face Transformer". Futility Closet . 30 de enero de 2005. Consultado el 7 de diciembre de 2020 .

[Average-8] West, Marc (4 de diciembre de 2007). «Cambiando la cara de la ciencia». Revista Plus . Consultado el 7 de diciembre de 2020 .

[9] Goddard, John (27 de enero de 2010). "Las múltiples caras de la investigación racial". thestar.com . Consultado el 7 de diciembre de 2020 .

[Deb2009-10] En este video de la charla TED en 00:04:59 puedes ver dos clips, uno con la Emily real filmado con una cámara real y otro con una doble digital de Emily, filmado con una simulación de una cámara. Es difícil decir cuál es cuál . Bruce Lawmen fue escaneado usando la etapa de luz USC 6 en posición fija y también grabado corriendo allí en una cinta de correr . Se ven muchos, muchos dobles digitales de Bruce corriendo con fluidez y con un aspecto natural en la secuencia final del video de la charla TED.

[reform_youtube2015-11] ReForm – Hollywood está creando clones digitales (youtube). The Creators Project. 24 de mayo de 2017.

[Deb2013-12] Debevec, Paul. «Digital Ira SIGGRAPH 2013 Real-Time Live». Archivado desde el original el 21 de febrero de 2015. Consultado el 24 de mayo de 2017 .

[USC2014-13] "Escaneo e impresión de un retrato en 3D del presidente Barack Obama". Universidad del Sur de California. 2013. Archivado desde el original el 17 de septiembre de 2015. Consultado el 24 de mayo de 2017 .

[thr2015-14] Giardina, Carolyn (25 de marzo de 2015). «'Furious 7' y cómo Weta de Peter Jackson creó al Paul Walker digital». The Hollywood Reporter . Consultado el 24 de mayo de 2017 .

[Thi2016-15] Thies, Justus (2016). "Face2Face: captura de rostros en tiempo real y recreación de videos RGB". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE . Consultado el 24 de mayo de 2017 .

[16] "Sintetizando a Obama: aprendiendo a sincronizar los labios con el audio". grail.cs.washington.edu . Consultado el 3 de octubre de 2024 .

[Suw2017-17] Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Sintetizando a Obama: Aprendiendo a sincronizar los labios con el audio, Universidad de Washington , consultado el 2 de marzo de 2018

[18] Roettgers, Janko (21 de febrero de 2018). "Productores de pornografía ofrecen ayuda a Hollywood para eliminar los vídeos deepfake". Variety . Consultado el 28 de febrero de 2018 .

[venturebeat2018-19] Takahashi, Dean (21 de marzo de 2018). "Epic Games muestra un asombroso humano digital en tiempo real con la demostración de Siren". VentureBeat . Consultado el 10 de septiembre de 2018 .

[TheGuardian2018-20] Kuo, Lily (9 de noviembre de 2018). «Se presentó en China el primer presentador de noticias con inteligencia artificial del mundo». TheGuardian.com . Consultado el 9 de noviembre de 2018 .

[BusinessInsider2018-21] Hamilton, Isobel Asher (9 de noviembre de 2018). "China creó lo que afirma es el primer presentador de noticias con inteligencia artificial: mírelo en acción aquí". Business Insider . Consultado el 9 de noviembre de 2018 .

[WashingtonPost2018-22] Harwell, Drew (30 de diciembre de 2018). "Los videos pornográficos falsos se están utilizando como arma para acosar y humillar a las mujeres: 'Todo el mundo es un objetivo potencial'". The Washington Post . Consultado el 14 de marzo de 2019. En septiembre [de 2018], Google agregó "imágenes pornográficas sintéticas involuntarias" a su lista de prohibiciones .

[Medium2019-23] "NVIDIA crea un generador de rostros hiperrealistas StyleGAN de código abierto". Medium.com . 9 de febrero de 2019 . Consultado el 3 de octubre de 2019 .

[Inverse2019-24] Paez, Danny (13 de febrero de 2019). "Esta persona no existe es el mejor sitio web único de 2019". Inverse . Consultado el 5 de marzo de 2018 .

[25] "Las nuevas leyes estatales entran en vigor el 1 de julio". 24 de junio de 2019.

[Virginia2019Chapter515-26] "§ 18.2–386.2. Difusión o venta ilícita de imágenes de otra persona; sanción". Virginia . Consultado el 1 de enero de 2020 .

[TexasSB751-27] "Relacionado con la creación de un delito penal por fabricar un video engañoso con la intención de influir en el resultado de una elección". Texas . 14 de junio de 2019 . Consultado el 2 de enero de 2020 . En esta sección, "video deep fake" significa un video, creado con la intención de engañar, que parece mostrar a una persona real realizando una acción que no ocurrió en la realidad

[KFI2019-28] Johnson, RJ (30 de diciembre de 2019). "Estas son las nuevas leyes de California que entrarán en vigor en 2020". KFI . iHeartMedia . Consultado el 1 de enero de 2020 .

[CNET2019-29] Mihalcik, Carrie (4 de octubre de 2019). "Las leyes de California buscan acabar con los deepfakes en la política y la pornografía". cnet.com . CNET . Consultado el 14 de octubre de 2019 .

[Reuters2019-30] "China busca erradicar las noticias falsas y los deepfakes con nuevas reglas de contenido en línea". Reuters.com . Reuters . 29 de noviembre de 2019 . Consultado el 8 de diciembre de 2019 .

[TheVerge2019-31] Statt, Nick (29 de noviembre de 2019). "China tipifica como delito la publicación de deepfakes o noticias falsas sin divulgación". The Verge . Consultado el 8 de diciembre de 2019 .

[32] Sincronizado (9 de febrero de 2019). «NVIDIA crea el generador de rostros hiperrealistas StyleGAN de código abierto». Sincronizado . Consultado el 4 de agosto de 2020 .

[33] Sitio web de presentación pública de StyleGAN

[Porter-34] Porter, Jon (20 de septiembre de 2019). "100.000 retratos gratuitos generados por IA ponen en alerta a las empresas de fotografías de stock". The Verge . Consultado el 7 de agosto de 2020 .

[35] "¿Qué es un deepfake?". PCMAG.com . Marzo de 2020. Consultado el 8 de junio de 2020 .

[36] Harwell, Drew. "Las aplicaciones de citas necesitan mujeres. Los anunciantes necesitan diversidad. Las empresas de inteligencia artificial ofrecen una solución: personas falsas". Washington Post . Consultado el 4 de agosto de 2020 .

[37] "Las redes neuronales necesitan datos para aprender. Incluso si son falsos". Revista Quanta . 11 de diciembre de 2023 . Consultado el 18 de junio de 2023 .

[Mur2011-38] Murphy, Samantha (2023). "Scientific American: Your Avatar, Your Guide" (.pdf) . Scientific American / Universidad de Stanford . Consultado el 11 de diciembre de 2023 .

[deepmind.com2016-39] "WaveNet: un modelo generativo para audio sin procesar". Deepmind.com . 8 de septiembre de 2016. Archivado desde el original el 27 de mayo de 2017. Consultado el 24 de mayo de 2017 .

[BBC2016-40] "El 'Photoshop para voz' de Adobe Voco genera preocupación". BBC.com . BBC . 7 de noviembre de 2016 . Consultado el 5 de julio de 2016 .

[GoogleLearningTransferToTTS2018-41] Jia, Ye; Zhang, Yu; Weiss, Ron J. (12 de junio de 2018), "Transferencia de aprendizaje desde la verificación de habla a la síntesis de texto a voz de múltiples hablantes", Advances in Neural Information Processing Systems , 31 : 4485–4495, arXiv : 1806.04558 , Bibcode :2018arXiv180604558J

[42] Rachel Metz (19 de abril de 2019). "Si tu imagen está en línea, es posible que esté entrenando a una IA de reconocimiento facial". CNN . Consultado el 4 de agosto de 2020 .

[BBC2019-43] "Las voces falsas 'ayudan a los cibercriminales a robar dinero'". bbc.com . BBC . 8 de julio de 2019 . Consultado el 16 de abril de 2020 .

[WaPo2019-44] Drew, Harwell (16 de abril de 2020). "Una primicia en inteligencia artificial: software que imita la voz supuestamente utilizado en un importante robo". Washington Post . Consultado el 8 de septiembre de 2019 .