Las innovaciones tecnológicas deberían tener como objetivo fundamental mejorar nuestras vidas, mejorar la eficacia de nuestro trabajo, optimizar los métodos de comunicación de los seres humanos, y cosas parecidas, aunque algunas veces tienen la capacidad de inquietarnos un poco. Un grupo de investigadores de la Universidad de Washington ha desarrollado un método para grabar un clip de audio de alguien que habla y generar un vídeo aterradoramente realista mediante tecnología lip-sync (sincronización labial).

Lo cierto es que todo esto puede dar un poco de miedo, y si quieres comprobarlo por ti mismo, puedes reproducir el vídeo que ha hecho este grupo de investigadores utilizando como ejemplo para la demostración un audio del expresidente de Estados Unidos Barack Obama:

Ira Kemelmacher-Shlizerman, profesor asistente en la Escuela Paul G. Allen de Ciencias de la Computación e Ingeniería, explica cómo esta tecnología podría ser útil:

“La conversión realista de audio a vídeo tiene aplicaciones prácticas como mejorar la videoconferencia para reuniones, y otras más futuristas, como ser capaz de mantener una conversación con una figura histórica mediante realidad virtual y la creación de secuencias de vídeo a partir de audio.”

Esta tecnología también podría ser utilizada para crear escenas híper-realistas en los videojuegos y hacer más fácil la animación de personajes 3D en películas y programas de televisión. El problema es que también puede ser utilizado para crear vídeos con información falsa o manipulada, ya sea para engañar a las personas con mensajes políticos fraudulentos, o incluso manipular evidencias de vídeo en las investigaciones criminales.

Vale la pena señalar que esto no es fácil: para lograr los resultados que se ven arriba, los investigadores primero entrenaron una red neuronal con varias horas de vídeo de Obama hablando, para que pudiera aprender a traducir diferentes sonidos de audio en formas, gestos y expresiones de la boca. A continuación, aplicaron varias técnicas de síntesis de vídeo para superponer y mezclar esas formas de boca, dientes y gestos en un vídeo de referencia.

Es posible que este proyecto os suene familiar, puede ser porque estáis pensando en Face2Face, que fue desarrollado por Matthias Nießner en Stanford y permite animar las caras de las personas en vídeo de manera realista mediante la captura de expresiones faciales con sólo una cámara web.

Por ahora, el sistema sólo funciona bien con audio y vídeo de un solo individuo a la vez, y requiere varias horas de material de origen para aprender patrones de sincronización. Pero el equipo de investigación espera eliminar estas limitaciones con el tiempo.

En cuanto a la detección de vídeos falsos, la misma tecnología podría utilizarse para detectar anomalías cuando se trata de vídeos que han sido creados a partir de diferentes audios. Lo cierto es que este tipo de tecnologías son realmente preocupantes, ya que podrían poner falsas palabras en boca de personajes influyentes, alterando la percepción social y política de los mismos, incluso afectando directamente a decisiones que podrían cambiar radicalmente el destino de millones de personas.

Si estás interesado en profundizar en el conocimiento de este tipo de tecnologías, o al menos comprender un poco mejor su funcionamiento, el equipo de investigación de la Universidad de Washington, ha puesto a disposición de todo el mundo un documento que presentará en el próximo SIGGRAPH 2017, con toda la información sobre sus investigaciones.