La Inteligencia Artificial en el cine: algoritmos que simulan sonidos

Mientras investigadores del MIT desarrollan un modelo de Inteligencia Artificial capaz de crear sonidos a partir de imágenes silentes, Adobe inventa una herramienta que edita parlamentos con la facilidad de un archivo de texto.

0
988
7 min de lectura

En artículos anteriores hemos reseñado algunas posibles (y asombrosas) aplicaciones de la Inteligencia Artificial en el cine. Hemos visto cómo por medio de modelos computacionales inteligentes, las imágenes pueden ser manipuladas para conseguir resultados que hace apenas un par de años, eran inimaginables. Como cambiar el clima en un video. O la hora del día en que fue realizado.

También reseñamos cómo por medio de procesos informáticos de aprendizaje profundo y de redes neuronales, es posible cambiar el rostro de un personaje, de forma automática, después de haber grabado un video. O cómo por medio del uso de esos mismos modelos computacionales inteligentes, se puede manipular la actuación del mismo personaje previamente grabado. O sintetizar imágenes a partir de una palabra o frase.

Pero hasta ahora no hemos tomado en cuenta un elemento que constituye el 50 por ciento (a veces más) del arte cinematográfico: el sonido.

Inteligencia Artificial en el cine: adivinar el sonido

Investigadores del Laboratorio de Ciencia Informática e Inteligencia Artificial (CSAIL) del Instituto de Tecnología de Massachusetts (MIT), presentaron hace un par de años los primeros estudios sobre la materia.

Usando un modelo computacional de aprendizaje profundo (Deep Learning), consiguieron que algoritmos entrenados infirieran sonidos completamente realistas a partir de un video silente. La técnica de Deep Learning consiste básicamente en entrenar computadoras para que aprendan, por sí mismas, a identificar patrones presentes en grandes cantidades de datos.

Los investigadores del CSAIL alimentaron a un algoritmo capaz de producir audio, con más de mil videos de 46 mil sonidos diferentes. El siguiente paso fue alimentar un algoritmo de aprendizaje profundo con esas mismos imágenes, para que deconstruyera los sonidos. El algoritmo analizó las distintas propiedades de cada sonido (pitch, nivel, volumen, etc).

Como resultado, cuando el modelo de IA son confrontados con un video sin audio, buscan llenar el vacío, a partir de la base de datos con la que han sido alimentadas. Y sintetizan o crean el sonido correspondiente.

Andrew Owens, uno de los autores del estudio, lo explica de la siguiente forma.

Para predecir el sonido de un video (silente), el algoritmo analiza las propiedades sonoras de cada cuadro de ese video y lo empareja con los sonidos más parecidos en la base de datos. Una vez que el sistema reúne esos fragmentos de audio, los ensambla y crea un sonido coherente (con la imagen, de forma automática).

Algoritmos, robots y sonidos

Aunque es claro que esta tecnología beneficiará enormemente el quehacer cinematográfico (nada más hay que ver todo el trabajo y el dinero que se ahorraría en Foley), ha sido desarrollada con el fin de enseñar a robots a relacionarse con el mundo real. De la misma forma en que lo hacemos los humanos.

Para los investigadores del MIT, el sonido es una de los medios que tenemos los humanos de conocer el mundo exterior.

Cuando pasas el dedo por (el borde de) una copa de vino, el sonido que produce refleja la cantidad de líquido que contiene.  Un algoritmo que simule tales sonidos puede revelar información clave sobre las formas y los tipos de materiales de los objetos. así como la fuerza y el movimiento de sus interacciones con el mundo.

En teoría, un robot podría usar esta tecnología para aprender cómo es el mundo real. Inferiría sonidos a partir de imágenes. Y como consecuencia, inferir tipos de materiales, volumen, resistencia, texturas y propiedades similares de los objetos a partir de su sonido. De la misma forma en la que un bebé desarrolla su apreciación del mundo físico a través de toqueteo y golpeteo de los objetos que le rodean.

El modelo informático creado puede incluso diferenciar objetos duros, de objetos suaves.

Un robot podría mirar la acera e instintivamente saber que el cemento es duro y la hierba es suave, y por lo tanto, saber qué pasaría si pisa cualquiera de los dos. Ser capaz de predecir el sonido es un primer paso importante para poder predecir las consecuencias de sus interacciones con el mundo físico.

¿Funciona?

Si están escépticos, nada más vean el vídeo.

Pero por si no están convencidos del todo, baste añadir que los investigadores del MIT condujeron un estudio para determinar si el oído humano era capaz de discriminar los sonidos falsos de los reales. El resultado fue apabullante. Los sujetos de estudio eligieron el sonido falso dos veces más que el verdadero.

Pero el modelo no es perfecto.

Por ahora, una de sus principales desventajas es que no puede inferir sonidos cuya fuente no aparezca en la imagen. Sonidos que no sean producto de una interacción con un objeto físico representado en el video. De la misma forma, a veces el modelo es engañado por acciones rápidas. O simuladas.

Adobe, VoCo, el Photoshop del audio

Más o menos en la misma época de la publicación de la investigación del MIT, Adobe dio a conocer su proyecto VoCo, en el marco de su conferencia anual Adobe Max. Para describirlo de la manera más simple posible, el proyecto VoCo es al audio lo que el Photoshop a la fotografía.

Su principal y más asombrosa característica es que permite editar las palabras y frases de un discurso o un parlamento previamente grabado. Quizás esta descripción no le haga justicia. Pero de lo se trata aquí es que esa herramienta puede borrar tus palabras grabadas y sustituirlas con cosas que nunca dijiste. Con la misma facilidad de quien edita un archivo de texto. y con tu propia voz.

Sí, es una herramienta increíblemente útil. Pero igualmente terrorífica. Por un lado facilita la edición de textos grabados, narraciones, discursos o diálogos con sólo borrar y escribir de nuevo. Con sólo corregir.

Pero esa misma utilidad, en manos equivocadas puede causar estragos, como Jordan Peele se lo advierte a su desarrollador, Zeyu Jin, durante sulapresentación. ¿Será esta la razón por la que Peele, director de Get Out, accedió a imitar a Obama en el video sobre los peligros de las nuevas tecnologías aplicadas a las noticias falsas?

Lo que sí parece posible es que Adobe, advertida de los peligros que implica esta tecnología en manos incorrectas, haya decidido suspender el proyecto. VoCo nunca llegó a la forma de producto comercial.

La Inteligencia Artificial en el cine: el futuro

La aplicación de la Inteligencia Artificial en el cine, más temprano que tarde, cambiará por completo la forma de hacer películas. Será un cambio revolucionario y devastador. ¿Sobrevivirá el cine como arte? ¿O surgirán nuevas formas artísticas audiovisuales?

En los artículos anteriores especulábamos sobre el desarrollo de un modelo computacional de Inteligencia Artificial futuro, tan poderoso que sea capaz de crear una película a partir del guión. Sin intervención humana. Como ya hemos visto, no se trata de una idea disparatada. O de una empresa imposible. Las herramientas existen.

Hoy, como ya hemos visto, hay algoritmos capaces de crear objetos, personas y cosas a partir de una palabra. Modelos de Inteligencia Artificial que crean escenas a partir de frases. Hay algoritmos que simulan celebridades que nunca existieron. Y otros que le cambian el rostro a actores ya filmados. Eso, sin contar los que crean modelos 3D a partir de imágenes en 2D. O los que sintetizan un vestuario a partir del análisis de fotografías.

Gracias a la aplicación de la Inteligencia Artificial en el cine, también podrás cambiar las actuaciones, agregar gestos, modificar expresiones faciales de tus actores (reales o no). Y, desde hace un par de años, sonidos, palabras. Si existe un algoritmo que posibilita la creación de sonidos a partir de imágenes; no resulta descabellado imaginar una herramienta que cree palabras a partir de la lectura de los labios de actores (artificiales reales). Y, con herramientas como VoCo, se podrán editar esos diálogos como si de un texto se tratara.

Es un futuro provisorio. Pero al mismo tiempo muy inquietante.

Anuncios

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.