La Inteligencia Artificial en el cine: algoritmos que simulan sonidos

En artículos anteriores hemos reseñado algunas posibles (y asombrosas) aplicaciones de la Inteligencia Artificial en el cine. Hemos visto cómo por medio de modelos computacionales inteligentes, las imágenes pueden ser manipuladas para conseguir resultados que hace apenas un par de años, eran inimaginables. Como cambiar el clima en un video. O la hora del día en que fue realizado.

También reseñamos cómo por medio de procesos informáticos de aprendizaje profundo y de redes neuronales, es posible cambiar el rostro de un personaje, de forma automática, después de haber grabado un video. O cómo por medio del uso de esos mismos modelos computacionales inteligentes, se puede manipular la actuación del mismo personaje previamente grabado. O sintetizar imágenes a partir de una palabra o frase.

Pero hasta ahora no hemos tomado en cuenta un elemento que constituye el 50 por ciento (a veces más) del arte cinematográfico: el sonido.

Inteligencia Artificial en el cine: adivinar el sonido

Investigadores del Laboratorio de Ciencia Informática e Inteligencia Artificial (CSAIL) del Instituto de Tecnología de Massachusetts (MIT), presentaron hace un par de años los primeros estudios sobre la materia.

Usando un modelo computacional de aprendizaje profundo (Deep Learning), consiguieron que algoritmos entrenados infirieran sonidos completamente realistas a partir de un video silente. La técnica de Deep Learning consiste básicamente en entrenar computadoras para que aprendan, por sí mismas, a identificar patrones presentes en grandes cantidades de datos.

Los investigadores del CSAIL alimentaron a un algoritmo capaz de producir audio, con más de mil videos de 46 mil sonidos diferentes. El siguiente paso fue alimentar un algoritmo de aprendizaje profundo con esas mismos imágenes, para que deconstruyera los sonidos. El algoritmo analizó las distintas propiedades de cada sonido (pitch, nivel, volumen, etc).

Como resultado, cuando el modelo de IA son confrontados con un video sin audio, buscan llenar el vacío, a partir de la base de datos con la que han sido alimentadas. Y sintetizan o crean el sonido correspondiente.

Andrew Owens, uno de los autores del estudio, lo explica de la siguiente forma.

Para predecir el sonido de un video (silente), el algoritmo analiza las propiedades sonoras de cada cuadro de ese video y lo empareja con los sonidos más parecidos en la base de datos. Una vez que el sistema reúne esos fragmentos de audio, los ensambla y crea un sonido coherente (con la imagen, de forma automática).

Algoritmos, robots y sonidos

Aunque es claro que esta tecnología beneficiará enormemente el quehacer cinematográfico (nada más hay que ver todo el trabajo y el dinero que se ahorraría en Foley), ha sido desarrollada con el fin de enseñar a robots a relacionarse con el mundo real. De la misma forma en que lo hacemos los humanos.

Para los investigadores del MIT, el sonido es una de los medios que tenemos los humanos de conocer el mundo exterior.

Cuando pasas el dedo por (el borde de) una copa de vino, el sonido que produce refleja la cantidad de líquido que contiene.  Un algoritmo que simule tales sonidos puede revelar información clave sobre las formas y los tipos de materiales de los objetos. así como la fuerza y el movimiento de sus interacciones con el mundo.

En teoría, un robot podría usar esta tecnología para aprender cómo es el mundo real. Inferiría sonidos a partir de imágenes. Y como consecuencia, inferir tipos de materiales, volumen, resistencia, texturas y propiedades similares de los objetos a partir de su sonido. De la misma forma en la que un bebé desarrolla su apreciación del mundo físico a través de toqueteo y golpeteo de los objetos que le rodean.

El modelo informático creado puede incluso diferenciar objetos duros, de objetos suaves.

Un robot podría mirar la acera e instintivamente saber que el cemento es duro y la hierba es suave, y por lo tanto, saber qué pasaría si pisa cualquiera de los dos. Ser capaz de predecir el sonido es un primer paso importante para poder predecir las consecuencias de sus interacciones con el mundo físico.

¿Funciona?

Si están escépticos, nada más vean el vídeo.

Pero por si no están convencidos del todo, baste añadir que los investigadores del MIT condujeron un estudio para determinar si el oído humano era capaz de discriminar los sonidos falsos de los reales. El resultado fue apabullante. Los sujetos de estudio eligieron el sonido falso dos veces más que el verdadero.

Pero el modelo no es perfecto.

Por ahora, una de sus principales desventajas es que no puede inferir sonidos cuya fuente no aparezca en la imagen. Sonidos que no sean producto de una interacción con un objeto físico representado en el video. De la misma forma, a veces el modelo es engañado por acciones rápidas. O simuladas.

Adobe, VoCo, el Photoshop del audio

Más o menos en la misma época de la publicación de la investigación del MIT, Adobe dio a conocer su proyecto VoCo, en el marco de su conferencia anual Adobe Max. Para describirlo de la manera más simple posible, el proyecto VoCo es al audio lo que el Photoshop a la fotografía.

Su principal y más asombrosa característica es que permite editar las palabras y frases de un discurso o un parlamento previamente grabado. Quizás esta descripción no le haga justicia. Pero de lo se trata aquí es que esa herramienta puede borrar tus palabras grabadas y sustituirlas con cosas que nunca dijiste. Con la misma facilidad de quien edita un archivo de texto. y con tu propia voz.

Sí, es una herramienta increíblemente útil. Pero igualmente terrorífica. Por un lado facilita la edición de textos grabados, narraciones, discursos o diálogos con sólo borrar y escribir de nuevo. Con sólo corregir.

Pero esa misma utilidad, en manos equivocadas puede causar estragos, como Jordan Peele se lo advierte a su desarrollador, Zeyu Jin, durante sulapresentación. ¿Será esta la razón por la que Peele, director de Get Out, accedió a imitar a Obama en el video sobre los peligros de las nuevas tecnologías aplicadas a las noticias falsas?

Lo que sí parece posible es que Adobe, advertida de los peligros que implica esta tecnología en manos incorrectas, haya decidido suspender el proyecto. VoCo nunca llegó a la forma de producto comercial.

La Inteligencia Artificial en el cine: el futuro

La aplicación de la Inteligencia Artificial en el cine, más temprano que tarde, cambiará por completo la forma de hacer películas. Será un cambio revolucionario y devastador. ¿Sobrevivirá el cine como arte? ¿O surgirán nuevas formas artísticas audiovisuales?

En los artículos anteriores especulábamos sobre el desarrollo de un modelo computacional de Inteligencia Artificial futuro, tan poderoso que sea capaz de crear una película a partir del guión. Sin intervención humana. Como ya hemos visto, no se trata de una idea disparatada. O de una empresa imposible. Las herramientas existen.

Hoy, como ya hemos visto, hay algoritmos capaces de crear objetos, personas y cosas a partir de una palabra. Modelos de Inteligencia Artificial que crean escenas a partir de frases. Hay algoritmos que simulan celebridades que nunca existieron. Y otros que le cambian el rostro a actores ya filmados. Eso, sin contar los que crean modelos 3D a partir de imágenes en 2D. O los que sintetizan un vestuario a partir del análisis de fotografías.

Gracias a la aplicación de la Inteligencia Artificial en el cine, también podrás cambiar las actuaciones, agregar gestos, modificar expresiones faciales de tus actores (reales o no). Y, desde hace un par de años, sonidos, palabras. Si existe un algoritmo que posibilita la creación de sonidos a partir de imágenes; no resulta descabellado imaginar una herramienta que cree palabras a partir de la lectura de los labios de actores (artificiales reales). Y, con herramientas como VoCo, se podrán editar esos diálogos como si de un texto se tratara.

Es un futuro provisorio. Pero al mismo tiempo muy inquietante.

Anuncios

Usa tu iPod como un grabador de sonido profesional

Hacía mucho tiempo que no me topaba con un gadget que, al menos en apariencia, resultara tan útil. Y barato. Aún más en mis condiciones, con un recién fallecido DAT Tascam DAP1 y un iPod Classic relevado de sus funciones de reproducción musical por un diminuto iPod Shuffle por culpa de la inseguridad .

Resulta que el ProTrack de Alesis puede convertir tu iPod (Classic, Nano o Touch) en un grabador de sonido con entradas y conectores de micrófono (XLR-1/4) y línea profesionales (con controles de nivel independientes) y con un par de micrófonos, también profesionales (cardio, condensados), para registro de sonido estéreo. El aparato puede ser usado en mano, o montado en un trípode o boom. Posee indicadores de nivel tipo LED, capacidad para proveer de energía a micrófonos phantom 48V, entrada 1/8″ para auriculares y función limeter para el control de la distorsión.

Hay incluso una aplicación nativa para el iPod Touch que puede ser descargada de la tienda iTunes.

¿Alguno de ustedes ha tenido la oportunidad de probarlo? ¿Es recomendable?

ProTrack | Galería

Cómo crear efectos de sonido, una guía online de Foley

El del artista del Foley es uno de los trabajos más divertidos que uno puede concebir. El artista del Foley es el encargado de crear y recrear los sonidos que nunca fueron grabados en el set. O recogidos por el sonido directo de la escena.

El artista del Foley golpea ritmicamente dos cocos vacíos entre sí para recrear el galope de un caballo. Con palmadas en el pecho imita el aletear de las aves. O parte celery (¿alguien cuál es el nombre en español de este vegetal?) para crear el terrible crujir de huesos quebrados.

¿Qué es el Foley?

La ocupación debe su nombre a Jack Foley, guionista y sonidista y desarrollador, a principios del cine sonoro, de muchas de las técnicas y trucos empleados para crear sonidos en la fase de postproducción.

Como cabría esperarse, el arte del Foley no saldría indemne del desarrollo tecnológico de las últimas décadas. Pero a pesar de que hoy existen enormes bibliotecas y colecciones de casi cualquier sonido imaginable, ninguna película es igual a otra. Cada una tiene requerimientos diferentes. Por eso, seguiremos necesitando de esos prestidigitadores del sonido llamados artistas del Foley.

La guía

No obstante, en la red acabo de encontrar The Guide to Sound Effects. Se trata de una guía con información detallada sobre cómo crear efectos de sonido en estudio. Está organizada por orden alfabético y acepta colaboraciones. Hay unos cuantos tips interesantes.

Por ejemplo, el celery congelado es mucho mejor que a temperatura ambiente para hacer el sonido de huesos quebrados. O que el mismo efecto también se logra con tallos de lechuga congelada. O, si lo tuyo es el cinema verité, ¿por qué no meter una taza de porcelana dentro de un pollo cocinado y romperla a golpes de martillo de madera o goma?

El video que encabeza este artículo explica muy bien el trabajo del artista de Foley.

Pin It on Pinterest