Propongo una refrescante colección de aplicaciones presentes e inminentes de la Inteligencia Artificial en el trabajo audiovisual, algunas triviales y otras prometedoras.

En estas fechas no conviene calentarse mucho la cabeza. O sí, en caso de disponer del invento del señor Willis H. Carrier, al que tanto debemos. Por eso y porque cuando no me pongo a remojo, estoy rodeado de una ruidosa muchachada familiar que dificulta una documentación más meticulosa, he decidido sacar de la chistera algunos de los jugueticos basados en IA con los que me he ido topando estos últimos meses.

  • Un matiz: ya sé que estoy mezclando indistintamente varios conceptos (machine learning, deep learning, redes neuronales, robótica, cajas negras, big data, procesado de lenguaje natural, inteligencia extendida, ciencia de datos, etc.); no obstante, si quieres tenerlos claros de cara al futuro o simplemente pegarte el pegote con tu cuñado en el chiringuito de la playa, aquí dejo un enlace con un glosario donde lo explica todo: https://luca-d3.com/es/diccionario-tecnologico/index.html
  • Otro matiz: voy a evitar hablar de aquello que ya traté la primera vez que escribí sobre las aplicaciones de la IA allá por 2007. Los ordenadores son muy hábiles con las tareas rutinarias y repetitivas. Yo no. Por la misma razón, tampoco voy a hablar de las aplicaciones de la IA en redes sociales y plataformas de streaming, deepfakes, FaceApp, clasificación de contenidos, algoritmos predictivos y de recomendación y demás sistemas de personalización de experiencia, ni de usos espurios como el de Cambridge Analytica (ahí tenéis la peli Brexit, de HBO, o el docu The Great Hack, en Netflix), temas ampliamente tratados por mis compañeros de blog. Baste recordar que cualquier tecnología puede usarse para el bien y para el mal, y el mismo Alfred Nobel se escandalizó de que la dinamita se utilizase también para matar.
    Todos los artículos de IA en IA: https://innovacionaudiovisual.com/tag/inteligencia-artificial/
  • Un último matiz: los conceptos y tecnologías relacionados con la IA son extremadamente complejos, incluso para un friki bicéfalo como yo, realizador e informático. Pero el tema es lo suficientemente atractivo para acercarse a él, y además no hace falta ser ningún coco para hacer uso de sus aplicaciones, como sabe cualquier usuario de Snapchat. O sea, que no pasa nada si extrapolamos el concepto “caja negra” y simplemente aceptamos que “las cosas pasan”.
  • Y un aviso: todos los vídeos que he insertado (muchos de ellos como enlaces, menos vistosos pero así no se cuelgan las máquinas) están en inglés, y no hay demasiados enlaces interesantes en castellano. Si no los entiendes, actíva los subtítulos automáticos en cada uno de ellos, traducidos al castellano gracias, precisamente, a la IA de Google.

¿La IA es tu amiga?

Si bien aún estamos lejos de burlar el test de Turing, muchas de las promesas de la Inteligencia Artificial se van cumpliendo. Yo ya no tengo edad de emocionarme con cada progreso tecnológico, ni mucho menos para anunciar una nueva revolución industrial o incluso un salto evolutivo como dicen algunos. Pero lo cierto y verdad es que las herramientas de IA van a permitir solucionar problemas que ahora nos resultan irresolubles (como arreglar los daños que las IAs han causado ya en la sociedad, sin ir más lejos) y van a cambiar prácticamente todos los sectores industriales, incluido el nuestro. Nuestras capacidades creativas y profesionales se van a ver aumentadas con asistentes desde el momento mismo de la concepción hasta los acabados finales, y conceptos como “inteligencia extendida” u “obra evolutiva” resultan atractivos por sí mismos, así como tener un .“compañero” virtual que revise tu trabajo, como ya tienen en Forbes, que ha implementado un sistema de escritura conjunta hombre-máquina: https://www.forbes.com/sites/forbesproductgroup/2018/04/20/our-new-publishing-platform-will-make-you-a-better-writer/#5d1a731f78eb

Pero también está claro que el cambio será brusco, y por el camino muchos perderán el tren, el curro y quién sabe qué más. Quizás la intimidad. Quizás la democracia.

¿Cómo funciona?

Digamos que se trata de sistemas capaces de “aprender”. Los ordenadores convencionales son buenos realizando pequeñas tareas repetitivas muy rápidamente. En este caso lo hacen con leves modificaciones en cada iteración, anotando los resultados mediante la adición de una compleja capa cognitiva y sacando conclusiones. Pueden tomar la forma de redes neuronales convolucionales, redes generativas adversarias (que compiten entre sí por la mejor solución a un problema), o usar algoritmos evolutivos, que van optimizándose usando las reglas biológicas de la evolución. Supongo que mientras escribo estas líneas alguien se estará inventando nuevas formas de implementación. Así va esto de rápido.

Pero como una imagen vale más que mil palabras, aquí os dejo un video que muestra el proceso de cómo una IA aprende a jugar a un videojuego (lo bueno empieza en 0:48)

Hacer jugar a Mario es sencillo, pero las IAs ya saben jugar a más cosas

Vamos a los jugueticos: El pincel mágico para hacer bocetos

¿Te dedicas al concept art? O simplemente, ¿te gusta garabatear un poco para fijar las ideas? GauGAN es una especie de pincel mágico con el que con sólo unos trazos se obtiene una imagen fotorrealista o un cuadro al estilo de un determinado artista (sobre “robo de estilo”, veremos otra cosita un poco más abajo).

Lógicamente, fue un pelotazo del último SIGGRAPH: https://blogs.nvidia.com/blog/2019/07/30/gaugan-ai-painting/?ncid=so-yout-77376#cid=organicSocial_en-us_YouTube_NVIDIA-Research-Research-NR01

Si no quieres pasar por la aduana de NVIDIA, se puede ver más aquí y el código se puede hojear aquí

El código que roba el estilo de los artistas

El nombre técnico es style transfer, y no tengo ninguna duda de que estará pronto disponible como opción en la próxima generación de móviles o en el mismísimo Instagram. Por desgracia, tampoco tengo ninguna duda de que se usará en vídeos de boda. Le metes una foto o vídeo, le metes un cuadro de algún artista y voilà. Tu foto o vídeo al estilo del artista.

Hipnótico

Hay varias versiones y algoritmos, varias páginas que lo hacen online, y hasta está disponible como plugin de After Effects: https://transfusion.ai/

O como app para iOS https://apps.apple.com/us/app/pikazo-make-anything-art/id1100723148

Los resultados mejoran usando de parámetros no una sino varias obras del mismo artista
https://www.youtube.com/watch?v=mRIRK8daOl8

Espera, que también se puede hacer sobre objetos tridimensionales

https://dcgi.fel.cvut.cz/home/sykorad/styleblit.html

Lo mismo, pero con música

Pues eso: le metes una música y una referencia y te arregla la pieza al estilo de la referencia. 
https://www.youtube.com/watch?v=buXqNqBFd6E

La herramienta se llama Flow Machines, y está aquí: http://www.flow-machines.com/

El siguiente paso, claro, es componer como tal o cual artista, que es lo que hace MuseNet de OpenAI. Los compositores de jingles podrían tener algún motivo de preocupación al respecto.

https://openai.com/blog/musenet/

Cambiar la iluminación de una foto

Otro algoritmo que parece mágico. Le metes una foto, averigua de dónde viene la luz y te permite moverla. Los usos en composición de postpro o en un simple selfie parecen inmediatos; eliminar la papada o la sombra de la panza…

Publicación original: https://www.microsoft.com/en-us/research/publication/modeling-surface-appearance-single-photograph-using-self-augmented-convolutional-neural-networks/

Ver en la oscuridad

En general, las IAs son muy buenas para aprender cómo eliminar el ruido de las imágenes
https://www.youtube.com/watch?v=pp7HdI0-MIo

Este proyecto va aún más allá, y hace posible obtener información visual válida de imágenes muy subexpuestas. Quizás no en calidad broadcast, pero sí lo suficientemente nítidas para usar en muchas aplicaciones
https://www.youtube.com/watch?v=qWKUFK7MWvg

Ver a través de las paredes

Magia potagia. Este algoritmo usa las interferencias que provoca el cuerpo humano en la señal WiFi para detectarlo a través de obstáculos, incluso las paredes.
https://www.youtube.com/watch?v=HgDdaMy8KNE

Más allá del deepfake

Hemos visto a Jordan Peele usando a Obama como si fuese una marioneta. Hemos visto secuencias de películas en las que todos los personajes eran Nicholas Cage. Hemos visto como Pornhub se comprometía a eliminar de su catálogo todas los videos porno en los que se hubiese simulado a celebridades practicando sexo. Lo que yo no había visto es deepfakes con animales

Y la tecnología para sustituir el cuerpo entero está muy, muy cerca

Y para todos los que estén (estamos) preocupados por estas herramientas de falsificación de la imagen, resulta que lo que las IAs te dan, las IAs te lo quitan. Un buen ejemplo es ésta, capaz de detectar deepfakes y otras manipulaciones en vídeos
https://www.youtube.com/watch?v=Tle7YaPkO_k

Arreglar fallos de texto en vídeos de cabeza parlante

Esta es una de las aplicaciones a la que veo más futuro en la comunicación audiovisual. Se trata de arreglar una locución en cámara cambiando únicamente el texto. Es una aplicación ampliada de la tecnología lip-sync que ya hemos visto en decenas de deepfakes, y como en ellos, las implicaciones éticas son sumamente complejas. Supongo que en el futuro se podrá usar para corregir fallos del texto no detectados en rodaje e incluso hacer cambios de última hora sobre el guión con los brutos ya rodados.

La propia página del proyecto hace mención a las reservas éticas de esta tecnología

https://www.ohadf.com/projects/text-based-editing/

Ah, que no te había contado que han entrenado una IA para sintetizar voz. Pues sí. Pero no a sintetizar voz como la señorita del Google Maps, en plan mecánico: aunque también es un proyecto de Google, se trata de sintetizar voz cualitativamente, de tal modo que puedas hasta escuchar tu propia voz hablando perfectamente en otro idioma:
https://deepmind.com/blog/article/wavenet-generative-model-raw-audio

¿Adiós a la rotoscopia?

Ya disponible como plugin de Nuke, este algoritmo es bastante bueno extrayendo contornos

Cámaras lentas mejoradas

Que sí, que siempre es mejor enganchar una buena Phantom. Pero a veces no tenemos el presupuesto suficiente, o pensamos en la cámara lenta ya en postproducción. La estimación de interfotogramas por optical flow no está mal, pero todos conocemos los artefactos que genera, así que bienvenido este nuevo algoritmo

Captura de movimiento a partir de un vídeo

Aún les quedan cosas por refinar, pero la expectativa de realizar capturas sin aparatosas instalaciones de mocap con gente vestida con extraños atuendos es prometedora.

Lo genial es que los movimientos capturados no sólo se optimizan, sino que pueden ser alterados con cambios morfológicos, nuevos obstáculos, etc. Y por supuesto, transferidos a otros modelos tridimensionales riggeados.

Herramientas para la producción en 3D

En los últimos años hemos visto un gran avance tanto en el modelado, texturizado, riggeado, iluminación, animación, etc. Hoy día ya no sorprende la generación de mundos sintéticos procedurales, ni las librerías de movimientos, ni la iluminación fotorrealista ni la simulación de fluidos y procesos físicos, pero hay un montón de proyectos que usan IAs de una y otra forma para mejorar o simplificar cada una de las tareas. Voy a poner un par de botones de muestra:

  • 3D assets procedurales basados en machine learning. La creación de objetos 3D para usar en producción audiovisual es un proceso lento y caro. O bien se los modela, texturiza e ilumina desde cero, o bien hay que adquirirlos en librerías. Además, luego hay que colocarlos cuidadosamente en las escenas. Este algoritmo los ubica proceduralmente él solito, introduciendo variaciones basadas en la realidad. En este vídeo se ve cómo se usa para colocar edificios y muebles, pero supongo que se podrá usar para cualquier cosa
    https://www.youtube.com/watch?v=Flz-cIadPP0

Aislar la voz humana

Ya hemos dicho varias veces que la comunicación audiovisual no sólo se compone de imagen. También está el sonido.

Esta IA ha sido entrenada para discriminar (limpiar) una voz humana. Puede eliminar el ruido de fondo (el resultado no es peor que los algoritmos de eliminación de ruido) pero sobre todo puede separar voces que se solapan entre sí.
https://www.youtube.com/watch?v=Z_ogAiVoE1g

Imagino que será algo que se incorpore pronto a los sistemas de videoconferencia.

Mejora de la imagen, así en general

Fotos mal expuestas, problemas de contraste, otro algoritmo “mágico” que me gustaría ver enfrentarse al sol quemasensores de Murcia

http://people.ee.ethz.ch/~ihnatova/

La IA que detecta cánceres

Vale, me he salido del sector audiovisual, pero sí es una aplicación sobre imágenes, médicas en este caso. Por un lado conforta bastante saber que la perversa Inteligencia Artificial puede salvar vidas, pero es que por el otro nada impide que se las entrene para encontrar errores en nuestras imágenes: si ve una célula haciendo mitosis anormales, ¿por qué no iba a poder ver un micro, un pie de foco o un artefacto de compresión?

En fin, más información, aquí: http://people.idsia.ch/~juergen/deeplearningwinsMICCAIgrandchallenge.html

Todo gratis

Pese a la sofisticación de estas tecnologías y la competencia feroz por ir a la cabeza en ellas, es tan ingente la tarea de enseñar a las máquinas a pensar que hay muchos recursos gratuitos para ir echándole mano: tus jugueteos pueden formar parte de la tan necesaria base de conocimiento y factor diferenciador en el futuro. De hecho no es raro que pequeñas frikadas hechas por amor al arte se acaben explotando comercialmente y que al desarrollador le salga curro automáticamente. Daos prisa, todo esto costará pa$ta enseguida.

En general, ya el repositorio de código GitHub bulle con proyectos, pero tampoco es plan de sumergirse en su vasta base de datos en frío, sin unos cariñitos ni nada.

Google ofrece formación gratuita en https://ai.google/, que además permite toquetear su cerebrito, que creo que se sigue llamando Deepmind. Facebook ofrece acceso a su entorno PyTorch y varias herramientas en https://ai.facebook.com/tools/. Por supuesto, el archiconocido TensorFlow permite acceder a su plataforma de machine learning en https://www.tensorflow.org/, pero además ofrece formación específica gratuita en colaboración con Udacity, en https://eu.udacity.com/course/intro-to-tensorflow-for-deep-learning–ud187, que ya hemos dicho que estas cosas son complicadas y no viene mal que lo lleven a uno de la mano. Y por supuesto, Elon Musk también tiene la suya, OpenAI https://openai.com/blog/introducing-openai/

Me he dejado para el final a NVIDIA, un importante actor en las aplicaciones de IA no sólo por lo que aportan e invierten, sino porque, al ser fabricantes de tarjetas y chips gráficos y, por lo tanto beneficiarios directos de estos avances tecnológicos, su especial dedicación a las aplicaciones visuales de la IA (su plataforma se llama NVIDIA EGX, híbridos local-nube escalables según necesidades y coste) hacen que pasearse a cotillear sus proyectos se convierta en entretenimiento, un puro deleite. Formación en https://www.nvidia.com/en-us/deep-learning-ai.

Enlaces

Una de las fuentes más ricas de documentación que he usado para este artículo es el canal de YouTube Two Minute Papers. Su titular, Károly Zsolnai-Fehér, se ha tomado la paciencia de resumir en vídeos siempre interesantes un montón de textos académicos, ahorrándonos su árida lectura. Aquí pongo su dirección mientras me prometo a mí mismo contribuir a su Patreon.

https://www.youtube.com/user/keeroyz