audio-wave

“Kit, te necesito”, era lo único que tenía que decir Michael Knight para salir de cualquier situación comprometida: su coche sabría hacer lo necesario para resolver el problema. Lo que igual no sabía Michael es que estaba usando comandos de voz, como los que hoy se incluyen en todos los dispositivos. En muchas ocasiones, exceptuando casos como el del detector de palabrotas de Demolition Man, cine y televisión vaticinan el rumbo de algunas tecnologías. En el caso del reconocimiento de voz, un gran número de películas han mostrado su uso en la interacción con máquinas, desde C3PO y su capacidad para hablar con fluidez más de seis millones de formas de comunicación hasta Samantha, el sistema operativo del que Joaquin Phoenix se enamora en Her.

La posibilidad de hablar con las máquinas se ha vuelto casi una obsesión tecnológica en los últimos años. Desde los rudimentarios comandos por voz de los primeros sistemas operativos, donde solo se podían usar palabras clave muy acotadas, hasta los actuales reconocedores integrados en los móviles, hemos evolucionado enormemente. Ya casi nos parece algo normal, ver a personas hablar con el móvil y no por el móvil.

Por su parte, el mundo audiovisual se ha beneficiado de estos avances, y los aplica cada vez más y mejor. Por un lado, el mercado demanda contenidos subtitulados, siendo incluso obligatorio por ley en algunos casos, como sucede en los canales de la TDT. Por otro lado, el audio es la mayor fuente de información para documentación de contenido audiovisual, y el apoyo de las tecnologías del habla gana importancia en este ámbito. Gracias a ellas, somos capaces de realizar una transcripción de la voz a texto, generar subtítulos, reconocer al hablante por su voz, detectar eventos sonoros como aplausos o abucheos, etc. No voy a profundizar en todos ellos, porque la tecnología detrás de cada uno es sorprendentemente diferente, pero sí que quiero comentar la transcripción y el subtitulado.

El Gobierno Dragón: una cuestión de entrenamiento

Hace ya bastantes años que se habla de reconocimiento de voz y que se empezaron a aplicar los primeros sistemas en el ámbito audiovisual. Sin embargo, aquellos sistemas no estaban preparados, los resultados eran mediocres y se creó un cierto rechazo por parte de la industria a su uso. Es importante realizar una nueva reflexión al respecto, y analizar estas tecnologías sin prejuicios, ya que el beneficio que pueden aportar es muy grande.

La tecnología actual está preparada para su explotación industrial. Con esto no quiero decir que se pueda transcribir o subtitular cualquier contenido sin errores, es necesario que la calidad del audio sea alta y que no hablen varias personas a la vez (sí, programas de debate del corazón quedan descartados). Pero sobre todo, es necesario un entrenamiento específico para cada tipo de contenido y, en el mejor de los casos, para la voz de cada persona. Por eso crear un subtitulador universal está fuera del alcance incluso de gigantes como Google, no hay más que probar el generador automático de subtítulos de Youtube para ver que todavía falta un importante camino por recorrer.

Sin embargo, un sistema sí puede aprender cómo se habla en un tipo de contenido definido: qué gramática se usa y qué vocabulario es el más habitual. En lo referente al léxico, es crítico conocer los nombres de personas, lugares o instituciones que se van a utilizar; el sistema nunca será capaz de reconocer una palabra que no conozca previamente. Así, la primera vez que introduje una sesión de las Cortes de Aragón en nuestro sistema de reconocimiento, me dijo que “El gobierno Dragón propone a la ciudad de Cruel una partida presupuestaria para luchar contra la despoblación del territorio”. O el reconocedor se había decantado por la literatura fantástica, o necesitaba un entrenamiento adecuado. Decidimos que un entrenamiento con transcripciones de sesiones antiguas sería la mejor opción. Volvimos a intentarlo y esta vez el sistema dedujo que realmente “El gobierno de Aragón propone a la ciudad de Teruel una partida presupuestaria para luchar contra la despoblación del territorio”. Mucho mejor.

Respeaking, un virus audiovisual

La industria ha comenzado a reaccionar, en parte empujada por la ley de subtitulado en TDT, y casi todas las cadenas comienzan a aplicar tecnología de reconocimiento de voz, especialmente en el ámbito del subtitulado. Sin embargo, no todas las aproximaciones tecnológicas a esta necesidad ofrecen los mejores resultados. Por ejemplo, el modelo más extendido entre las cadenas españolas en la generación de subtítulos en directo es el llamado Respeaking. Consiste en tener a una persona en una cabina repitiendo lo que se dice en el plató para que un reconocedor de voz genere los subtítulos automáticamente. Este flujo crea un retraso en los subtítulos que le llegan al espectador de entre 5 y 10 segundos, reduciendo enormemente la calidad de su experiencia.

Entonces, ¿por qué se ha adoptado esta solución de forma generalizada? La respuesta está, como casi siempre, en el coste. La precisión de un reconocedor se basa en el entrenamiento previo que realices, necesita información sobre temáticas, gramática, vocabulario, y en el mejor de los casos, las voces de los hablantes. Este entrenamiento es costoso. Es la misma regla que rige los reconocedores de los móviles, la primera vez que hablas con tu Android, es capaz de reconocer “OK Google” y no mucho más. Sin embargo, Android aprende conforme lo usas, le hablas y le corriges. Y un mes después de comprarlo te entiende mejor que tu pareja. En el respeaking, sólo se entrena la voz de la persona que repite lo que se dice en el plató, facilitando enormemente el entrenamiento frente al trabajo directo con el audio de la emisión, y por tanto reduciendo los costes a cambio de tener un retardo inaceptable para un contenido que debe ser accesible.

Sin embargo, no todo es respeaking en el broadcast español. En la mayoría de los informativos ya se trabaja con sistemas de reconocimiento que utilizan la información proveniente de la redacción como base para generar unos subtítulos de gran calidad y sin apenas retardo. Incluso en contenidos como la información meteorológica, se generan los subtítulos trabajando con la señal en directo, gracias a un exhaustivo entrenamiento previo, y logrando un resultado excelente.

En definitiva, estas tecnologías tienen mucho que aportar a la industria audiovisual. Probablemente, no llegaremos a enamorarnos de nuestro editor de vídeo, pero si sabemos cómo y dónde aplicar los avances en reconocimiento de voz, tenemos mucho que ganar.