Whisper: la IA que transcribe mejor que nadie

Obviamente, imagen generada con una IA (Dall-E)

Estamos impresionados por los avances de los últimos meses en Inteligencia Artificial. Los generadores de imágenes a partir de texto (Dall-E, Stable Diffusion, Midjourney, Imagen…) y los modelos de lenguaje como GPT-3 (más conocido en su popular formato de ChatGPT). Pero hay un trabajo de OpenAI (los creadores de Dall-E y ChatGPT) que ha pasado más desapercibido pero que puede ser muy útil y es un avance importante. Se trata de Whisper, un transcriptor que es capaz de extraer texto de audios nada claros e incluso con varias personas hablando a la vez, distinguiendo las voces de cada uno.

Uno de los problemas de los transcriptores de siempre, además de simplemente no tener buen oído, es que les faltaba algo de sentido común para rellenar por contexto cualquier palabra mal entendida. Algo que cualquier humano puede hacer, sabiendo que la frase debe tener un sentido razonable, no va a confundir dos palabras por mucho que la sonoridad sea parecida, salvo situaciones de equívocos chistosos. Whisper, con las nuevas capacidades de la IA te escribe los textos con sus puntos y sus comas, con una sintaxis y contexto coherente e incluso entiende los nombres propios. Y lo mejor es que, a diferencia de otros productos, este OpenAI nos lo deja gratis y liberado.

Transcriptor + Conversor m4a a mp3 en Google Colab

(enlace)

Las aplicaciones tienen un gran potencial y pronto encontraremos a este sistema u otro equivalente o superior, integrado en todo tipo de sistemas. Una reunión online, traductores de voz, o simplemente la grabadora de un periodista. Quizá para cuando estés leyendo esto ya está más que integrado en todas partes, pero ahora mismo aún no lo he visto en aplicaciones comerciales. Entre tanto, y para mi uso personal en entrevistas (de mi lado cinéfilo) he preparado un Google Colab con este transcriptor que me sirva de forma práctica. Ya lo hemos probado en alguna entrevista -no diré en cuál- con resultados satisfactorios.

Le he añadido algunas mejoras para adaptarlo a mis necesidades. Esta es una de las grandes ventajas de estos sistemas que son liberados en bruto y permiten a cada programador añadirle sus características. Si a alguien quiere puede utilizarlo. Disclaimer: en cualquier momento pueden cambiar el modelo y quizá no funcione para siempre.

El modelo admite de forma nativa wav, mp3, flac y aac, pero no m4a que es precisamente el formato en el que guarda los audios la grabadora de Android. Así que le he añadido un conversor en python de m4a a mp3 que se activa automáticamente en caso de detectar esa extensión.

Vivimos en una época muy favorable al háztelo tú mismo, y con programaciones nada complejas se pueden conseguir soluciones muy eficaces adaptadas a las necesidades concretas de cada uno.

Iñaki Ortiz Gascón