Nos pusimos a clonar voces y estamos en estado de alucinación

Empezó un nuevo juego que no queríamos perdernos: agarramos horas de lecturas de Hernán Casciari y empezamos a jugar con clonación de voces. El futuro ya llegó.

Cuando les contamos que en Orsai habíamos empezado a sumergirnos en desarrollos con inteligencia artificial probablemente nos imaginaron jugando con dall.e o haciendo versiones caricaturescas de fotos nuestras. Pero saben bien que si hay algo que nos gusta es jugar en serio. Y por eso, junto a nuestros nuevos amigos de MEC —un grupo de gente increíble, a mitad de camino entre The Big Bang Theory y científicos locos—, se nos ocurrió una idea: «¿Y si hacemos un modelo que clone voces con acento rioplatense?».

La charla, un poco en broma un poco en serio, escaló enseguida: «Si pudiéramos tener un modelo con un pronunciado acento cordobés, podríamos ver una película doblada al cordobés», dijo uno. «¿Te imaginás ver una de Tarantino doblada en correntino?», propuso otro. Dos minutos más tarde estábamos parados frente a una pizarra llena de fórmulas, siglas y desarrollos: habíamos encontrado gente que, como nosotros, quería jugar en serio. Y cuando eso pasa, nos fascinamos.

Empecemos por el final: los resultados

A continuación, les mostramos las primeras pruebas que hicieron nuestros amigos de MEC cuando se pusieron a jugar con el modelo de voz de Hernán Casciari.

Con dataset inglés

00:00
00:00

Con dataset español

00:00
00:00

Con dataset latinoamericano

00:00
00:00

Con dataset rioplatense

00:00
00:00

Estoy cansado de que me expliquen las cosas como a una tía vieja que se olvidó la clave del Facebook: yo quiero datos duros

¿Qué es el clonado de voces? ¿Cómo se hace? En términos simples, es la capacidad de recrear la voz de alguien en formato digital. Se logra mediante algoritmos de aprendizaje automático que analizan y descomponen la voz de una persona en elementos más pequeños, como la entonación, el timbre y el ritmo. Luego, estos elementos se pueden manipular para crear una voz que suene muy similar a la original.

Hay muchas aplicaciones para esta tecnología: la producción de audio, la industria musical, el doblaje de películas y series, la generación de narraciones de audio y la voz de asistentes virtuales. 

Pero, ¿cuál es el beneficio de clonar voces?

  • Personalización de contenido: Por ejemplo, un locutor puede crear versiones clonadas de su propia voz en varios idiomas o distintos dialectos para llegar a un público más amplio.
  • Reducción de costos y tiempo: Esto es especialmente útil en proyectos que requieren grabación de audio en varios idiomas o para proyectos con plazos ajustados.
  • Generación de voces sintéticas: Esto es útil en aplicaciones como la narración de audiolibros y la producción de podcasts.
  • Asistencia a personas con patologías del habla: Con esta tecnología pueden comunicarse con otras personas de una manera más natural y cómoda.

Detalle de un sistema de clonado de voces

Los pasos en este complejo proceso pueden resumirse de la siguiente forma:

  1. Recopilación de datos: el primer paso es recopilar datos de voz de la persona cuya voz se desea clonar. Los datos son fundamentales en el entrenamiento de la inteligencia artificial. 

  2. Extracción de características: a continuación, se extraen características específicas de la voz, como el tono, la duración de las sílabas, la entonación, entre otras. Estas características se utilizan más adelante para recrear la voz.

  3. Entrenamiento del modelo: se utiliza un algoritmo de aprendizaje automático para entrenar un modelo que pueda imitar la voz de la persona original. El modelo, que se denomina sintetizador, aprende a partir de los datos de voz recopilados y las características extraídas.

  4. Generación de la voz clonada: una vez que se ha entrenado el modelo, se genera la voz clonada. Para hacerlo, se proporciona una muestra original de la voz objetiva a clonar y el modelo utiliza las características aprendidas para crear una versión sintética de la misma voz.

Para resumir estas etapas, se puede observar el siguiente esquema y cómo cada uno de los módulos se conectan entre sí.

Todo muy lindo, pero yo no entiendo absolutamente nada de inteligencia artificial: ¿qué es lo que están haciendo?

En la primera reunión que tuvimos con Hernán San Martín y Maximiliano Yommi (CEO y CTO de MEC, respectivamente), nos dimos cuenta que algo sonaba con los mismos acordes entre ellos y nosotros. Estábamos hablando con gente que sabía una tonelada de cosas que nosotros no, pero que atrás de todos esos bits, desarrollos y fórmulas complejas, había dos personas con ganas de jugar. 

Y nos pusimos a jugar. Como conejillo de indias del modelo de voice cloning (así se llama técnicamente), les propusimos experimentar con una inteligencia artificial capaz de clonar la voz de Hernán Casciari, de quien tenemos horas y horas de grabaciones para poder entrenar un modelo que sirviera para replicar su voz, sus matices y demás.

Nos contaron que hay algo que se llama dataset, que tiene versiones, tonos y registros de muchas voces, pero que la mayoría de los desarrollos eran en inglés y que había algún modelo centroamericano y quizás español. «¿Y rioplatense?», quisimos saber. «Rioplatense nada». Entonces supimos que era por ahí.

Les pedimos, concretamente, inventar algo que no existe: un dataset de voces con acento rioplatense, capaz de clonar e interpretar no solo el lenguaje castellano, sino su tono regional: acentos tucumanos, cordobeses, sanjuaninos, y más: siendo Argentina un país tan inmenso, las variaciones de una punta a otra de su mapa son muchísimas. 

Y cuando pensamos que nos iban a invitar a que nos fuéramos por la locura que le habíamos propuesto, estaban convidándonos café y haciendo garabatos en una pizarra, mucho más cebados que nosotros.

Redacción

Redacción

El staff de redacción de Orsai se encarga de comunicar en internet las novedades de cada proyecto. El equipo está integrado por Fede Ciccone, Caro Martínez y Fede Rodríguez, coordinado por Nacho Merlo.