Nos pusimos a clonar voces y estamos en estado de alucinación

Cuando les contamos que en Orsai habíamos empezado a sumergirnos en desarrollos con inteligencia artificial probablemente nos imaginaron jugando con dall.e o haciendo versiones caricaturescas de fotos nuestras. Pero saben bien que si hay algo que nos gusta es jugar en serio. Y por eso, junto a nuestros nuevos amigos de MEC —un grupo de gente increíble, a mitad de camino entre The Big Bang Theory y científicos locos—, se nos ocurrió una idea: «¿Y si hacemos un modelo que clone voces con acento rioplatense?».

La charla, un poco en broma un poco en serio, escaló enseguida: «Si pudiéramos tener un modelo con un pronunciado acento cordobés, podríamos ver una película doblada al cordobés», dijo uno. «¿Te imaginás ver una de Tarantino doblada en correntino?», propuso otro. Dos minutos más tarde estábamos parados frente a una pizarra llena de fórmulas, siglas y desarrollos: habíamos encontrado gente que, como nosotros, quería jugar en serio. Y cuando eso pasa, nos fascinamos.

Empecemos por el final: los resultados

A continuación, les mostramos las primeras pruebas que hicieron nuestros amigos de MEC cuando se pusieron a jugar con el modelo de voz de Hernán Casciari.

Con dataset inglés

00:00

Con dataset español

00:00

Con dataset latinoamericano

00:00

Con dataset rioplatense

00:00

Estoy cansado de que me expliquen las cosas como a una tía vieja que se olvidó la clave del Facebook: yo quiero datos duros

¿Qué es el clonado de voces? ¿Cómo se hace? En términos simples, es la capacidad de recrear la voz de alguien en formato digital. Se logra mediante algoritmos de aprendizaje automático que analizan y descomponen la voz de una persona en elementos más pequeños, como la entonación, el timbre y el ritmo. Luego, estos elementos se pueden manipular para crear una voz que suene muy similar a la original.

Hay muchas aplicaciones para esta tecnología: la producción de audio, la industria musical, el doblaje de películas y series, la generación de narraciones de audio y la voz de asistentes virtuales.

Pero, ¿cuál es el beneficio de clonar voces?

Personalización de contenido: Por ejemplo, un locutor puede crear versiones clonadas de su propia voz en varios idiomas o distintos dialectos para llegar a un público más amplio.
Reducción de costos y tiempo: Esto es especialmente útil en proyectos que requieren grabación de audio en varios idiomas o para proyectos con plazos ajustados.
Generación de voces sintéticas: Esto es útil en aplicaciones como la narración de audiolibros y la producción de podcasts.
Asistencia a personas con patologías del habla: Con esta tecnología pueden comunicarse con otras personas de una manera más natural y cómoda.

Detalle de un sistema de clonado de voces

Los pasos en este complejo proceso pueden resumirse de la siguiente forma:

Recopilación de datos: el primer paso es recopilar datos de voz de la persona cuya voz se desea clonar. Los datos son fundamentales en el entrenamiento de la inteligencia artificial.
Extracción de características: a continuación, se extraen características específicas de la voz, como el tono, la duración de las sílabas, la entonación, entre otras. Estas características se utilizan más adelante para recrear la voz.
Entrenamiento del modelo: se utiliza un algoritmo de aprendizaje automático para entrenar un modelo que pueda imitar la voz de la persona original. El modelo, que se denomina sintetizador, aprende a partir de los datos de voz recopilados y las características extraídas.
Generación de la voz clonada: una vez que se ha entrenado el modelo, se genera la voz clonada. Para hacerlo, se proporciona una muestra original de la voz objetiva a clonar y el modelo utiliza las características aprendidas para crear una versión sintética de la misma voz.

Para resumir estas etapas, se puede observar el siguiente esquema y cómo cada uno de los módulos se conectan entre sí.

Todo muy lindo, pero yo no entiendo absolutamente nada de inteligencia artificial: ¿qué es lo que están haciendo?

En la primera reunión que tuvimos con Hernán San Martín y Maximiliano Yommi (CEO y CTO de MEC, respectivamente), nos dimos cuenta que algo sonaba con los mismos acordes entre ellos y nosotros. Estábamos hablando con gente que sabía una tonelada de cosas que nosotros no, pero que atrás de todos esos bits, desarrollos y fórmulas complejas, había dos personas con ganas de jugar.

Y nos pusimos a jugar. Como conejillo de indias del modelo de voice cloning (así se llama técnicamente), les propusimos experimentar con una inteligencia artificial capaz de clonar la voz de Hernán Casciari, de quien tenemos horas y horas de grabaciones para poder entrenar un modelo que sirviera para replicar su voz, sus matices y demás.

Nos contaron que hay algo que se llama dataset, que tiene versiones, tonos y registros de muchas voces, pero que la mayoría de los desarrollos eran en inglés y que había algún modelo centroamericano y quizás español. «¿Y rioplatense?», quisimos saber. «Rioplatense nada». Entonces supimos que era por ahí.

Les pedimos, concretamente, inventar algo que no existe: un dataset de voces con acento rioplatense, capaz de clonar e interpretar no solo el lenguaje castellano, sino su tono regional: acentos tucumanos, cordobeses, sanjuaninos, y más: siendo Argentina un país tan inmenso, las variaciones de una punta a otra de su mapa son muchísimas.

Y cuando pensamos que nos iban a invitar a que nos fuéramos por la locura que le habíamos propuesto, estaban convidándonos café y haciendo garabatos en una pizarra, mucho más cebados que nosotros.

Nos pusimos a clonar voces y estamos en estado de alucinación

Empecemos por el final: los resultados

Con dataset inglés

Con dataset español

Con dataset latinoamericano

Con dataset rioplatense

Estoy cansado de que me expliquen las cosas como a una tía vieja que se olvidó la clave del Facebook: yo quiero datos duros

Pero, ¿cuál es el beneficio de clonar voces?

Detalle de un sistema de clonado de voces

Todo muy lindo, pero yo no entiendo absolutamente nada de inteligencia artificial: ¿qué es lo que están haciendo?

Justo antes del Día del Niño, vuelve la revista Bonsai

Una inquietud de Gabo hizo que Hernán y Chiri reflexionen sobre el sentido de la comunidad sin pelos en la lengua

Chiri y Hernán presentan un nuevo podcast, mucho mejor de los que hacía Gabo

Vení a escuchar a Cucuza Castiello como si estuvieras en el living de tu casa

Últimas

Horacio Altuna pasó por el podcast de Orsai y trajo un notición

Un equipo chiquito y heroico filmó los planos finales de la peli de Peretti

«Sola en el Paraíso» llega al Centro Cultural San Martín

Un cartel de Bingo falso, tan real como la vida misma

En julio estrenamos «Únicamente criaturas», un show familiar de Casciari y Gustavo Sala para las vacaciones de invierno

Insólito: la Legislatura porteña nos llamó dos veces

Polémico: Madre y hermana de Casciari lo acusan de montar un espectáculo teatral solo para evitar los domingos en familia

El éxito de Cuentos en Pijamas llega a su tercer volumen

Menú

casciari

ORSAI Es

Orsai.

Nos pusimos a clonar voces y estamos en estado de alucinación

Empecemos por el final: los resultados

Con dataset inglés

Con dataset español

Con dataset latinoamericano

Con dataset rioplatense

Estoy cansado de que me expliquen las cosas como a una tía vieja que se olvidó la clave del Facebook: yo quiero datos duros

Pero, ¿cuál es el beneficio de clonar voces?

Detalle de un sistema de clonado de voces

Todo muy lindo, pero yo no entiendo absolutamente nada de inteligencia artificial: ¿qué es lo que están haciendo?

Redacción

Menú

casciari

ORSAI Es

Orsai.