×
Sello Maestría

¡Máquinas y memorias: El despertar de los recuerdos ha sido galardonado con el prestigioso Sello Maestría!

Descubre más aquí

Clonación de voces por IA

Aunque existen muchas soluciones, esta vez me he decantado por probar Chatterbox, el modelo de texto a voz de código abierto de Resemble AI.

Tras crear el entorno virtual de Python e instalar las dependencias, ejecuté el siguiente script de prueba en mi máquina:

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
from chatterbox.mtl_tts import ChatterboxMultilingualTTS

# Cargar el modelo monolingüe
model = ChatterboxTTS.from_pretrained(device="cuda")

# Cargar el modelo multilingüe
multilingual_model = ChatterboxMultilingualTTS.from_pretrained(device="cuda")

texto = "El ambiente estaba impregnado por un torbellino de emociones y fuertes olores, entre metal quemado y sangre. El silencio era casi total, perturbado solamente por el chisporroteo de los restos de robots y el eco distante de máquinas apagándose."
AUDIO_PROMPT_PATH = "sample_adrian.wav"  # un clip de mi voz de pocos segundos

# Generar la voz clonada a partir de un ejemplo y texto
wav = multilingual_model.generate(
    texto,
    language_id="es",
    audio_prompt_path=AUDIO_PROMPT_PATH
)

# Guardar el resultado
ta.save("result-adrian.wav", wav, multilingual_model.sr)

El modelo se puso en marcha al instante: con solo unos segundos de un audio previo, Chatterbox Multilingual clonó mi voz y pronunció la frase de prueba. La sensación de oír a una réplica digital de mí mismo fue tan fascinante como inquietante. Aquí está el resultado:

¿Qué es Chatterbox?

Chatterbox pertenece a una familia de modelos de voz de código abierto con licencia MIT, pensados para desarrolladores y creadores. Sus características técnicas son:

  • Control emocional único – es el primer modelo libre que permite amplificar o reducir la expresividad con un parámetro, pasando de un tono neutro a uno dramático.
  • Síntesis en tiempo real – puede generar audio a una velocidad superior al tiempo real, lo que lo hace apto para asistentes virtuales y aplicaciones interactivas.
  • Clonación de voz en cero disparos – con solo unos segundos de referencia, genera una copia convincente de cualquier voz sin necesidad de entrenamiento adicional.
  • Marcado y seguridad – incorpora un marcador digital (PerTh) que inserta una marca de agua imperceptible para identificar los audios generados y combatir el uso malicioso.
  • Multilingüe – el modelo soporta más de 23 idiomas, incluidos español, inglés, francés, alemán, portugués y chino. El artículo de presentación publicado en septiembre de 2025 cuenta que la comunidad descargó Chatterbox más de un millón de veces en Hugging Face y alcanzó más de 11 000 estrellas en GitHub pocas semanas después de su lanzamiento. En pruebas a ciegas, el 63,75 % de los evaluadores prefirió Chatterbox frente a ElevenLabs.

En combinación con Chatterbox Multilingual, es posible generar audio en múltiples lenguas sin renunciar a la expresividad ni a la clonación cero‑shot. El proyecto se distribuye como un paquete de Python y dispone de documentación detallada, lo que facilita su integración en proyectos de narrativa digital o asistentes conversacionales.

Cómo funciona la clonación de voz

Aunque el resultado pueda parecer mágico, la clonación de voz se basa en principios bien definidos de aprendizaje automático:

  1. Recopilación de datos. Es necesario grabar audio claro y consistente del hablante; cuanta más calidad y duración, mejor.
  2. Preprocesamiento del audio. El ruido de fondo se elimina, se nivela el volumen y se mejora la claridad para ofrecer un “molde” limpio.
  3. Entrenamiento del modelo. Algoritmos de deep learning analizan patrones de habla, entonación y ritmo para crear una representación de la voz que pueda reproducirse con naturalidad.

En el caso de Chatterbox, esta complejidad está encapsulada en una API. Basta con invocar generate() y pasarle un clip de referencia para que el modelo realice internamente la adaptación de timbre y prosodia.

Implicaciones y ética: de la ciencia ficción a la realidad

La capacidad de replicar voces humanas con fidelidad plantea oportunidades y retos. Por un lado, abre la puerta a nuevas formas de contar historias: audiolibros narrados por sus autores, videojuegos con personajes que hablan en tiempo real, asistentes que hablan con acento local… Incluso mi trilogía Máquinas y memorias podría beneficiarse de una narración realizada con mi propia voz clonada, acercando aún más la experiencia de lectura a los lectores.

Pero también hay riesgos. Las voces son datos biométricos y clonar una voz sin permiso vulnera la privacidad y la propiedad intelectual. Los expertos señalan que es imprescindible obtener el consentimiento de la persona antes de utilizar su voz y dejar claro si el resultado es sintético. La tecnología facilita la suplantación de identidad y el fraude telefónico: los estafadores podrían imitar a familiares o figuras públicas para engañar a sus víctimas.

Para mitigar estos peligros, es fundamental que los desarrolladores integren marcadores digitales y sistemas de detección de deepfakes como los que incorpora Chatterbox.

En mis novelas, las máquinas son capaces de recrear recuerdos y discursos humanos. La clonación de voz lleva esa ficción a nuestro mundo: las voces se convierten en datos, susceptibles de ser preservados, recreados o manipulados. Este paralelismo plantea preguntas centrales en la saga: ¿hasta qué punto somos nuestra voz y nuestros recuerdos? ¿Puede una inteligencia artificial apropiarse de nuestra identidad? Al experimentar con Chatterbox, estas cuestiones dejan de ser hipotéticas y se convierten en decisiones éticas que los tecnólogos debemos afrontar.

Un futuro con voces sintéticas responsables

El éxito de modelos como Chatterbox demuestra que la síntesis de voz de alta calidad ya no está reservada a grandes empresas. Su licencia abierta y su compatibilidad con hardware asequible permiten que escritores, desarrolladores independientes y educadores exploren nuevas vías creativas sin grandes inversiones económicas. Sin embargo, todo avance conlleva responsabilidad. Para que la clonación de voz sea una herramienta liberadora y no un arma, debemos:

  • Solicitar permisos antes de clonar cualquier voz y respetar el derecho a revocarlos.
  • Informar al público cuando un audio es generado por IA, aprovechando las marcas de agua como la PerTh de Chatterbox.
  • Educar sobre los usos legítimos y los riesgos de las voces sintéticas.
  • Apoyar legislación y códigos de ética que protejan a los propietarios de las voces y penalicen el uso fraudulento.

Explorar la clonación de voz con propósito creativo abre puertas emocionantes, especialmente para quienes escribimos sobre inteligencias artificiales. En Máquinas y memorias siempre se ha planteado el dilema de cómo las máquinas pueden recordar, sentir y, ahora, hablar. Integrar esta tecnología en nuestra narrativa no solo enriquece la experiencia, sino que nos obliga a reflexionar sobre el impacto de nuestras creaciones.