Inicio/Glosario/Transcripción (STT) y voz (TTS)

Transcripción (STT) y voz (TTS)

STT (speech-to-text) convierte voz en texto y TTS (text-to-speech) genera voz sintética a partir de texto: dos procesos inversos y complementarios de la IA del habla.

Automatización & agentes

Qué es

STT y TTS son las dos caras de la conversión entre audio y texto mediante IA. STT pasa voz a texto apoyándose en el reconocimiento automático del habla (ASR), el motor probabilístico que estima qué palabras corresponden a una señal de audio; STT es el producto que envuelve ese motor y añade puntuación, formato, marcas de tiempo y, a veces, diarización (separar quién habla). TTS hace el camino inverso: redes neuronales entrenadas con pares texto-audio predicen la forma de onda a partir de fonemas y prosodia.

El referente abierto de STT es Whisper, de OpenAI: un Transformer encoder-decoder entrenado con 680.000 horas de audio en unos 98 idiomas. En una sola pasada transcribe, traduce a inglés, identifica el idioma y detecta presencia de voz. Se distribuye en seis tamaños, de 39 a 1.550 millones de parámetros, más una variante turbo. La calidad se mide con el WER (Word Error Rate): Whisper large-v2 ronda el 3 % en inglés limpio (LibriSpeech), pero sube a dos dígitos en idiomas complejos o en audio de call center.

En TTS, los modelos neuronales actuales permiten clonación de voz con pocos segundos de referencia, control de tono y emoción y latencias bajas para tiempo real. El panorama mezcla servicios de nube (ElevenLabs, gpt-4o-mini-tts de OpenAI) y opciones abiertas que corren en local (Qwen-TTS, GLM-TTS, Microsoft VibeVoice, Piper).

Voz ↔ texto

Dos tecnologías complementarias

Tecnología	Convierte
STT	Audio → texto (transcripción)
TTS	Texto → voz (síntesis)

Por qué importa

La IA del habla abre la puerta a tratar el audio como una fuente de conocimiento más: transcribir podcasts, vídeos y reuniones para analizarlos, y generar voz para resúmenes. El texto resultante es lo que alimenta un pipeline de RAG (Retrieval-Augmented Generation): se trocea, se convierte en embeddings y se vuelve recuperable en una base de datos vectorial, de modo que el audio deja de ser un silo opaco y pasa a ser consultable. El WER recuerda que la transcripción no es perfecta: la precisión cae con ruido, acentos o jerga, y conviene medirla en las condiciones reales de uso, no fiarse de los benchmarks en inglés limpio; esa medición en dominio enlaza con la limpieza y calidad de datos, porque una transcripción sucia contamina todo lo que se construya encima. La elección entre local y nube no es trivial: lo local da privacidad y cero coste por API a cambio de gestionar infraestructura; la nube da velocidad y modelos mayores a cambio de enviar el audio fuera, una decisión análoga al clásico build vs buy en software a medida (build vs buy). Funciones como marcas de tiempo por palabra, diarización o subtitulado conectan además con la accesibilidad web (WCAG), donde los subtítulos son un requisito y no un extra.

En profundidad

ASR vs STT: dónde acaba el motor y empieza el producto

El reconocimiento automático del habla (ASR) es el componente que, dada una señal de audio, estima la secuencia de palabras más probable. Es un proceso estadístico: devuelve texto crudo, sin puntuación ni estructura. STT (speech-to-text) es el producto construido sobre ese motor: añade puntuación, mayúsculas, formato, marcas de tiempo y, en escenarios multi-orador, diarización para etiquetar quién dice qué. Entender la frontera ayuda a fijar expectativas: la calidad bruta depende del ASR, pero la utilidad práctica (un acta legible, subtítulos alineados) depende de la capa de producto. Esa capa suele exponerse como una API REST que el resto del sistema consume sin saber qué motor hay debajo.

Audio

Señal de entrada

Onda de audio capturada

→

ASR

Motor estadístico

Estima la secuencia de palabras más probable: texto crudo, sin puntuar

→

Producto

Capa STT

Puntuación, mayúsculas, formato, marcas de tiempo y diarización

→

Salida

Texto útil

Acta legible o subtítulos alineados

Whisper y la familia de modelos abiertos de STT

Whisper es un Transformer encoder-decoder entrenado con 680.000 horas de audio en unos 98 idiomas, con seis tamaños de 39M a 1.550M de parámetros más una variante turbo. Su carácter multitarea (transcribe, traduce a inglés, identifica idioma, detecta voz) y su licencia abierta lo han convertido en referencia. Derivados como faster-whisper optimizan la inferencia para correr más rápido en local; es la pieza que usa la capa cognitive del ecosistema para la ingesta de audio, el primer paso de un ETL / pipelines de datos que transcribe podcasts y vídeos antes de indexarlos para búsqueda semántica.

Aspecto	Whisper	faster-whisper
Arquitectura	Transformer encoder-decoder	Reimplementación optimizada
Tarea	Multitarea: transcribe, traduce a inglés, detecta idioma y voz	Misma capacidad, foco en inferencia
Ventaja	Referencia abierta, multilingüe	Corre más rápido en local
Uso en ecosistema	Modelo base de referencia	Pieza de ingesta de audio de la capa cognitive

WER y cómo se mide la calidad de la transcripción

El Word Error Rate (WER) compara la transcripción con una referencia humana y suma sustituciones, inserciones y eliminaciones de palabras, divididas por el total. Un WER cercano al 3 % indica transcripción casi limpia; valores de dos dígitos implican errores frecuentes. La cifra varía mucho según el material: inglés limpio de laboratorio frente a idiomas complejos como el finlandés o audio de call center con ruido y solapamientos. Por eso conviene medir el WER en el dominio concreto de uso, no extrapolar benchmarks ajenos: es la misma disciplina de limpieza y calidad de datos aplicada al audio, porque el error de transcripción se propaga a cualquier análisis posterior.

Mide sustituciones, inserciones y eliminacionesWER = errores de palabra / total de la referencia humana

Medir en tu dominio concretoRuido, solapamientos e idioma cambian mucho el resultado

Extrapolar benchmarks ajenosInglés limpio de laboratorio no predice tu call center

Asumir que un WER bajo es universalIdiomas complejos elevan el error frente al mismo motor

TTS neuronal: clonación de voz, prosodia y baja latencia

El TTS neuronal genera la forma de onda directamente desde fonemas y prosodia, usando redes entrenadas con pares texto-audio. De ahí salen tres capacidades: clonación de voz a partir de 3 a 10 segundos de referencia, control de tono y emoción, y latencia suficientemente baja para conversación en tiempo real. Esa baja latencia es lo que hace viable la voz en un chatbot / asistente conversacional, cerrando el bucle hablado: el usuario habla (STT), el LLM (modelo de lenguaje grande) responde y el TTS lo verbaliza. El mercado combina nube (ElevenLabs, gpt-4o-mini-tts) y open-source ejecutable en local (Qwen-TTS, GLM-TTS, VibeVoice, Piper), lo que permite elegir entre comodidad de API y control sobre el dato.

Capacidad	En qué consiste	Para qué sirve
Clonación de voz	Réplica desde una referencia corta	Voz personalizada
Prosodia	Control de tono y emoción	Habla expresiva, no plana
Baja latencia	Generación de onda casi inmediata	Conversación en tiempo real
Despliegue	Nube (API) vs open-source local	Elegir entre comodidad y control del dato

Qué observar

Las señales que importan.

ASR no es lo mismo que STT

ASR es el motor probabilístico que convierte audio en texto crudo; STT es el producto que lo envuelve y añade puntuación, formato, marcas de tiempo y diarización. Distinguirlos evita esperar de un motor lo que solo aporta la capa de producto.

El WER mide la calidad de la transcripción

El Word Error Rate cuenta los errores de palabra frente a una referencia. Es bajo en inglés limpio y sube en idiomas complejos o audio de call center, así que un mismo modelo rinde muy distinto según el material.

Whisper es un modelo multitarea

En una sola pasada transcribe, traduce a inglés, identifica el idioma y detecta voz. Sus seis tamaños permiten cambiar precisión por velocidad según el hardware disponible.

La clonación de voz necesita pocos segundos

Los modelos TTS neuronales reproducen una voz a partir de 3 a 10 segundos de referencia y permiten ajustar tono y emoción. Esto facilita usos legítimos y, a la vez, plantea cuestiones de consentimiento.

Local y nube resuelven cosas distintas

El despliegue local da privacidad del audio y cero coste por API; la nube ofrece más velocidad y modelos mayores. La decisión depende de la sensibilidad del dato y del volumen.

Conceptos clave

El vocabulario del término.

ASR (reconocimiento automático del habla): Motor probabilístico que, dada una señal de audio, estima la secuencia de palabras más probable. Devuelve texto crudo y es el núcleo sobre el que se construye el STT.
STT (speech-to-text): Producto que envuelve un motor ASR y añade puntuación, formato, marcas de tiempo y a veces diarización para entregar texto utilizable.
TTS (text-to-speech): Tecnología que genera voz sintética a partir de texto, prediciendo la forma de onda desde fonemas y prosodia.
WER (Word Error Rate): Métrica de calidad de la transcripción: proporción de palabras erróneas (sustituciones, inserciones y eliminaciones) respecto a una referencia. Más bajo es mejor.
Whisper: Modelo abierto de STT de OpenAI, un Transformer encoder-decoder multitarea entrenado con 680.000 horas de audio en unos 98 idiomas, disponible en seis tamaños más una variante turbo.
Diarización: Proceso que segmenta el audio por hablante para etiquetar quién dice cada cosa, útil en reuniones y audio multi-orador.
Clonación de voz: Generación de una voz sintética que imita a un hablante concreto a partir de una muestra breve de referencia, típicamente de 3 a 10 segundos.
Prosodia: Conjunto de rasgos del habla (entonación, ritmo, acento y pausas) que el TTS neuronal modela para que la voz suene natural.

Dónde lo aplicamos

Ecosistema de modelos IA→

Casos de uso · Transcripción (STT) y voz (TTS)[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Conceptos relacionados

IALLM (modelo de lenguaje grande)→ContenidosVideo SEO (YouTube)→IAEmbeddings→Infraestructura técnicaAccesibilidad web (WCAG)→GEOFrescura de contenido→IAMCP · Model Context Protocol→AnalíticaETL / pipelines de datos→GEORAG (Retrieval-Augmented Generation)→

Fuentes

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.

Explora el glosario → Agenda una llamada