Qué es
STT y TTS son las dos caras de la conversión entre audio y texto mediante IA. STT pasa voz a texto apoyándose en el reconocimiento automático del habla (ASR), el motor probabilístico que estima qué palabras corresponden a una señal de audio; STT es el producto que envuelve ese motor y añade puntuación, formato, marcas de tiempo y, a veces, diarización (separar quién habla). TTS hace el camino inverso: redes neuronales entrenadas con pares texto-audio predicen la forma de onda a partir de fonemas y prosodia.
El referente abierto de STT es Whisper, de OpenAI: un Transformer encoder-decoder entrenado con 680.000 horas de audio en unos 98 idiomas. En una sola pasada transcribe, traduce a inglés, identifica el idioma y detecta presencia de voz. Se distribuye en seis tamaños, de 39 a 1.550 millones de parámetros, más una variante turbo. La calidad se mide con el WER (Word Error Rate): Whisper large-v2 ronda el 3 % en inglés limpio (LibriSpeech), pero sube a dos dígitos en idiomas complejos o en audio de call center.
En TTS, los modelos neuronales actuales permiten clonación de voz con pocos segundos de referencia, control de tono y emoción y latencias bajas para tiempo real. El panorama mezcla servicios de nube (ElevenLabs, gpt-4o-mini-tts de OpenAI) y opciones abiertas que corren en local (Qwen-TTS, GLM-TTS, Microsoft VibeVoice, Piper).
| Tecnología | Convierte |
|---|---|
| STT | Audio → texto (transcripción) |
| TTS | Texto → voz (síntesis) |
Por qué importa
La IA del habla abre la puerta a tratar el audio como una fuente de conocimiento más: transcribir podcasts, vídeos y reuniones para analizarlos, y generar voz para resúmenes. El texto resultante es lo que alimenta un pipeline de RAG (Retrieval-Augmented Generation): se trocea, se convierte en embeddings y se vuelve recuperable en una base de datos vectorial, de modo que el audio deja de ser un silo opaco y pasa a ser consultable. El WER recuerda que la transcripción no es perfecta: la precisión cae con ruido, acentos o jerga, y conviene medirla en las condiciones reales de uso, no fiarse de los benchmarks en inglés limpio; esa medición en dominio enlaza con la limpieza y calidad de datos, porque una transcripción sucia contamina todo lo que se construya encima. La elección entre local y nube no es trivial: lo local da privacidad y cero coste por API a cambio de gestionar infraestructura; la nube da velocidad y modelos mayores a cambio de enviar el audio fuera, una decisión análoga al clásico build vs buy en software a medida (build vs buy). Funciones como marcas de tiempo por palabra, diarización o subtitulado conectan además con la accesibilidad web (WCAG), donde los subtítulos son un requisito y no un extra.
En profundidad
ASR vs STT: dónde acaba el motor y empieza el producto
El reconocimiento automático del habla (ASR) es el componente que, dada una señal de audio, estima la secuencia de palabras más probable. Es un proceso estadístico: devuelve texto crudo, sin puntuación ni estructura. STT (speech-to-text) es el producto construido sobre ese motor: añade puntuación, mayúsculas, formato, marcas de tiempo y, en escenarios multi-orador, diarización para etiquetar quién dice qué. Entender la frontera ayuda a fijar expectativas: la calidad bruta depende del ASR, pero la utilidad práctica (un acta legible, subtítulos alineados) depende de la capa de producto. Esa capa suele exponerse como una API REST que el resto del sistema consume sin saber qué motor hay debajo.
Whisper y la familia de modelos abiertos de STT
Whisper es un Transformer encoder-decoder entrenado con 680.000 horas de audio en unos 98 idiomas, con seis tamaños de 39M a 1.550M de parámetros más una variante turbo. Su carácter multitarea (transcribe, traduce a inglés, identifica idioma, detecta voz) y su licencia abierta lo han convertido en referencia. Derivados como faster-whisper optimizan la inferencia para correr más rápido en local; es la pieza que usa la capa cognitive del ecosistema para la ingesta de audio, el primer paso de un ETL / pipelines de datos que transcribe podcasts y vídeos antes de indexarlos para búsqueda semántica.
| Aspecto | Whisper | faster-whisper |
|---|---|---|
| Arquitectura | Transformer encoder-decoder | Reimplementación optimizada |
| Tarea | Multitarea: transcribe, traduce a inglés, detecta idioma y voz | Misma capacidad, foco en inferencia |
| Ventaja | Referencia abierta, multilingüe | Corre más rápido en local |
| Uso en ecosistema | Modelo base de referencia | Pieza de ingesta de audio de la capa cognitive |
WER y cómo se mide la calidad de la transcripción
El Word Error Rate (WER) compara la transcripción con una referencia humana y suma sustituciones, inserciones y eliminaciones de palabras, divididas por el total. Un WER cercano al 3 % indica transcripción casi limpia; valores de dos dígitos implican errores frecuentes. La cifra varía mucho según el material: inglés limpio de laboratorio frente a idiomas complejos como el finlandés o audio de call center con ruido y solapamientos. Por eso conviene medir el WER en el dominio concreto de uso, no extrapolar benchmarks ajenos: es la misma disciplina de limpieza y calidad de datos aplicada al audio, porque el error de transcripción se propaga a cualquier análisis posterior.
TTS neuronal: clonación de voz, prosodia y baja latencia
El TTS neuronal genera la forma de onda directamente desde fonemas y prosodia, usando redes entrenadas con pares texto-audio. De ahí salen tres capacidades: clonación de voz a partir de 3 a 10 segundos de referencia, control de tono y emoción, y latencia suficientemente baja para conversación en tiempo real. Esa baja latencia es lo que hace viable la voz en un chatbot / asistente conversacional, cerrando el bucle hablado: el usuario habla (STT), el LLM (modelo de lenguaje grande) responde y el TTS lo verbaliza. El mercado combina nube (ElevenLabs, gpt-4o-mini-tts) y open-source ejecutable en local (Qwen-TTS, GLM-TTS, VibeVoice, Piper), lo que permite elegir entre comodidad de API y control sobre el dato.
| Capacidad | En qué consiste | Para qué sirve |
|---|---|---|
| Clonación de voz | Réplica desde una referencia corta | Voz personalizada |
| Prosodia | Control de tono y emoción | Habla expresiva, no plana |
| Baja latencia | Generación de onda casi inmediata | Conversación en tiempo real |
| Despliegue | Nube (API) vs open-source local | Elegir entre comodidad y control del dato |
Qué observar
Las señales que importan.
ASR no es lo mismo que STT
ASR es el motor probabilístico que convierte audio en texto crudo; STT es el producto que lo envuelve y añade puntuación, formato, marcas de tiempo y diarización. Distinguirlos evita esperar de un motor lo que solo aporta la capa de producto.
El WER mide la calidad de la transcripción
El Word Error Rate cuenta los errores de palabra frente a una referencia. Es bajo en inglés limpio y sube en idiomas complejos o audio de call center, así que un mismo modelo rinde muy distinto según el material.
Whisper es un modelo multitarea
En una sola pasada transcribe, traduce a inglés, identifica el idioma y detecta voz. Sus seis tamaños permiten cambiar precisión por velocidad según el hardware disponible.
La clonación de voz necesita pocos segundos
Los modelos TTS neuronales reproducen una voz a partir de 3 a 10 segundos de referencia y permiten ajustar tono y emoción. Esto facilita usos legítimos y, a la vez, plantea cuestiones de consentimiento.
Local y nube resuelven cosas distintas
El despliegue local da privacidad del audio y cero coste por API; la nube ofrece más velocidad y modelos mayores. La decisión depende de la sensibilidad del dato y del volumen.
Conceptos clave
El vocabulario del término.
- ASR (reconocimiento automático del habla)
- Motor probabilístico que, dada una señal de audio, estima la secuencia de palabras más probable. Devuelve texto crudo y es el núcleo sobre el que se construye el STT.
- STT (speech-to-text)
- Producto que envuelve un motor ASR y añade puntuación, formato, marcas de tiempo y a veces diarización para entregar texto utilizable.
- TTS (text-to-speech)
- Tecnología que genera voz sintética a partir de texto, prediciendo la forma de onda desde fonemas y prosodia.
- WER (Word Error Rate)
- Métrica de calidad de la transcripción: proporción de palabras erróneas (sustituciones, inserciones y eliminaciones) respecto a una referencia. Más bajo es mejor.
- Whisper
- Modelo abierto de STT de OpenAI, un Transformer encoder-decoder multitarea entrenado con 680.000 horas de audio en unos 98 idiomas, disponible en seis tamaños más una variante turbo.
- Diarización
- Proceso que segmenta el audio por hablante para etiquetar quién dice cada cosa, útil en reuniones y audio multi-orador.
- Clonación de voz
- Generación de una voz sintética que imita a un hablante concreto a partir de una muestra breve de referencia, típicamente de 3 a 10 segundos.
- Prosodia
- Conjunto de rasgos del habla (entonación, ritmo, acento y pausas) que el TTS neuronal modela para que la voz suene natural.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Fuentes
- openai/whisper — Robust Speech Recognition via Large-Scale Weak Supervision · 2026
- How Whisper AI Works: A Complete Guide · 2026
- Whisper: An MLPerf Inference Benchmark for ASR · 2025-09
- Speech to text — guía oficial de la API · 2026
- Automatic Speech Recognition vs Speech-to-Text: Key Differences and Use Cases · 2026
- Text to Speech — ElevenLabs Documentation · 2025
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.