innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Transcripción (STT) y voz (TTS)

IA

Transcripción (STT) y voz (TTS)

STT (speech-to-text) convierte voz en texto y TTS (text-to-speech) genera voz sintética a partir de texto: dos procesos inversos y complementarios de la IA del habla.

Qué es

STT y TTS son las dos caras de la conversión entre audio y texto mediante IA. STT pasa voz a texto apoyándose en el reconocimiento automático del habla (ASR), el motor probabilístico que estima qué palabras corresponden a una señal de audio; STT es el producto que envuelve ese motor y añade puntuación, formato, marcas de tiempo y, a veces, diarización (separar quién habla). TTS hace el camino inverso: redes neuronales entrenadas con pares texto-audio predicen la forma de onda a partir de fonemas y prosodia.

El referente abierto de STT es Whisper, de OpenAI: un Transformer encoder-decoder entrenado con 680.000 horas de audio en unos 98 idiomas. En una sola pasada transcribe, traduce a inglés, identifica el idioma y detecta presencia de voz. Se distribuye en seis tamaños, de 39 a 1.550 millones de parámetros, más una variante turbo. La calidad se mide con el WER (Word Error Rate): Whisper large-v2 ronda el 3 % en inglés limpio (LibriSpeech), pero sube a dos dígitos en idiomas complejos o en audio de call center.

En TTS, los modelos neuronales actuales permiten clonación de voz con pocos segundos de referencia, control de tono y emoción y latencias bajas para tiempo real. El panorama mezcla servicios de nube (ElevenLabs, gpt-4o-mini-tts de OpenAI) y opciones abiertas que corren en local (Qwen-TTS, GLM-TTS, Microsoft VibeVoice, Piper).

Voz ↔ texto
Dos tecnologías complementarias
TecnologíaConvierte
STTAudio → texto (transcripción)
TTSTexto → voz (síntesis)

Por qué importa

La IA del habla abre la puerta a tratar el audio como una fuente de conocimiento más: transcribir podcasts, vídeos y reuniones para analizarlos, y generar voz para resúmenes. El texto resultante es lo que alimenta un pipeline de RAG (Retrieval-Augmented Generation): se trocea, se convierte en embeddings y se vuelve recuperable en una base de datos vectorial, de modo que el audio deja de ser un silo opaco y pasa a ser consultable. El WER recuerda que la transcripción no es perfecta: la precisión cae con ruido, acentos o jerga, y conviene medirla en las condiciones reales de uso, no fiarse de los benchmarks en inglés limpio; esa medición en dominio enlaza con la limpieza y calidad de datos, porque una transcripción sucia contamina todo lo que se construya encima. La elección entre local y nube no es trivial: lo local da privacidad y cero coste por API a cambio de gestionar infraestructura; la nube da velocidad y modelos mayores a cambio de enviar el audio fuera, una decisión análoga al clásico build vs buy en software a medida (build vs buy). Funciones como marcas de tiempo por palabra, diarización o subtitulado conectan además con la accesibilidad web (WCAG), donde los subtítulos son un requisito y no un extra.

En profundidad

ASR vs STT: dónde acaba el motor y empieza el producto

El reconocimiento automático del habla (ASR) es el componente que, dada una señal de audio, estima la secuencia de palabras más probable. Es un proceso estadístico: devuelve texto crudo, sin puntuación ni estructura. STT (speech-to-text) es el producto construido sobre ese motor: añade puntuación, mayúsculas, formato, marcas de tiempo y, en escenarios multi-orador, diarización para etiquetar quién dice qué. Entender la frontera ayuda a fijar expectativas: la calidad bruta depende del ASR, pero la utilidad práctica (un acta legible, subtítulos alineados) depende de la capa de producto. Esa capa suele exponerse como una API REST que el resto del sistema consume sin saber qué motor hay debajo.

Audio
Señal de entrada
Onda de audio capturada
ASR
Motor estadístico
Estima la secuencia de palabras más probable: texto crudo, sin puntuar
Producto
Capa STT
Puntuación, mayúsculas, formato, marcas de tiempo y diarización
Salida
Texto útil
Acta legible o subtítulos alineados

Whisper y la familia de modelos abiertos de STT

Whisper es un Transformer encoder-decoder entrenado con 680.000 horas de audio en unos 98 idiomas, con seis tamaños de 39M a 1.550M de parámetros más una variante turbo. Su carácter multitarea (transcribe, traduce a inglés, identifica idioma, detecta voz) y su licencia abierta lo han convertido en referencia. Derivados como faster-whisper optimizan la inferencia para correr más rápido en local; es la pieza que usa la capa cognitive del ecosistema para la ingesta de audio, el primer paso de un ETL / pipelines de datos que transcribe podcasts y vídeos antes de indexarlos para búsqueda semántica.

AspectoWhisperfaster-whisper
ArquitecturaTransformer encoder-decoderReimplementación optimizada
TareaMultitarea: transcribe, traduce a inglés, detecta idioma y vozMisma capacidad, foco en inferencia
VentajaReferencia abierta, multilingüeCorre más rápido en local
Uso en ecosistemaModelo base de referenciaPieza de ingesta de audio de la capa cognitive

WER y cómo se mide la calidad de la transcripción

El Word Error Rate (WER) compara la transcripción con una referencia humana y suma sustituciones, inserciones y eliminaciones de palabras, divididas por el total. Un WER cercano al 3 % indica transcripción casi limpia; valores de dos dígitos implican errores frecuentes. La cifra varía mucho según el material: inglés limpio de laboratorio frente a idiomas complejos como el finlandés o audio de call center con ruido y solapamientos. Por eso conviene medir el WER en el dominio concreto de uso, no extrapolar benchmarks ajenos: es la misma disciplina de limpieza y calidad de datos aplicada al audio, porque el error de transcripción se propaga a cualquier análisis posterior.

Mide sustituciones, inserciones y eliminacionesWER = errores de palabra / total de la referencia humana
Medir en tu dominio concretoRuido, solapamientos e idioma cambian mucho el resultado
Extrapolar benchmarks ajenosInglés limpio de laboratorio no predice tu call center
Asumir que un WER bajo es universalIdiomas complejos elevan el error frente al mismo motor

TTS neuronal: clonación de voz, prosodia y baja latencia

El TTS neuronal genera la forma de onda directamente desde fonemas y prosodia, usando redes entrenadas con pares texto-audio. De ahí salen tres capacidades: clonación de voz a partir de 3 a 10 segundos de referencia, control de tono y emoción, y latencia suficientemente baja para conversación en tiempo real. Esa baja latencia es lo que hace viable la voz en un chatbot / asistente conversacional, cerrando el bucle hablado: el usuario habla (STT), el LLM (modelo de lenguaje grande) responde y el TTS lo verbaliza. El mercado combina nube (ElevenLabs, gpt-4o-mini-tts) y open-source ejecutable en local (Qwen-TTS, GLM-TTS, VibeVoice, Piper), lo que permite elegir entre comodidad de API y control sobre el dato.

CapacidadEn qué consistePara qué sirve
Clonación de vozRéplica desde una referencia cortaVoz personalizada
ProsodiaControl de tono y emociónHabla expresiva, no plana
Baja latenciaGeneración de onda casi inmediataConversación en tiempo real
DespliegueNube (API) vs open-source localElegir entre comodidad y control del dato

Qué observar

Las señales que importan.

ASR no es lo mismo que STT

ASR es el motor probabilístico que convierte audio en texto crudo; STT es el producto que lo envuelve y añade puntuación, formato, marcas de tiempo y diarización. Distinguirlos evita esperar de un motor lo que solo aporta la capa de producto.

El WER mide la calidad de la transcripción

El Word Error Rate cuenta los errores de palabra frente a una referencia. Es bajo en inglés limpio y sube en idiomas complejos o audio de call center, así que un mismo modelo rinde muy distinto según el material.

Whisper es un modelo multitarea

En una sola pasada transcribe, traduce a inglés, identifica el idioma y detecta voz. Sus seis tamaños permiten cambiar precisión por velocidad según el hardware disponible.

La clonación de voz necesita pocos segundos

Los modelos TTS neuronales reproducen una voz a partir de 3 a 10 segundos de referencia y permiten ajustar tono y emoción. Esto facilita usos legítimos y, a la vez, plantea cuestiones de consentimiento.

Local y nube resuelven cosas distintas

El despliegue local da privacidad del audio y cero coste por API; la nube ofrece más velocidad y modelos mayores. La decisión depende de la sensibilidad del dato y del volumen.

Conceptos clave

El vocabulario del término.

ASR (reconocimiento automático del habla)
Motor probabilístico que, dada una señal de audio, estima la secuencia de palabras más probable. Devuelve texto crudo y es el núcleo sobre el que se construye el STT.
STT (speech-to-text)
Producto que envuelve un motor ASR y añade puntuación, formato, marcas de tiempo y a veces diarización para entregar texto utilizable.
TTS (text-to-speech)
Tecnología que genera voz sintética a partir de texto, prediciendo la forma de onda desde fonemas y prosodia.
WER (Word Error Rate)
Métrica de calidad de la transcripción: proporción de palabras erróneas (sustituciones, inserciones y eliminaciones) respecto a una referencia. Más bajo es mejor.
Whisper
Modelo abierto de STT de OpenAI, un Transformer encoder-decoder multitarea entrenado con 680.000 horas de audio en unos 98 idiomas, disponible en seis tamaños más una variante turbo.
Diarización
Proceso que segmenta el audio por hablante para etiquetar quién dice cada cosa, útil en reuniones y audio multi-orador.
Clonación de voz
Generación de una voz sintética que imita a un hablante concreto a partir de una muestra breve de referencia, típicamente de 3 a 10 segundos.
Prosodia
Conjunto de rasgos del habla (entonación, ritmo, acento y pausas) que el TTS neuronal modela para que la voz suene natural.

Dónde lo aplicamos

Casos de uso · Transcripción (STT) y voz (TTS)[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.