innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/ETL / pipelines de datos

Analítica

ETL / pipelines de datos

ETL (Extract-Transform-Load) y su variante moderna ELT (Extract-Load-Transform) son los patrones canónicos para mover datos desde sistemas de origen hacia un destino analítico y dejarlos en formato apto para consulta. La diferencia está en dónde ocurre la transformación: antes de cargar (ETL) o dentro del propio almacén (ELT).

Qué es

Un pipeline de datos es el flujo que traslada datos entre sistemas. ETL y ELT son dos patrones concretos de ese flujo. En ETL clásico, los datos se extraen del origen (bases operativas OLTP, APIs, ficheros, eventos), se transforman en un motor intermedio y luego se cargan en el destino: la transformación ocurre antes de la carga. En ELT se cargan primero los datos crudos en el almacén (data warehouse o lakehouse) y la transformación se ejecuta dentro de él, aprovechando su capacidad de cómputo. ELT es el patrón dominante hoy con almacenes escalables y herramientas como dbt.

Kleppmann, en Designing Data-Intensive Applications, describe el ETL como el proceso de extraer datos de los sistemas OLTP —por volcado periódico o stream continuo—, transformarlos a un esquema analítico, limpiarlos y cargarlos en el data warehouse; tradicionalmente un proceso batch. OLTP y almacén analítico se optimizan para patrones de consulta muy distintos, de ahí la necesidad del traslado.

Un pipeline gobernado no se reduce a mover datos. Requiere tres propiedades: orquestación (programar, secuenciar, reintentar y coordinar los pasos), idempotencia (que reejecutar un job produzca el mismo resultado) y trazabilidad (linaje de datos, logs, latencia, tasas de éxito y fallo). Esa combinación es lo que convierte un flujo frágil en la base de un sistema de datos fiable y auditable. Los pipelines modernos combinan batch, micro-batch y streaming según la latencia que se necesite.

ETL
Mover y transformar datos, de forma trazable
E
Extract
Leer de las fuentes.
T
Transform
Limpiar y normalizar.
L
Load
Cargar en destino.

Por qué importa

De dónde salen los datos y cómo llegan al almacén determina si una analítica es fiable o no. El extremo de extracción suele resolverse con Web scraping y connectors, que normalizan fuentes heterogéneas antes de cargarlas; el destino habitual es un Data warehouse (BigQuery), optimizado para consulta analítica y donde ELT ejecuta la transformación. Un pipeline sin idempotencia duplica métricas al reintentar; uno sin linaje no permite saber de dónde viene un número ni auditar un fallo. La distinción ETL/ELT no es académica: marca dónde se gasta el cómputo y qué herramientas encajan. Ninguna de estas propiedades garantiza por sí sola datos correctos —la Limpieza y calidad de datos y el Modelado de datos, que dan forma y consistencia al esquema analítico, son fases vecinas—, pero sin orquestación, idempotencia y trazabilidad un sistema de datos no es recuperable ni auditable ante fallos. Aguas abajo, estos datos alimentan informes y modelos: desde la analítica de producto que recibe Google Analytics 4 (GA4) hasta las Series temporales que sostienen el seguimiento de métricas a lo largo del tiempo.

En profundidad

ETL frente a ELT: cuándo aplica cada patrón

ETL transforma en un motor intermedio antes de cargar; ELT carga crudo y transforma dentro del almacén. ETL encaja con fuentes legacy de formato fijo, filtrado en el edge (IoT) o experimentación. ELT encaja con analítica general a escala, datos estructurados, semiestructurados y no estructurados, y escenarios near-real-time; en ese caso el destino suele ser un Data warehouse (BigQuery), donde la transformación se ejecuta con su propio cómputo. El criterio no es de moda: depende de dónde conviene gastar el cómputo y de la naturaleza de la fuente.

CriterioETLELT
Dónde transformaMotor intermedio antes de cargarDentro del almacén, tras cargar crudo
Fuente que encajaLegacy de formato fijo, IoT/edge, experimentaciónEstructurada, semi/no estructurada a escala
Frescura típicaCargas periódicas / filtrado en el edgeAnalítica general y near-real-time
Dónde gastas cómputoFuera del almacén (motor previo)En el almacén (potencia elástica)

Orquestación, idempotencia y linaje: qué hace fiable a un pipeline

Tres propiedades separan un flujo frágil de un sistema de datos fiable. Orquestación: programar, secuenciar, reintentar y coordinar los pasos —terreno que también cubren herramientas de Automatización con n8n cuando los pasos cruzan SaaS y APIs. Idempotencia: que un reintento no altere el resultado, lograda con MERGE/upsert y particionamiento. Linaje y observabilidad: trazar la procedencia de cada dato y medir latencia y fallos, con estándares como OpenLineage. Juntas hacen el sistema auditable y recuperable, y son la base sobre la que después actúan la Limpieza y calidad de datos y el Modelado de datos.

OrquestaciónPrograma, secuencia, reintenta y coordina los pasos del flujo
IdempotenciaUn reintento no altera el resultado: MERGE/upsert y particionamiento
LinajeTraza la procedencia de cada dato; estándares como OpenLineage
ObservabilidadMide latencia y fallos; hace el sistema auditable y recuperable

Roles del stack: orquestador, motor y extractor no compiten

dbt y Airflow no son alternativas: dbt cubre la transformación (modelado, tests, documentación, linaje) y Airflow la orquestación (scheduling, reintentos, notificaciones). El orquestador coordina; el trabajo pesado lo hacen motores especializados. La extracción la resuelven herramientas como Airbyte, Fivetran o dlt, en la misma línea que el Web scraping y connectors que tira de APIs y fuentes externas. Asignar cada función a su herramienta evita usar el orquestador como motor de cómputo.

RolHerramientaDe qué se ocupa
ExtracciónAirbyte, Fivetran, dltLlevar el dato crudo de la fuente al destino
OrquestaciónAirflowScheduling, secuencia, reintentos, notificaciones
TransformacióndbtModelado, tests, documentación y linaje
Cómputo pesadoMotor especializadoLo ejecuta el motor, no el orquestador

Batch, micro-batch y streaming según la latencia

El ETL tradicional es batch: volcados periódicos. Cuando la latencia importa, el pipeline se acerca al stream continuo, con micro-batch como punto intermedio. Los pipelines modernos combinan los tres modos según el dato y la frescura requerida; esa frescura es la que después permite que las Series temporales reflejen el estado real del negocio sin retraso engañoso. La elección de modo es una decisión de latencia, no un detalle de implementación.

Batch
Volcados periódicos
ETL tradicional: el dato se procesa en tandas programadas
Micro-batch
Punto intermedio
Tandas pequeñas y frecuentes cuando la latencia empieza a importar
Streaming
Stream continuo
Procesamiento al vuelo cuando la frescura es crítica
Mix
Combinación
El pipeline elige modo por dato y frescura: decisión de latencia

Qué observar

Las señales que importan.

La transformación ocurre antes o después de la carga

Si los datos se transforman en un motor intermedio antes de llegar al destino, es ETL; si se cargan crudos y se transforman dentro del almacén, es ELT. Saber dónde ocurre la transformación indica dónde se gasta el cómputo y qué herramientas encajan en cada fase.

Los jobs son idempotentes

Reejecutar un paso debe producir el mismo resultado. El uso de MERGE/upsert en lugar de inserts ciegos evita duplicar métricas, y el particionamiento por fecha, tenant o shard permite reintentos seguros. Su ausencia es la causa habitual de cifras infladas tras un reintento.

Existe linaje y observabilidad

Un pipeline gobernado registra de dónde viene cada dato, cómo se transformó, la latencia y las tasas de éxito y fallo. Estándares como OpenLineage capturan esa procedencia. Sin linaje, un número anómalo no se puede rastrear hasta su origen.

Los roles del stack están separados

El orquestador coordina los pasos (p. ej. Airflow), el motor de transformación modela y prueba (p. ej. dbt) y el extractor mueve los datos del origen (p. ej. Airbyte, Fivetran, dlt). Confundir orquestación con ejecución carga el trabajo pesado en la herramienta equivocada.

Se distingue pipeline de ETL/ELT

Pipeline de datos es el término general del flujo; ETL y ELT son patrones concretos de ese flujo. Tratarlos como sinónimos oculta que un pipeline puede combinar batch, micro-batch y streaming según la latencia requerida.

Conceptos clave

El vocabulario del término.

ETL (Extract-Transform-Load)
Patrón que extrae datos del origen, los transforma en un motor intermedio y luego los carga en el destino analítico. La transformación ocurre antes de la carga; tradicionalmente un proceso batch.
ELT (Extract-Load-Transform)
Variante que carga primero los datos crudos en el almacén (data warehouse o lakehouse) y los transforma dentro de él usando su cómputo. Patrón dominante con almacenes escalables y herramientas como dbt.
Data pipeline
Término general para el flujo de datos entre sistemas. ETL y ELT son patrones concretos de pipeline; uno moderno puede combinar batch, micro-batch y streaming.
OLTP
Sistemas de procesamiento transaccional (bases operativas). Se optimizan para escrituras y consultas puntuales, con patrones muy distintos a los de un almacén analítico, de ahí la necesidad de trasladar los datos.
Idempotencia
Propiedad por la que reejecutar un job produce el mismo resultado. Se logra con lógica MERGE/upsert en lugar de inserts ciegos y particionando por fecha, tenant o shard para reintentos seguros.
Linaje de datos (data lineage)
Registro de la procedencia de cada dato y de cómo se transformó a lo largo del pipeline. Base de la trazabilidad y la auditoría; OpenLineage es un estándar para capturar esos metadatos.
Orquestación
Coordinación del pipeline: programar, secuenciar, reintentar y enlazar los pasos. La realiza un orquestador como Airflow, que coordina sin ejecutar el trabajo pesado de transformación.
Casos de uso · ETL / pipelines de datos[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.