Inicio/Glosario/Análisis exploratorio de datos (EDA)

Analítica

Análisis exploratorio de datos (EDA)

El análisis exploratorio de datos (EDA) es el enfoque que examina un dataset y resume sus características principales antes de modelar o contrastar hipótesis formales, dejando que los datos sugieran qué preguntar. Lo formalizó John Tukey en 1977.

Datos & ingeniería Medición & analítica

Qué es

El análisis exploratorio de datos (Exploratory Data Analysis, EDA) es un enfoque para inspeccionar un conjunto de datos y resumir sus rasgos principales antes de construir modelos o aplicar pruebas estadísticas formales. Lo formalizó el estadístico John Tukey en su libro 'Exploratory Data Analysis' (1977). Su idea central: en lugar de fijar un modelo antes de mirar los datos, se deja que los propios datos sugieran qué preguntar.

Combina dos familias de técnicas. Las numéricas: estadística descriptiva (tendencia central —media, mediana, moda— y dispersión —varianza, desviación estándar—) y el 'resumen de cinco números' de Tukey (mínimo, primer cuartil, mediana, tercer cuartil, máximo), más robusto que la media ante distribuciones sesgadas. Las gráficas: histogramas, box plots, diagramas de dispersión, stem-and-leaf y heatmaps, además de reducción de dimensionalidad como PCA.

Su propósito no es confirmatorio. El EDA busca descubrir estructura subyacente, detectar valores atípicos y anomalías, comprender relaciones entre variables y validar supuestos. Sobre todo, genera hipótesis y preguntas verificables que orientan un siguiente paso: recoger más datos, pasar a un análisis formal o tomar una decisión. Tukey lo describía como trabajo de detective con datos. Es ad-hoc e iterativo; se define más por la actitud que por una receta fija.

Explorar para encontrar

Hallazgos verificables, no decoración

DATASET

Un dataset

→

EXPLORACIÓN

Ad-hoc

Patrones y anomalías.

→

SALIDA

Hallazgo

Siguiente paso claro.

Por qué importa

Saltar directamente al modelado sin explorar arriesga construir sobre supuestos que los datos no sostienen: outliers que distorsionan medias, relaciones inexistentes o variables mal entendidas. El EDA reduce ese riesgo al revelar la forma real de los datos antes de comprometerse con un método. Por eso encaja como paso intermedio entre la fase de ETL / pipelines de datos —que aterriza los datos crudos— y el Modelado de datos, que decide cómo estructurarlos para explotarlos: explorar primero evita modelar sobre una base equivocada.

En la práctica, el EDA depende de la calidad de lo que entra: gran parte de los "hallazgos" tempranos son en realidad problemas de Limpieza y calidad de datos —duplicados, formatos rotos, valores faltantes— que la exploración saca a la luz antes de que contaminen un análisis. Y cuando los datos consolidados viven en un Data warehouse (BigQuery), el EDA suele ser el primer barrido que se hace sobre ellos para entender qué hay realmente antes de construir cuadros de mando o modelos.

Conviene un matiz honesto: el EDA genera hipótesis, no las confirma. Lo que aparece como patrón en la exploración es una pista a verificar después con métodos formales, no una conclusión definitiva. Tratar un hallazgo exploratorio como prueba es un error frecuente. El valor del EDA está en hacer mejores preguntas, no en cerrar respuestas.

En profundidad

Estadística descriptiva y resumen de cinco números

La capa numérica del EDA resume el dataset con medidas de tendencia central (media, mediana, moda) y de dispersión (varianza, desviación estándar). El resumen de cinco números de Tukey —mínimo, primer cuartil, mediana, tercer cuartil, máximo— añade robustez: a diferencia de la media, los cuartiles no se desplazan por unos pocos valores extremos, lo que los hace fiables en distribuciones sesgadas. Estas medidas cobran un matiz propio en Series temporales, donde el orden y la estacionalidad importan tanto como la distribución: ahí un resumen estático se complementa con la inspección de la evolución en el tiempo.

Medida	Qué mide	Robustez ante extremos
Media	Tendencia central (promedio)	Baja: se desplaza con outliers
Mediana	Valor central (Q2)	Alta: resiste valores extremos
Desviación estándar	Dispersión en torno a la media	Baja: sensible a colas
Cuartiles (Q1, Q3)	Reparto en cuatro tramos	Alta: base del resumen de Tukey
Rango (mín–máx)	Amplitud total de los datos	Baja: definido por los extremos

Técnicas gráficas: box plots, histogramas, dispersión y heatmaps

La visualización hace visible la estructura que los números agregados esconden. El histograma muestra la forma de una distribución; el box plot resume el rango y marca atípicos; el diagrama de dispersión revela relaciones entre dos variables; el heatmap traza correlaciones o densidades. Tukey defendía que lo inesperado se revela mejor mediante imágenes.

Gráfico	Qué revela	Cuándo usarlo
Histograma	Forma de la distribución (sesgo, modas)	Entender una variable numérica
Box plot	Rango, cuartiles y atípicos	Resumir y comparar grupos
Dispersión	Relación entre dos variables	Buscar correlación o patrón
Heatmap	Correlaciones o densidades	Ver muchas relaciones a la vez

EDA frente a análisis confirmatorio

En el análisis confirmatorio (contraste de hipótesis) el modelo se fija antes de ver los datos y se comprueba contra ellos. El EDA invierte el orden: explora primero y deja que los datos sugieran qué hipótesis valdría la pena contrastar. Son fases complementarias; el EDA alimenta al análisis formal, no compite con él. Esta lógica se traslada al terreno analítico aplicado: antes de definir un modelo de Atribución o de cerrar un esquema de Medición de extremo a extremo, explorar los datos de comportamiento evita imponer supuestos que la realidad no respalda.

Aspecto	EDA (exploratorio)	Confirmatorio (CDA)
Hipótesis	Surge de los datos, al final	Fijada antes de ver los datos
Orden	Explora primero	Contrasta el modelo definido
Pregunta guía	¿Qué sugieren los datos?	¿Se sostiene esta hipótesis?
Rol	Alimenta y precede al análisis	Valida formalmente

Outliers, anomalías y relaciones entre variables

Parte del trabajo exploratorio es detectar valores atípicos y anomalías, decidir si son errores o señales reales, y mapear cómo se relacionan las variables. Estas relaciones —correlaciones, agrupaciones, dependencias— son material para hipótesis que un análisis posterior puede confirmar o descartar. Buena parte de esos atípicos no son fenómenos del negocio sino artefactos de captura, lo que reconecta con la Limpieza y calidad de datos: distinguir el error del dato del dato sorprendente es una decisión de criterio, no automática.

Detectar

Localizar valores atípicos y anomalías en los datos

→

Clasificar

Decidir si son errores o señales reales

→

Relacionar

Mapear correlaciones, agrupaciones y dependencias

→

Hipotetizar

Convertir hallazgos en hipótesis a confirmar después

Qué observar

Las señales que importan.

El carácter no confirmatorio

El EDA genera hipótesis a partir de los datos; el contraste formal viene después. Distinguir ambas fases evita presentar un patrón exploratorio como conclusión probada.

Resumen de cinco números frente a media y desviación

El resumen de cinco números de Tukey (mín, Q1, mediana, Q3, máx) describe distribuciones sesgadas o con outliers mejor que la media y la desviación estándar, que asumen simetría.

Técnicas numéricas y gráficas se complementan

Los estadísticos descriptivos resumen; los gráficos (box plots, histogramas, dispersión, heatmaps) revelan lo inesperado que un número agregado oculta. Usar solo uno deja puntos ciegos.

Detección de valores atípicos y anomalías

Identificar outliers temprano evita que distorsionen modelos posteriores. No todo atípico es error: puede ser la señal más interesante del dataset.

El EDA es fase previa, no sustituto

Se sitúa después de la limpieza de datos y antes del modelado. No reemplaza la confirmación posterior de las hipótesis con métodos formales.

Conceptos clave

El vocabulario del término.

Análisis exploratorio de datos (EDA): Enfoque para examinar un dataset y resumir sus características principales mediante estadística descriptiva y visualización, antes de modelar o contrastar hipótesis formales.
John Tukey: Estadístico que formalizó el EDA en su libro 'Exploratory Data Analysis' (1977), describiéndolo como trabajo de detective con datos centrado en descubrir lo inesperado.
Resumen de cinco números: Conjunto de Tukey formado por mínimo, primer cuartil, mediana, tercer cuartil y máximo; describe una distribución con robustez frente a valores atípicos.
Estadística descriptiva: Medidas que resumen un conjunto de datos: tendencia central (media, mediana, moda) y dispersión (varianza, desviación estándar).
Box plot: Gráfico que representa el resumen de cinco números y señala visualmente los valores atípicos de una distribución.
Análisis confirmatorio: Enfoque en el que el modelo o la hipótesis se fija antes de ver los datos y se contrasta contra ellos; complementario y posterior al EDA.
Valor atípico (outlier): Observación que se aparta del patrón general del dataset; puede ser un error a corregir o una señal relevante a investigar.

Dónde lo aplicamos

Exploración y análisis→

Casos de uso · Análisis exploratorio de datos (EDA)[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Conceptos relacionados

AnalíticaModelado de datos→AnalíticaLimpieza y calidad de datos→AnalíticaMedición de extremo a extremo→AnalíticaSeries temporales→AnalíticaData warehouse (BigQuery)→AnalíticaETL / pipelines de datos→AnalíticaOrquestación e integración de datos→SEO técnicoCanonicalización y duplicados→

Fuentes

Exploratory data analysis · 2026-06-01
Análisis exploratorio de datos | Introduction to Statistics (JMP) · 2026-06-01
Análisis exploratorio de datos (EDA) — infografía (datos.gob.es) · 2026-06-01
R para Ciencia de Datos — cap. 7 Análisis exploratorio de datos (EDA) · 2026-06-01

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.

Explora el glosario → Agenda una llamada