Inicio/Glosario/Análisis exploratorio de datos (EDA)
AnalíticaAnálisis exploratorio de datos (EDA)
El análisis exploratorio de datos (EDA) es el enfoque que examina un dataset y resume sus características principales antes de modelar o contrastar hipótesis formales, dejando que los datos sugieran qué preguntar. Lo formalizó John Tukey en 1977.
Qué es
El análisis exploratorio de datos (Exploratory Data Analysis, EDA) es un enfoque para inspeccionar un conjunto de datos y resumir sus rasgos principales antes de construir modelos o aplicar pruebas estadísticas formales. Lo formalizó el estadístico John Tukey en su libro 'Exploratory Data Analysis' (1977). Su idea central: en lugar de fijar un modelo antes de mirar los datos, se deja que los propios datos sugieran qué preguntar.
Combina dos familias de técnicas. Las numéricas: estadística descriptiva (tendencia central —media, mediana, moda— y dispersión —varianza, desviación estándar—) y el 'resumen de cinco números' de Tukey (mínimo, primer cuartil, mediana, tercer cuartil, máximo), más robusto que la media ante distribuciones sesgadas. Las gráficas: histogramas, box plots, diagramas de dispersión, stem-and-leaf y heatmaps, además de reducción de dimensionalidad como PCA.
Su propósito no es confirmatorio. El EDA busca descubrir estructura subyacente, detectar valores atípicos y anomalías, comprender relaciones entre variables y validar supuestos. Sobre todo, genera hipótesis y preguntas verificables que orientan un siguiente paso: recoger más datos, pasar a un análisis formal o tomar una decisión. Tukey lo describía como trabajo de detective con datos. Es ad-hoc e iterativo; se define más por la actitud que por una receta fija.
Por qué importa
Saltar directamente al modelado sin explorar arriesga construir sobre supuestos que los datos no sostienen: outliers que distorsionan medias, relaciones inexistentes o variables mal entendidas. El EDA reduce ese riesgo al revelar la forma real de los datos antes de comprometerse con un método. Por eso encaja como paso intermedio entre la fase de ETL / pipelines de datos —que aterriza los datos crudos— y el Modelado de datos, que decide cómo estructurarlos para explotarlos: explorar primero evita modelar sobre una base equivocada.
En la práctica, el EDA depende de la calidad de lo que entra: gran parte de los "hallazgos" tempranos son en realidad problemas de Limpieza y calidad de datos —duplicados, formatos rotos, valores faltantes— que la exploración saca a la luz antes de que contaminen un análisis. Y cuando los datos consolidados viven en un Data warehouse (BigQuery), el EDA suele ser el primer barrido que se hace sobre ellos para entender qué hay realmente antes de construir cuadros de mando o modelos.
Conviene un matiz honesto: el EDA genera hipótesis, no las confirma. Lo que aparece como patrón en la exploración es una pista a verificar después con métodos formales, no una conclusión definitiva. Tratar un hallazgo exploratorio como prueba es un error frecuente. El valor del EDA está en hacer mejores preguntas, no en cerrar respuestas.
En profundidad
Estadística descriptiva y resumen de cinco números
La capa numérica del EDA resume el dataset con medidas de tendencia central (media, mediana, moda) y de dispersión (varianza, desviación estándar). El resumen de cinco números de Tukey —mínimo, primer cuartil, mediana, tercer cuartil, máximo— añade robustez: a diferencia de la media, los cuartiles no se desplazan por unos pocos valores extremos, lo que los hace fiables en distribuciones sesgadas. Estas medidas cobran un matiz propio en Series temporales, donde el orden y la estacionalidad importan tanto como la distribución: ahí un resumen estático se complementa con la inspección de la evolución en el tiempo.
| Medida | Qué mide | Robustez ante extremos |
|---|---|---|
| Media | Tendencia central (promedio) | Baja: se desplaza con outliers |
| Mediana | Valor central (Q2) | Alta: resiste valores extremos |
| Desviación estándar | Dispersión en torno a la media | Baja: sensible a colas |
| Cuartiles (Q1, Q3) | Reparto en cuatro tramos | Alta: base del resumen de Tukey |
| Rango (mín–máx) | Amplitud total de los datos | Baja: definido por los extremos |
Técnicas gráficas: box plots, histogramas, dispersión y heatmaps
La visualización hace visible la estructura que los números agregados esconden. El histograma muestra la forma de una distribución; el box plot resume el rango y marca atípicos; el diagrama de dispersión revela relaciones entre dos variables; el heatmap traza correlaciones o densidades. Tukey defendía que lo inesperado se revela mejor mediante imágenes.
| Gráfico | Qué revela | Cuándo usarlo |
|---|---|---|
| Histograma | Forma de la distribución (sesgo, modas) | Entender una variable numérica |
| Box plot | Rango, cuartiles y atípicos | Resumir y comparar grupos |
| Dispersión | Relación entre dos variables | Buscar correlación o patrón |
| Heatmap | Correlaciones o densidades | Ver muchas relaciones a la vez |
EDA frente a análisis confirmatorio
En el análisis confirmatorio (contraste de hipótesis) el modelo se fija antes de ver los datos y se comprueba contra ellos. El EDA invierte el orden: explora primero y deja que los datos sugieran qué hipótesis valdría la pena contrastar. Son fases complementarias; el EDA alimenta al análisis formal, no compite con él. Esta lógica se traslada al terreno analítico aplicado: antes de definir un modelo de Atribución o de cerrar un esquema de Medición de extremo a extremo, explorar los datos de comportamiento evita imponer supuestos que la realidad no respalda.
| Aspecto | EDA (exploratorio) | Confirmatorio (CDA) |
|---|---|---|
| Hipótesis | Surge de los datos, al final | Fijada antes de ver los datos |
| Orden | Explora primero | Contrasta el modelo definido |
| Pregunta guía | ¿Qué sugieren los datos? | ¿Se sostiene esta hipótesis? |
| Rol | Alimenta y precede al análisis | Valida formalmente |
Outliers, anomalías y relaciones entre variables
Parte del trabajo exploratorio es detectar valores atípicos y anomalías, decidir si son errores o señales reales, y mapear cómo se relacionan las variables. Estas relaciones —correlaciones, agrupaciones, dependencias— son material para hipótesis que un análisis posterior puede confirmar o descartar. Buena parte de esos atípicos no son fenómenos del negocio sino artefactos de captura, lo que reconecta con la Limpieza y calidad de datos: distinguir el error del dato del dato sorprendente es una decisión de criterio, no automática.
Qué observar
Las señales que importan.
El carácter no confirmatorio
El EDA genera hipótesis a partir de los datos; el contraste formal viene después. Distinguir ambas fases evita presentar un patrón exploratorio como conclusión probada.
Resumen de cinco números frente a media y desviación
El resumen de cinco números de Tukey (mín, Q1, mediana, Q3, máx) describe distribuciones sesgadas o con outliers mejor que la media y la desviación estándar, que asumen simetría.
Técnicas numéricas y gráficas se complementan
Los estadísticos descriptivos resumen; los gráficos (box plots, histogramas, dispersión, heatmaps) revelan lo inesperado que un número agregado oculta. Usar solo uno deja puntos ciegos.
Detección de valores atípicos y anomalías
Identificar outliers temprano evita que distorsionen modelos posteriores. No todo atípico es error: puede ser la señal más interesante del dataset.
El EDA es fase previa, no sustituto
Se sitúa después de la limpieza de datos y antes del modelado. No reemplaza la confirmación posterior de las hipótesis con métodos formales.
Conceptos clave
El vocabulario del término.
- Análisis exploratorio de datos (EDA)
- Enfoque para examinar un dataset y resumir sus características principales mediante estadística descriptiva y visualización, antes de modelar o contrastar hipótesis formales.
- John Tukey
- Estadístico que formalizó el EDA en su libro 'Exploratory Data Analysis' (1977), describiéndolo como trabajo de detective con datos centrado en descubrir lo inesperado.
- Resumen de cinco números
- Conjunto de Tukey formado por mínimo, primer cuartil, mediana, tercer cuartil y máximo; describe una distribución con robustez frente a valores atípicos.
- Estadística descriptiva
- Medidas que resumen un conjunto de datos: tendencia central (media, mediana, moda) y dispersión (varianza, desviación estándar).
- Box plot
- Gráfico que representa el resumen de cinco números y señala visualmente los valores atípicos de una distribución.
- Análisis confirmatorio
- Enfoque en el que el modelo o la hipótesis se fija antes de ver los datos y se contrasta contra ellos; complementario y posterior al EDA.
- Valor atípico (outlier)
- Observación que se aparta del patrón general del dataset; puede ser un error a corregir o una señal relevante a investigar.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Conceptos relacionados
Fuentes
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.