innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Análisis exploratorio de datos (EDA)

Analítica

Análisis exploratorio de datos (EDA)

El análisis exploratorio de datos (EDA) es el enfoque que examina un dataset y resume sus características principales antes de modelar o contrastar hipótesis formales, dejando que los datos sugieran qué preguntar. Lo formalizó John Tukey en 1977.

Qué es

El análisis exploratorio de datos (Exploratory Data Analysis, EDA) es un enfoque para inspeccionar un conjunto de datos y resumir sus rasgos principales antes de construir modelos o aplicar pruebas estadísticas formales. Lo formalizó el estadístico John Tukey en su libro 'Exploratory Data Analysis' (1977). Su idea central: en lugar de fijar un modelo antes de mirar los datos, se deja que los propios datos sugieran qué preguntar.

Combina dos familias de técnicas. Las numéricas: estadística descriptiva (tendencia central —media, mediana, moda— y dispersión —varianza, desviación estándar—) y el 'resumen de cinco números' de Tukey (mínimo, primer cuartil, mediana, tercer cuartil, máximo), más robusto que la media ante distribuciones sesgadas. Las gráficas: histogramas, box plots, diagramas de dispersión, stem-and-leaf y heatmaps, además de reducción de dimensionalidad como PCA.

Su propósito no es confirmatorio. El EDA busca descubrir estructura subyacente, detectar valores atípicos y anomalías, comprender relaciones entre variables y validar supuestos. Sobre todo, genera hipótesis y preguntas verificables que orientan un siguiente paso: recoger más datos, pasar a un análisis formal o tomar una decisión. Tukey lo describía como trabajo de detective con datos. Es ad-hoc e iterativo; se define más por la actitud que por una receta fija.

Explorar para encontrar
Hallazgos verificables, no decoración
DATASET
Un dataset
EXPLORACIÓN
Ad-hoc
Patrones y anomalías.
SALIDA
Hallazgo
Siguiente paso claro.

Por qué importa

Saltar directamente al modelado sin explorar arriesga construir sobre supuestos que los datos no sostienen: outliers que distorsionan medias, relaciones inexistentes o variables mal entendidas. El EDA reduce ese riesgo al revelar la forma real de los datos antes de comprometerse con un método. Por eso encaja como paso intermedio entre la fase de ETL / pipelines de datos —que aterriza los datos crudos— y el Modelado de datos, que decide cómo estructurarlos para explotarlos: explorar primero evita modelar sobre una base equivocada.

En la práctica, el EDA depende de la calidad de lo que entra: gran parte de los "hallazgos" tempranos son en realidad problemas de Limpieza y calidad de datosduplicados, formatos rotos, valores faltantes— que la exploración saca a la luz antes de que contaminen un análisis. Y cuando los datos consolidados viven en un Data warehouse (BigQuery), el EDA suele ser el primer barrido que se hace sobre ellos para entender qué hay realmente antes de construir cuadros de mando o modelos.

Conviene un matiz honesto: el EDA genera hipótesis, no las confirma. Lo que aparece como patrón en la exploración es una pista a verificar después con métodos formales, no una conclusión definitiva. Tratar un hallazgo exploratorio como prueba es un error frecuente. El valor del EDA está en hacer mejores preguntas, no en cerrar respuestas.

En profundidad

Estadística descriptiva y resumen de cinco números

La capa numérica del EDA resume el dataset con medidas de tendencia central (media, mediana, moda) y de dispersión (varianza, desviación estándar). El resumen de cinco números de Tukey —mínimo, primer cuartil, mediana, tercer cuartil, máximo— añade robustez: a diferencia de la media, los cuartiles no se desplazan por unos pocos valores extremos, lo que los hace fiables en distribuciones sesgadas. Estas medidas cobran un matiz propio en Series temporales, donde el orden y la estacionalidad importan tanto como la distribución: ahí un resumen estático se complementa con la inspección de la evolución en el tiempo.

MedidaQué mideRobustez ante extremos
MediaTendencia central (promedio)Baja: se desplaza con outliers
MedianaValor central (Q2)Alta: resiste valores extremos
Desviación estándarDispersión en torno a la mediaBaja: sensible a colas
Cuartiles (Q1, Q3)Reparto en cuatro tramosAlta: base del resumen de Tukey
Rango (mín–máx)Amplitud total de los datosBaja: definido por los extremos

Técnicas gráficas: box plots, histogramas, dispersión y heatmaps

La visualización hace visible la estructura que los números agregados esconden. El histograma muestra la forma de una distribución; el box plot resume el rango y marca atípicos; el diagrama de dispersión revela relaciones entre dos variables; el heatmap traza correlaciones o densidades. Tukey defendía que lo inesperado se revela mejor mediante imágenes.

GráficoQué revelaCuándo usarlo
HistogramaForma de la distribución (sesgo, modas)Entender una variable numérica
Box plotRango, cuartiles y atípicosResumir y comparar grupos
DispersiónRelación entre dos variablesBuscar correlación o patrón
HeatmapCorrelaciones o densidadesVer muchas relaciones a la vez

EDA frente a análisis confirmatorio

En el análisis confirmatorio (contraste de hipótesis) el modelo se fija antes de ver los datos y se comprueba contra ellos. El EDA invierte el orden: explora primero y deja que los datos sugieran qué hipótesis valdría la pena contrastar. Son fases complementarias; el EDA alimenta al análisis formal, no compite con él. Esta lógica se traslada al terreno analítico aplicado: antes de definir un modelo de Atribución o de cerrar un esquema de Medición de extremo a extremo, explorar los datos de comportamiento evita imponer supuestos que la realidad no respalda.

AspectoEDA (exploratorio)Confirmatorio (CDA)
HipótesisSurge de los datos, al finalFijada antes de ver los datos
OrdenExplora primeroContrasta el modelo definido
Pregunta guía¿Qué sugieren los datos?¿Se sostiene esta hipótesis?
RolAlimenta y precede al análisisValida formalmente

Outliers, anomalías y relaciones entre variables

Parte del trabajo exploratorio es detectar valores atípicos y anomalías, decidir si son errores o señales reales, y mapear cómo se relacionan las variables. Estas relaciones —correlaciones, agrupaciones, dependencias— son material para hipótesis que un análisis posterior puede confirmar o descartar. Buena parte de esos atípicos no son fenómenos del negocio sino artefactos de captura, lo que reconecta con la Limpieza y calidad de datos: distinguir el error del dato del dato sorprendente es una decisión de criterio, no automática.

1
Detectar
Localizar valores atípicos y anomalías en los datos
2
Clasificar
Decidir si son errores o señales reales
3
Relacionar
Mapear correlaciones, agrupaciones y dependencias
4
Hipotetizar
Convertir hallazgos en hipótesis a confirmar después

Qué observar

Las señales que importan.

El carácter no confirmatorio

El EDA genera hipótesis a partir de los datos; el contraste formal viene después. Distinguir ambas fases evita presentar un patrón exploratorio como conclusión probada.

Resumen de cinco números frente a media y desviación

El resumen de cinco números de Tukey (mín, Q1, mediana, Q3, máx) describe distribuciones sesgadas o con outliers mejor que la media y la desviación estándar, que asumen simetría.

Técnicas numéricas y gráficas se complementan

Los estadísticos descriptivos resumen; los gráficos (box plots, histogramas, dispersión, heatmaps) revelan lo inesperado que un número agregado oculta. Usar solo uno deja puntos ciegos.

Detección de valores atípicos y anomalías

Identificar outliers temprano evita que distorsionen modelos posteriores. No todo atípico es error: puede ser la señal más interesante del dataset.

El EDA es fase previa, no sustituto

Se sitúa después de la limpieza de datos y antes del modelado. No reemplaza la confirmación posterior de las hipótesis con métodos formales.

Conceptos clave

El vocabulario del término.

Análisis exploratorio de datos (EDA)
Enfoque para examinar un dataset y resumir sus características principales mediante estadística descriptiva y visualización, antes de modelar o contrastar hipótesis formales.
John Tukey
Estadístico que formalizó el EDA en su libro 'Exploratory Data Analysis' (1977), describiéndolo como trabajo de detective con datos centrado en descubrir lo inesperado.
Resumen de cinco números
Conjunto de Tukey formado por mínimo, primer cuartil, mediana, tercer cuartil y máximo; describe una distribución con robustez frente a valores atípicos.
Estadística descriptiva
Medidas que resumen un conjunto de datos: tendencia central (media, mediana, moda) y dispersión (varianza, desviación estándar).
Box plot
Gráfico que representa el resumen de cinco números y señala visualmente los valores atípicos de una distribución.
Análisis confirmatorio
Enfoque en el que el modelo o la hipótesis se fija antes de ver los datos y se contrasta contra ellos; complementario y posterior al EDA.
Valor atípico (outlier)
Observación que se aparta del patrón general del dataset; puede ser un error a corregir o una señal relevante a investigar.

Dónde lo aplicamos

Casos de uso · Análisis exploratorio de datos (EDA)[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.