innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Limpieza y calidad de datos

Analítica

Limpieza y calidad de datos

La limpieza y calidad de datos es la disciplina de detectar y corregir registros corruptos, inexactos, duplicados o irrelevantes antes de que contaminen el análisis. Mide la calidad sobre dimensiones medibles —exactitud, completitud, consistencia, validez, unicidad, integridad y oportunidad— y enruta lo dudoso a cuarentena en lugar de borrarlo a ciegas.

Qué es

Es el saneamiento que ocurre después de capturar el dato y antes de modelarlo o reportarlo. El marco de referencia (DAMA-DMBOK) define la calidad sobre dimensiones medibles: exactitud, completitud, consistencia, oportunidad o frescura, validez, unicidad e integridad. Sobre esa base, el flujo canónico de limpieza son cuatro etapas: auditoría de datos (estadística para detectar anomalías y contradicciones), especificación del workflow, ejecución y post-control con verificación de lo no corregido.

En la práctica el flujo se condensa en cuatro pilares operativos. El deduplicado combina coincidencia exacta (eliminar copias idénticas) y near-dup o fuzzy matching (detectar el mismo registro pese a erratas, espacios o variaciones de formato, midiendo similitud y aplicando un umbral); a escala se usan técnicas probabilísticas como shingling con MinHash y LSH (similitud de Jaccard) o SimHash, que evitan comparar todos los pares. La normalización o estandarización armoniza formatos, unidades, convenciones de nombres y representaciones a una forma canónica para que el dato sea comparable. El control de calidad aplica chequeos automáticos contra reglas y dimensiones, con monitorización continua. La cuarentena auditable enruta los registros que fallan validación a un área inspeccionable en vez de descartarlos en silencio, conservando trazabilidad.

Conviene distinguir dos momentos distintos: la validación actúa en el punto de entrada y rechaza el dato inválido antes de que entre; la limpieza opera sobre lotes ya almacenados y corrige problemas acumulados. Cuando no hay identificador único, el problema se vuelve entity resolution o record linkage: deduplicar, enlazar registros entre fuentes y canonicalizar a una forma estándar.

Limpiar el ruido
Lo dudoso a cuarentena, nunca se borra a ciegas
Deduplicado (exacto y near-dup)OK
NormalizaciónOK
Control de calidadOK
Cuarentena auditable (no se borra)Revisión

Por qué importa

Las decisiones de negocio se toman sobre lo que muestran los informes, y un informe construido sobre datos sucios distorsiona la realidad sin avisar. Duplicados que inflan sesiones o contactos, formatos inconsistentes entre fuentes o registros descartados en silencio producen métricas que parecen sólidas pero no lo son. Esta etapa es el filtro intermedio del recorrido del dato: se sitúa después del Web scraping y connectors que capturan de cada fuente, dentro de los ETL / pipelines de datos que mueven el dato, y justo antes del Modelado de datos y del Data warehouse (BigQuery) donde se consolida para reportar. Importa especialmente cuando alimenta Google Analytics 4 (GA4) o Series temporales, donde un duplicado o un formato inconsistente se propaga a toda la analítica posterior. Limpiar el dato antes de modelarlo no garantiza un análisis correcto —eso depende también del modelo y de las preguntas—, pero sin esa base cualquier conclusión queda en entredicho. El patrón de cuarentena auditable importa además porque los registros que fallan suelen revelar bugs aguas arriba: descartarlos esconde el síntoma; retenerlos para inspección lo expone.

En profundidad

Dimensiones de calidad de datos (DAMA-DMBOK)

La vara de medir canónica son las dimensiones que define DAMA-DMBOK: exactitud (el dato refleja la realidad), completitud (no faltan valores esperados), consistencia (no se contradice entre sistemas), oportunidad o frescura (está disponible cuando se necesita), validez (cumple el formato y las reglas), unicidad (sin duplicados) e integridad (las relaciones entre registros se mantienen). Medir por dimensión convierte un "los datos están mal" difuso en chequeos concretos y monitorizables. La dimensión de oportunidad conecta con la Frescura de contenido, que en analítica es el desfase entre que ocurre el evento y que está disponible para reportar.

DimensiónQué garantiza
ExactitudEl dato refleja la realidad
CompletitudNo faltan valores esperados
ConsistenciaNo se contradice entre sistemas
Oportunidad / frescuraDisponible cuando se necesita
ValidezCumple el formato y las reglas
UnicidadSin duplicados
IntegridadSe mantienen las relaciones entre registros

Deduplicado: exacto, near-dup y entity resolution

El deduplicado tiene dos modos complementarios. La coincidencia exacta elimina copias idénticas. El near-dup o fuzzy matching detecta el mismo registro pese a erratas, espacios o variaciones de formato: mide la similitud de cadenas y une los pares por encima de un umbral. A gran escala, comparar todos los pares es inviable, así que se usan técnicas probabilísticas —shingling, MinHash (estima la similitud de Jaccard con firmas compactas) y LSH (agrupa candidatos en buckets), o SimHash para similitud coseno. La similitud por significado, no por cadena, se aborda con Embeddings y Búsqueda semántica, que representan el registro como vector y comparan distancia. Cuando no hay clave única, el problema es entity resolution / record linkage; herramientas de referencia: dedupe y Splink.

1
Coincidencia exacta
Elimina copias idénticas byte a byte
2
Near-dup / fuzzy
Mide similitud de cadenas y une pares sobre un umbral, pese a erratas o formato
3
Bloqueo probabilístico
Shingling + MinHash (Jaccard) y LSH por buckets, o SimHash para coseno, evitando comparar todos los pares
4
Entity resolution
Sin clave única, record linkage con dedupe o Splink

Validación en entrada vs. limpieza por lotes

Son dos defensas en momentos distintos. La validación se sitúa en el punto de entrada y rechaza el dato que no cumple el esquema o las reglas antes de que entre al sistema, evitando contaminación —el punto natural para ello es la frontera de la API REST que recibe el dato. La limpieza (cleansing) opera después, sobre lotes ya almacenados, y corrige problemas que se han acumulado o que la validación no atrapó. La normalización a forma canónica —expandir abreviaturas, unificar unidades, fechas y divisas— suele formar parte de esta segunda fase para que el dato sea comparable.

DefensaMomentoFunción
ValidaciónEn la entradaRechaza el dato que no cumple esquema/reglas antes de entrar
Limpieza (cleansing)Por lotes, ya almacenadosCorrige lo acumulado o lo que la validación no atrapó
Normalización canónicaDentro de la limpiezaExpande abreviaturas, unifica unidades, fechas y divisas para comparar

Cuarentena auditable: el patrón dead letter queue

Heredado de la ingeniería de datos, el patrón dead letter queue / quarantine table establece que los registros que fallan validación o calidad no se descartan en silencio, sino que se enrutan a un área de retención inspeccionable. Allí se analizan, corrigen o reprocesan, conservando trazabilidad forense. La regla operativa: los fallos persistentes (esquema inválido, datos malformados, violaciones de constraint) van directos a cuarentena sin reintentos; no viven ahí para siempre, se corrige el origen y se reprocesan tras curación. El quality gate de la capa de conocimiento del propio ecosistema aplica esta misma cadena antes de poblar su Base de datos vectorial, que es donde reside el conocimiento curado servido vía RAG (Retrieval-Augmented Generation).

1
Fallo de calidad
Esquema inválido, dato malformado o violación de constraint
2
Enrutado a cuarentena
Sin reintentos y sin descartar en silencio: a un área de retención inspeccionable
3
Curación auditable
Se analiza y corrige el origen conservando trazabilidad forense
4
Reproceso
Reentra tras la curación; no vive ahí para siempre

Qué observar

Las señales que importan.

Duplicados que inflan o distorsionan las métricas

Sesiones contadas dos veces, contactos repetidos o URLs con parámetros UTM tratadas como páginas distintas inflan los totales. La señal es una métrica que crece sin causa real; importa porque sobre ese número se reparte presupuesto y se priorizan acciones.

Formatos y convenciones inconsistentes entre fuentes

Fechas, divisas, mayúsculas o hostnames www/no-www representados de formas distintas según el origen impiden cruzar o agregar el dato. Importa porque dos registros del mismo hecho no se reconocen como tal y el análisis los trata por separado.

Ausencia de identificador único entre sistemas

Cuando ningún campo identifica de forma fiable a la misma entidad en dos fuentes, hay que enlazar y deduplicar por similitud. Es la señal de que el problema ya no es limpieza simple sino entity resolution, con su coste y su margen de error asociado.

Registros que fallan validación y desaparecen en silencio

Un pipeline que descarta lo malformado sin dejar rastro oculta tanto el dato como la causa. Importa porque esos fallos suelen apuntar a un bug aguas arriba; sin cuarentena auditable nadie llega a verlo.

Datos que nadie ha auditado por dimensión

Reportar sobre una fuente sin medir su exactitud, completitud o unicidad es asumir una calidad que no se ha comprobado. La señal es la ausencia misma de auditoría; importa porque el riesgo queda invisible hasta que una decisión sale mal.

Conceptos clave

El vocabulario del término.

Dimensión de calidad de datos
Atributo medible con el que se evalúa la calidad de un conjunto de datos (exactitud, completitud, consistencia, validez, unicidad, integridad, oportunidad). Marco de referencia: DAMA-DMBOK.
Deduplicado
Detección y eliminación de registros repetidos. Tiene un modo exacto (copias idénticas) y un modo near-dup o fuzzy (mismo registro pese a erratas o variaciones de formato).
Fuzzy matching
Emparejamiento aproximado que mide la similitud entre cadenas y une los pares que superan un umbral, en lugar de exigir igualdad literal.
Entity resolution / record linkage
Proceso de identificar que distintos registros, posiblemente de fuentes distintas y sin clave común, se refieren a la misma entidad real, enlazándolos y canonicalizándolos.
MinHash + LSH
Técnicas probabilísticas para near-dup a escala: MinHash estima la similitud de Jaccard con firmas compactas y LSH agrupa candidatos en buckets para no comparar todos los pares.
Normalización / estandarización
Armonización de formatos, unidades, convenciones de nombres y representaciones a una forma canónica para que el dato sea comparable y consistente.
Cuarentena auditable
Patrón (dead letter queue / quarantine table) que enruta los registros fallidos a un área de retención inspeccionable en vez de descartarlos en silencio, preservando trazabilidad para corregir el origen y reprocesar.

Dónde lo aplicamos

Casos de uso · Limpieza y calidad de datos[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.