Inicio/Glosario/Limpieza y calidad de datos
AnalíticaLimpieza y calidad de datos
La limpieza y calidad de datos es la disciplina de detectar y corregir registros corruptos, inexactos, duplicados o irrelevantes antes de que contaminen el análisis. Mide la calidad sobre dimensiones medibles —exactitud, completitud, consistencia, validez, unicidad, integridad y oportunidad— y enruta lo dudoso a cuarentena en lugar de borrarlo a ciegas.
Qué es
Es el saneamiento que ocurre después de capturar el dato y antes de modelarlo o reportarlo. El marco de referencia (DAMA-DMBOK) define la calidad sobre dimensiones medibles: exactitud, completitud, consistencia, oportunidad o frescura, validez, unicidad e integridad. Sobre esa base, el flujo canónico de limpieza son cuatro etapas: auditoría de datos (estadística para detectar anomalías y contradicciones), especificación del workflow, ejecución y post-control con verificación de lo no corregido.
En la práctica el flujo se condensa en cuatro pilares operativos. El deduplicado combina coincidencia exacta (eliminar copias idénticas) y near-dup o fuzzy matching (detectar el mismo registro pese a erratas, espacios o variaciones de formato, midiendo similitud y aplicando un umbral); a escala se usan técnicas probabilísticas como shingling con MinHash y LSH (similitud de Jaccard) o SimHash, que evitan comparar todos los pares. La normalización o estandarización armoniza formatos, unidades, convenciones de nombres y representaciones a una forma canónica para que el dato sea comparable. El control de calidad aplica chequeos automáticos contra reglas y dimensiones, con monitorización continua. La cuarentena auditable enruta los registros que fallan validación a un área inspeccionable en vez de descartarlos en silencio, conservando trazabilidad.
Conviene distinguir dos momentos distintos: la validación actúa en el punto de entrada y rechaza el dato inválido antes de que entre; la limpieza opera sobre lotes ya almacenados y corrige problemas acumulados. Cuando no hay identificador único, el problema se vuelve entity resolution o record linkage: deduplicar, enlazar registros entre fuentes y canonicalizar a una forma estándar.
Por qué importa
Las decisiones de negocio se toman sobre lo que muestran los informes, y un informe construido sobre datos sucios distorsiona la realidad sin avisar. Duplicados que inflan sesiones o contactos, formatos inconsistentes entre fuentes o registros descartados en silencio producen métricas que parecen sólidas pero no lo son. Esta etapa es el filtro intermedio del recorrido del dato: se sitúa después del Web scraping y connectors que capturan de cada fuente, dentro de los ETL / pipelines de datos que mueven el dato, y justo antes del Modelado de datos y del Data warehouse (BigQuery) donde se consolida para reportar. Importa especialmente cuando alimenta Google Analytics 4 (GA4) o Series temporales, donde un duplicado o un formato inconsistente se propaga a toda la analítica posterior. Limpiar el dato antes de modelarlo no garantiza un análisis correcto —eso depende también del modelo y de las preguntas—, pero sin esa base cualquier conclusión queda en entredicho. El patrón de cuarentena auditable importa además porque los registros que fallan suelen revelar bugs aguas arriba: descartarlos esconde el síntoma; retenerlos para inspección lo expone.
En profundidad
Dimensiones de calidad de datos (DAMA-DMBOK)
La vara de medir canónica son las dimensiones que define DAMA-DMBOK: exactitud (el dato refleja la realidad), completitud (no faltan valores esperados), consistencia (no se contradice entre sistemas), oportunidad o frescura (está disponible cuando se necesita), validez (cumple el formato y las reglas), unicidad (sin duplicados) e integridad (las relaciones entre registros se mantienen). Medir por dimensión convierte un "los datos están mal" difuso en chequeos concretos y monitorizables. La dimensión de oportunidad conecta con la Frescura de contenido, que en analítica es el desfase entre que ocurre el evento y que está disponible para reportar.
| Dimensión | Qué garantiza |
|---|---|
| Exactitud | El dato refleja la realidad |
| Completitud | No faltan valores esperados |
| Consistencia | No se contradice entre sistemas |
| Oportunidad / frescura | Disponible cuando se necesita |
| Validez | Cumple el formato y las reglas |
| Unicidad | Sin duplicados |
| Integridad | Se mantienen las relaciones entre registros |
Deduplicado: exacto, near-dup y entity resolution
El deduplicado tiene dos modos complementarios. La coincidencia exacta elimina copias idénticas. El near-dup o fuzzy matching detecta el mismo registro pese a erratas, espacios o variaciones de formato: mide la similitud de cadenas y une los pares por encima de un umbral. A gran escala, comparar todos los pares es inviable, así que se usan técnicas probabilísticas —shingling, MinHash (estima la similitud de Jaccard con firmas compactas) y LSH (agrupa candidatos en buckets), o SimHash para similitud coseno. La similitud por significado, no por cadena, se aborda con Embeddings y Búsqueda semántica, que representan el registro como vector y comparan distancia. Cuando no hay clave única, el problema es entity resolution / record linkage; herramientas de referencia: dedupe y Splink.
Validación en entrada vs. limpieza por lotes
Son dos defensas en momentos distintos. La validación se sitúa en el punto de entrada y rechaza el dato que no cumple el esquema o las reglas antes de que entre al sistema, evitando contaminación —el punto natural para ello es la frontera de la API REST que recibe el dato. La limpieza (cleansing) opera después, sobre lotes ya almacenados, y corrige problemas que se han acumulado o que la validación no atrapó. La normalización a forma canónica —expandir abreviaturas, unificar unidades, fechas y divisas— suele formar parte de esta segunda fase para que el dato sea comparable.
| Defensa | Momento | Función |
|---|---|---|
| Validación | En la entrada | Rechaza el dato que no cumple esquema/reglas antes de entrar |
| Limpieza (cleansing) | Por lotes, ya almacenados | Corrige lo acumulado o lo que la validación no atrapó |
| Normalización canónica | Dentro de la limpieza | Expande abreviaturas, unifica unidades, fechas y divisas para comparar |
Cuarentena auditable: el patrón dead letter queue
Heredado de la ingeniería de datos, el patrón dead letter queue / quarantine table establece que los registros que fallan validación o calidad no se descartan en silencio, sino que se enrutan a un área de retención inspeccionable. Allí se analizan, corrigen o reprocesan, conservando trazabilidad forense. La regla operativa: los fallos persistentes (esquema inválido, datos malformados, violaciones de constraint) van directos a cuarentena sin reintentos; no viven ahí para siempre, se corrige el origen y se reprocesan tras curación. El quality gate de la capa de conocimiento del propio ecosistema aplica esta misma cadena antes de poblar su Base de datos vectorial, que es donde reside el conocimiento curado servido vía RAG (Retrieval-Augmented Generation).
Qué observar
Las señales que importan.
Duplicados que inflan o distorsionan las métricas
Sesiones contadas dos veces, contactos repetidos o URLs con parámetros UTM tratadas como páginas distintas inflan los totales. La señal es una métrica que crece sin causa real; importa porque sobre ese número se reparte presupuesto y se priorizan acciones.
Formatos y convenciones inconsistentes entre fuentes
Fechas, divisas, mayúsculas o hostnames www/no-www representados de formas distintas según el origen impiden cruzar o agregar el dato. Importa porque dos registros del mismo hecho no se reconocen como tal y el análisis los trata por separado.
Ausencia de identificador único entre sistemas
Cuando ningún campo identifica de forma fiable a la misma entidad en dos fuentes, hay que enlazar y deduplicar por similitud. Es la señal de que el problema ya no es limpieza simple sino entity resolution, con su coste y su margen de error asociado.
Registros que fallan validación y desaparecen en silencio
Un pipeline que descarta lo malformado sin dejar rastro oculta tanto el dato como la causa. Importa porque esos fallos suelen apuntar a un bug aguas arriba; sin cuarentena auditable nadie llega a verlo.
Datos que nadie ha auditado por dimensión
Reportar sobre una fuente sin medir su exactitud, completitud o unicidad es asumir una calidad que no se ha comprobado. La señal es la ausencia misma de auditoría; importa porque el riesgo queda invisible hasta que una decisión sale mal.
Conceptos clave
El vocabulario del término.
- Dimensión de calidad de datos
- Atributo medible con el que se evalúa la calidad de un conjunto de datos (exactitud, completitud, consistencia, validez, unicidad, integridad, oportunidad). Marco de referencia: DAMA-DMBOK.
- Deduplicado
- Detección y eliminación de registros repetidos. Tiene un modo exacto (copias idénticas) y un modo near-dup o fuzzy (mismo registro pese a erratas o variaciones de formato).
- Fuzzy matching
- Emparejamiento aproximado que mide la similitud entre cadenas y une los pares que superan un umbral, en lugar de exigir igualdad literal.
- Entity resolution / record linkage
- Proceso de identificar que distintos registros, posiblemente de fuentes distintas y sin clave común, se refieren a la misma entidad real, enlazándolos y canonicalizándolos.
- MinHash + LSH
- Técnicas probabilísticas para near-dup a escala: MinHash estima la similitud de Jaccard con firmas compactas y LSH agrupa candidatos en buckets para no comparar todos los pares.
- Normalización / estandarización
- Armonización de formatos, unidades, convenciones de nombres y representaciones a una forma canónica para que el dato sea comparable y consistente.
- Cuarentena auditable
- Patrón (dead letter queue / quarantine table) que enruta los registros fallidos a un área de retención inspeccionable en vez de descartarlos en silencio, preservando trazabilidad para corregir el origen y reprocesar.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Fuentes
- The six most used Data Quality dimensions (DAMA-DMBOK)
- Top 12 Data Quality Dimensions
- Record linkage
- Fuzzy Matching 101: The Complete Guide to Accurate Data Matching · 2026
- dedupeio/dedupe: fuzzy matching, record deduplication and entity-resolution
- Fuzzy Matching and Deduplicating Hundreds of Millions of Records with Splink
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.