innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Modelado de datos

Analítica

Modelado de datos

El modelado de datos es la disciplina de definir cómo se estructuran, relacionan y almacenan los datos para que sirvan a un propósito analítico o de negocio. Traduce las necesidades del negocio a un esquema explícito y documentado: qué entidades existen, qué atributos las describen, cómo se relacionan y bajo qué reglas.

Qué es

Modelar datos es decidir, antes de almacenar, qué entidades existen, qué atributos las describen, cómo se relacionan entre sí y qué reglas las gobiernan. El resultado es un esquema explícito: una representación documentada de la estructura del dato, no un detalle de implementación que se improvisa sobre la marcha.

Metodológicamente, el modelado atraviesa tres niveles canónicos. El modelo conceptual describe las entidades y relaciones del negocio de forma agnóstica a la tecnología; funciona como herramienta de comunicación. El modelo lógico añade atributos, normalización y relaciones, todavía sin atarse a un motor concreto. El modelo físico baja al detalle del sistema elegido: tipos de datos, índices, particiones y restricciones del gestor de base de datos.

El enfoque depende de la naturaleza del dato y de su uso. El modelado relacional (SQL) organiza datos estructurados en tablas con esquema fijo, claves e integridad referencial. Los datos indexados por tiempo —tráfico, métricas, KPIs— piden modelos y motores de Series temporales. El contenido no estructurado se representa como vectores (Embeddings) para búsqueda por similitud, lo que habilita la Búsqueda semántica y exige una Base de datos vectorial como motor de almacenamiento. Y sobre todo ello, la documentación del modelo —diccionario de datos, definiciones, propietario, versionado— es lo que mantiene el dato encontrable, comprensible y fiable.

Estructurar para que el dato sirva
Cada modelo, su uso
ModeloPara qué
Relacional (SQL)Entidades y relaciones
Series temporalesMétricas en el tiempo
Vectores (embeddings)Búsqueda semántica

Por qué importa

Sin un modelo claro y documentado, el análisis se vuelve frágil: las consultas se complican, las métricas resultan ambiguas y se acaban tomando decisiones sobre datos que nadie sabe del todo qué significan. El coste de un mal modelo no es solo técnico (rendimiento), también es analítico: erosiona la confianza en el dato. El modelo es el contrato que todo lo que viene después da por supuesto: los procesos de ETL / pipelines de datos vuelcan a un esquema que asumen estable, la Limpieza y calidad de datos valida contra reglas que el modelo define, y herramientas de explotación como Google Analytics 4 (GA4) o un Data warehouse (BigQuery) solo rinden si las entidades de Eventos y conversiones están bien delimitadas desde el origen. Estructurar bien por adelantado es lo que hace que el dato realmente sirva. No es un seguro contra todo error, pero reduce la fragilidad y hace explícito lo que de otro modo queda implícito en la cabeza de quien lo construyó.

En profundidad

Niveles del modelado: conceptual, lógico y físico

El modelo conceptual captura las entidades del negocio y sus relaciones sin referirse a ninguna tecnología; sirve para acordar significado con quien no es técnico. El lógico detalla atributos, claves y normalización, aún independiente del gestor. El físico concreta tipos de datos, índices, particiones y restricciones del motor elegido —que para datos indexados por tiempo será un motor de Series temporales, y para vectores una Base de datos vectorial. Recorrer los tres en orden evita atar decisiones de negocio a detalles de implementación.

Conceptual
Entidades y relaciones del negocio
Captura significado sin tecnología; se acuerda con perfiles no técnicos.
Lógico
Atributos, claves y normalización
Detalla la estructura, aún independiente del gestor de base de datos.
Físico
Tipos, índices, particiones y restricciones
Concreta la implementación en el motor elegido.

Modelado relacional: claves, integridad y normalización

El modelo relacional organiza los datos en tablas con esquema fijo. La clave primaria identifica cada fila de forma única; la clave foránea referencia a otra tabla y la integridad referencial impide referencias rotas. Cumple propiedades ACID y se consulta con SQL declarativo. Es el caso clásico para datos estructurados con alta interconexión y necesidad de consistencia, y suele ser el destino al que escriben los procesos de ETL / pipelines de datos tras ingerir desde fuentes como una API REST.

ConceptoQué hace
Clave primariaIdentifica cada fila de forma única dentro de la tabla
Clave foráneaReferencia a otra tabla y enlaza datos relacionados
Integridad referencialImpide referencias rotas entre tablas
ACID + SQLGarantiza consistencia; se consulta de forma declarativa

Normalización frente a modelado dimensional

Normalizar (hasta 3NF) divide los datos en tablas relacionadas para eliminar redundancia y anomalías de actualización: ideal cuando prima la integridad en escritura. El modelado dimensional (esquema en estrella) y la desnormalización duplican datos a propósito para reducir joins y acelerar las lecturas analíticas; es el patrón típico de un Data warehouse (BigQuery) orientado a consulta. No hay opción universalmente mejor: depende de si el sistema se optimiza para escribir o para consultar.

EnfoqueOptimiza paraMecanismo
Normalización (3NF)Escritura e integridadDivide en tablas relacionadas; elimina redundancia y anomalías
Dimensional / estrellaLectura analíticaDesnormaliza y duplica datos a propósito para reducir joins

Documentación y gobernanza del modelo

Un modelo sin documentación es difícil de usar y de confiar. El diccionario de datos recoge definiciones estandarizadas, el propietario o steward responsable de cada elemento y el versionado de los cambios. Esta capa de metadatos es el núcleo de la gobernanza de datos: convierte el esquema en algo encontrable, comprensible y auditable a lo largo del tiempo, y es la misma disciplina que sostiene la Limpieza y calidad de datos, porque ambas dependen de que las reglas y significados estén explícitos.

Diccionario de datosDefiniciones estandarizadas de cada elemento
Propietario / stewardResponsable asignado de cada elemento del modelo
VersionadoRegistro auditable de los cambios en el tiempo
Modelo sin metadatosDifícil de encontrar, comprender y confiar

Qué observar

Las señales que importan.

Tres niveles diferenciados: conceptual, lógico y físico

Un modelo maduro separa la visión de negocio (entidades y relaciones, agnóstica de tecnología) del diseño lógico (atributos, normalización) y del físico (tipos, índices, particiones del motor). Mezclar los tres niveles ata el negocio a decisiones técnicas prematuras y dificulta el cambio de motor.

Criterio explícito entre normalizar y desnormalizar

Normalizar hasta 3NF elimina redundancia y anomalías de actualización dividiendo en tablas relacionadas. Desnormalizar o usar esquema en estrella reduce joins y acelera lecturas analíticas a costa de duplicar datos. La señal de un buen modelo es que esa elección está justificada por el uso, no heredada por inercia.

El modelo se ajusta al tipo de dato

Alta interconexión y consistencia favorecen lo relacional; las relaciones muchos-a-muchos o el conocimiento interconectado favorecen grafos; la búsqueda semántica favorece vectores; los datos indexados por tiempo, motores de series temporales. Forzar todo a un único modelo es síntoma de diseño por defecto, no por criterio.

Existe documentación del modelo, no solo el esquema

Un diccionario de datos con definiciones estandarizadas, propietario por elemento y control de versiones es lo que permite encontrar, entender y confiar en el dato. Su ausencia es una señal de fragilidad: el significado vive en la memoria de una persona, no en el sistema.

Conceptos clave

El vocabulario del término.

Modelo conceptual
Representación de las entidades del negocio y sus relaciones, agnóstica de la tecnología. Funciona como herramienta de comunicación, sin entrar en atributos ni en el motor de base de datos.
Modelo lógico
Nivel intermedio que añade atributos, claves, normalización y relaciones, todavía independiente del gestor de base de datos concreto.
Modelo físico
Nivel que concreta el modelo en un motor específico: tipos de datos, índices, particiones y restricciones del gestor elegido.
Normalización
Proceso de dividir los datos en tablas relacionadas (típicamente hasta 3NF) para eliminar redundancia y anomalías de actualización, priorizando la integridad en escritura.
Esquema en estrella
Modelado dimensional que organiza los datos en una tabla de hechos central rodeada de dimensiones, desnormalizando a propósito para reducir joins y acelerar las lecturas analíticas.
Integridad referencial
Regla que garantiza que toda clave foránea apunte a una fila existente en la tabla referenciada, evitando referencias rotas entre tablas.
ACID
Conjunto de propiedades (atomicidad, consistencia, aislamiento y durabilidad) que garantizan transacciones fiables en bases de datos relacionales.
Diccionario de datos
Capa de metadatos que documenta definiciones estandarizadas, propietario por elemento y versionado del modelo; núcleo de la gobernanza de datos.

Dónde lo aplicamos

Casos de uso · Modelado de datos[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.