Inicio/Glosario/Data warehouse (BigQuery)
AnalíticaData warehouse (BigQuery)
Un data warehouse es una base de datos separada del sistema operacional, de solo lectura y optimizada para consultas analíticas (OLAP), con almacenamiento columnar. BigQuery es el almacén serverless y columnar de Google Cloud que se consulta con SQL.
Qué es
Un data warehouse es una base de datos pensada para analizar, no para operar. Se separa del sistema transaccional (OLTP) que atiende la aplicación en vivo y se carga con copias de esos datos mediante procesos de ingesta. Es de solo lectura para el analista: se consulta de forma intensiva sin frenar el sistema que da servicio. Según Kleppmann, los datos se extraen, transforman y cargan (ETL), o se cargan crudos y se modelan después (ELT), y suelen organizarse en un star schema —una tabla de hechos con un evento por fila más tablas de dimensiones— sobre almacenamiento columnar, que lee solo las columnas que pide la consulta.
BigQuery es la materialización de ese concepto en Google Cloud: un almacén serverless (sin servidor que gestionar) y columnar, heredero del motor Dremel, consultable con SQL. No hay que aprovisionar infraestructura; se paga por uso.
En analítica web, su uso estrella es el export nativo de GA4. GA4 vuelca a BigQuery todos los eventos en crudo, a nivel de evento y sin muestreo, con retención indefinida. Esto supera dos límites de la interfaz de GA4: el sampling de las Exploraciones y la retención de 14 meses de los informes. El esquema es anidado (event_params, user_properties, items), por lo que las consultas requieren UNNEST en SQL.
Por qué importa
La interfaz de GA4 aplica muestreo en exploraciones grandes y conserva los datos de usuario y evento un máximo de 14 meses. Para análisis histórico, segmentaciones finas o métricas propias, ese techo limita. El export a BigQuery entrega el dato crudo a nivel de evento, sin muestreo y sin caducidad de retención, y permite cruzarlo con SQL contra otras fuentes —lo que convierte a BigQuery en el punto de aterrizaje natural de un pipeline de ETL / pipelines de datos que reúne ese export con datos de otras plataformas extraídas vía Web scraping y connectors.
Tener el dato crudo a nivel de evento es lo que habilita la Medición de extremo a extremo, que une cada interacción con su conversión final sin depender de los agregados de la UI; y es la materia prima para análisis avanzados que la interfaz no permite, desde el modelado de la Atribución hasta el estudio de la evolución en el tiempo como Series temporales.
No es gratis ni indoloro. El linking GA4–BigQuery no tiene coste, pero se paga el uso de Google Cloud por volumen de datos escaneados; una consulta mal escrita sobre tablas grandes puede salir cara. Además, las cifras de BigQuery no coinciden 1:1 con la interfaz de GA4: la UI aplica adiciones de modelado, definiciones de conversión y thresholding de privacidad que el dato crudo no trae. Es una herramienta potente para quien sabe SQL y entiende el esquema; no un sustituto directo de los informes.
En profundidad
Data warehouse frente a base operacional
El almacén analítico copia los datos del sistema operacional y los reorganiza para consultar. Es de solo lectura para el análisis y suele usar almacenamiento columnar, que lee únicamente las columnas implicadas en la consulta y comprime mejor. Frente al OLTP, optimizado para escrituras y lecturas puntuales rápidas, el OLAP se diseña para escaneos y agregaciones sobre grandes volúmenes. La carga se hace por ETL (transformar antes de cargar) o ELT (cargar crudo y modelar dentro del almacén); ese reordenado de los datos en hechos y dimensiones es el Modelado de datos que decide qué consultas serán baratas y cuáles caras.
| Dimensión | Operacional (OLTP) | Analítico (OLAP) |
|---|---|---|
| Propósito | Escrituras y lecturas puntuales rápidas | Escaneos y agregaciones sobre grandes volúmenes |
| Acceso al dato | Lectura/escritura transaccional | Solo lectura para el análisis (copia reorganizada) |
| Almacenamiento | Orientado a filas | Columnar: lee solo las columnas de la consulta, comprime mejor |
| Carga de datos | Datos generados en vivo | ETL (transformar antes) o ELT (cargar crudo y modelar dentro) |
BigQuery como almacén serverless y columnar
BigQuery es el data warehouse de Google Cloud, heredero del motor Dremel. Serverless: no se aprovisiona ni administra infraestructura; el motor escala bajo demanda y se paga por uso. Columnar: el almacenamiento por columnas permite escanear solo lo necesario. Se consulta con SQL estándar y también se accede de forma programática como cualquier API REST, lo que permite que un proceso automatizado lance consultas y recoja resultados. Particionado y clustering ayudan a acotar el escaneo y, con ello, el coste, aunque su detalle queda fuera de esta ficha.
El export nativo de GA4 a BigQuery
GA4 incluye un export directo a BigQuery sin coste de linking; conviene configurarlo desde el principio en cualquier implementación de Google Analytics 4 (GA4), porque solo exporta a partir del enlace. Vuelca los eventos en crudo, a nivel de evento y sin muestreo, con retención indefinida frente a los 14 meses de la interfaz —incluidos todos los Eventos y conversiones tal cual se recogieron, antes de que la UI los reagrupe. Daily produce tablas events_YYYYMMDD; Streaming alimenta events_intraday con baja latencia; Fresh Daily es exclusivo de GA360. Es la fuente para análisis que la UI de GA4 no cubre por sampling o retención.
| Modo de export | Tabla destino | Característica |
|---|---|---|
| Daily | events_YYYYMMDD | Volcado diario de eventos en crudo |
| Streaming | events_intraday | Alimentación continua con baja latencia |
| Fresh Daily | events_YYYYMMDD | Exclusivo de GA360 |
| Dato base | eventos a nivel de evento | Sin muestreo, retención indefinida (frente a 14 meses en la UI) |
Esquema anidado y discrepancia con la interfaz
Las tablas de GA4 en BigQuery son anidadas: event_params, user_properties e items contienen estructuras repetidas que requieren UNNEST en SQL para consultarse. Conviene saber que el dato crudo no reproduce 1:1 las cifras de la UI: GA4 aplica adiciones de modelado, definiciones propias de conversión y thresholding de privacidad. A eso se suma que el propio dato exportado suele necesitar Limpieza y calidad de datos —normalizar nombres de evento, descartar pruebas internas, deduplicar— antes de fiarse de un agregado. Interpretar las diferencias forma parte del trabajo de análisis.
Qué observar
Las señales que importan.
OLTP frente a OLAP, y por qué la analítica usa una base separada
El sistema operacional (OLTP) atiende la aplicación en tiempo real; el almacén analítico (OLAP) responde consultas pesadas sobre históricos. Separarlos evita que el análisis degrade el servicio. El almacenamiento columnar y el modo solo lectura son rasgos típicos del lado analítico.
Export de GA4 sin muestreo y con retención indefinida
El volcado a BigQuery entrega todos los eventos a nivel de evento, sin el sampling de las Exploraciones y sin el límite de 14 meses de la interfaz. Es la vía para análisis histórico y segmentaciones que la UI no permite.
Esquema anidado que exige UNNEST
En las tablas de GA4, los parámetros viven anidados (event_params, user_properties, items). Acceder a un parámetro concreto obliga a desanidar con UNNEST en SQL; es un patrón propio de este export, no opcional.
Modos de export: Daily, Streaming y Fresh Daily
Daily genera tablas events_YYYYMMDD; Streaming alimenta events_intraday casi en tiempo real; Fresh Daily solo está disponible en Google Analytics 360. El modo elegido condiciona la frescura del dato y el patrón de consulta.
Coste por datos escaneados y discrepancia con la UI
El linking es gratis, pero se factura el uso de Google Cloud según el volumen escaneado: una consulta amplia sobre tablas grandes puede costar caro. Y las cifras no cuadran 1:1 con GA4 por adiciones de modelado, definiciones de conversión y thresholding.
Conceptos clave
El vocabulario del término.
- Data warehouse
- Base de datos separada del sistema operacional, de solo lectura y optimizada para consultas analíticas (OLAP), normalmente con almacenamiento columnar.
- OLAP / OLTP
- OLTP es el procesamiento transaccional que atiende la aplicación en vivo; OLAP es el procesamiento analítico de consultas pesadas sobre históricos. El almacén analítico sirve al OLAP.
- BigQuery
- Data warehouse serverless y columnar de Google Cloud, heredero del motor Dremel, consultable con SQL y facturado por uso (datos escaneados).
- ETL / ELT
- Procesos de carga del almacén. ETL transforma y limpia los datos antes de cargarlos; ELT los carga crudos y los modela después dentro del almacén.
- Star schema
- Modelo dimensional con una tabla de hechos (un evento por fila) rodeada de tablas de dimensiones. Patrón habitual en almacenes analíticos.
- Export de GA4 a BigQuery
- Volcado nativo de GA4 que entrega todos los eventos en crudo, a nivel de evento, sin muestreo y con retención indefinida; el linking es gratuito y se paga el uso de Google Cloud.
- UNNEST
- Operación SQL para desanidar estructuras repetidas (event_params, user_properties, items) del esquema de GA4 y poder consultar sus valores.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.