innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Data warehouse (BigQuery)

Analítica

Data warehouse (BigQuery)

Un data warehouse es una base de datos separada del sistema operacional, de solo lectura y optimizada para consultas analíticas (OLAP), con almacenamiento columnar. BigQuery es el almacén serverless y columnar de Google Cloud que se consulta con SQL.

Qué es

Un data warehouse es una base de datos pensada para analizar, no para operar. Se separa del sistema transaccional (OLTP) que atiende la aplicación en vivo y se carga con copias de esos datos mediante procesos de ingesta. Es de solo lectura para el analista: se consulta de forma intensiva sin frenar el sistema que da servicio. Según Kleppmann, los datos se extraen, transforman y cargan (ETL), o se cargan crudos y se modelan después (ELT), y suelen organizarse en un star schema —una tabla de hechos con un evento por fila más tablas de dimensiones— sobre almacenamiento columnar, que lee solo las columnas que pide la consulta.

BigQuery es la materialización de ese concepto en Google Cloud: un almacén serverless (sin servidor que gestionar) y columnar, heredero del motor Dremel, consultable con SQL. No hay que aprovisionar infraestructura; se paga por uso.

En analítica web, su uso estrella es el export nativo de GA4. GA4 vuelca a BigQuery todos los eventos en crudo, a nivel de evento y sin muestreo, con retención indefinida. Esto supera dos límites de la interfaz de GA4: el sampling de las Exploraciones y la retención de 14 meses de los informes. El esquema es anidado (event_params, user_properties, items), por lo que las consultas requieren UNNEST en SQL.

Del dato crudo al análisis
Almacén analítico, sin muestreo
CRUDO
Datos crudos
Export de GA4, fuentes.
MODELO
Modelado
CONSULTA
SQL
Análisis a fondo.

Por qué importa

La interfaz de GA4 aplica muestreo en exploraciones grandes y conserva los datos de usuario y evento un máximo de 14 meses. Para análisis histórico, segmentaciones finas o métricas propias, ese techo limita. El export a BigQuery entrega el dato crudo a nivel de evento, sin muestreo y sin caducidad de retención, y permite cruzarlo con SQL contra otras fuentes —lo que convierte a BigQuery en el punto de aterrizaje natural de un pipeline de ETL / pipelines de datos que reúne ese export con datos de otras plataformas extraídas vía Web scraping y connectors.

Tener el dato crudo a nivel de evento es lo que habilita la Medición de extremo a extremo, que une cada interacción con su conversión final sin depender de los agregados de la UI; y es la materia prima para análisis avanzados que la interfaz no permite, desde el modelado de la Atribución hasta el estudio de la evolución en el tiempo como Series temporales.

No es gratis ni indoloro. El linking GA4–BigQuery no tiene coste, pero se paga el uso de Google Cloud por volumen de datos escaneados; una consulta mal escrita sobre tablas grandes puede salir cara. Además, las cifras de BigQuery no coinciden 1:1 con la interfaz de GA4: la UI aplica adiciones de modelado, definiciones de conversión y thresholding de privacidad que el dato crudo no trae. Es una herramienta potente para quien sabe SQL y entiende el esquema; no un sustituto directo de los informes.

En profundidad

Data warehouse frente a base operacional

El almacén analítico copia los datos del sistema operacional y los reorganiza para consultar. Es de solo lectura para el análisis y suele usar almacenamiento columnar, que lee únicamente las columnas implicadas en la consulta y comprime mejor. Frente al OLTP, optimizado para escrituras y lecturas puntuales rápidas, el OLAP se diseña para escaneos y agregaciones sobre grandes volúmenes. La carga se hace por ETL (transformar antes de cargar) o ELT (cargar crudo y modelar dentro del almacén); ese reordenado de los datos en hechos y dimensiones es el Modelado de datos que decide qué consultas serán baratas y cuáles caras.

DimensiónOperacional (OLTP)Analítico (OLAP)
PropósitoEscrituras y lecturas puntuales rápidasEscaneos y agregaciones sobre grandes volúmenes
Acceso al datoLectura/escritura transaccionalSolo lectura para el análisis (copia reorganizada)
AlmacenamientoOrientado a filasColumnar: lee solo las columnas de la consulta, comprime mejor
Carga de datosDatos generados en vivoETL (transformar antes) o ELT (cargar crudo y modelar dentro)

BigQuery como almacén serverless y columnar

BigQuery es el data warehouse de Google Cloud, heredero del motor Dremel. Serverless: no se aprovisiona ni administra infraestructura; el motor escala bajo demanda y se paga por uso. Columnar: el almacenamiento por columnas permite escanear solo lo necesario. Se consulta con SQL estándar y también se accede de forma programática como cualquier API REST, lo que permite que un proceso automatizado lance consultas y recoja resultados. Particionado y clustering ayudan a acotar el escaneo y, con ello, el coste, aunque su detalle queda fuera de esta ficha.

ServerlessNo se aprovisiona ni administra infraestructura; escala bajo demanda y se paga por uso
ColumnarAlmacenamiento por columnas: escanea solo lo necesario
SQL estándarSe consulta con SQL estándar; heredero del motor Dremel de Google
Particionado y clusteringAcotan el escaneo y, con ello, el coste (detalle fuera de esta ficha)

El export nativo de GA4 a BigQuery

GA4 incluye un export directo a BigQuery sin coste de linking; conviene configurarlo desde el principio en cualquier implementación de Google Analytics 4 (GA4), porque solo exporta a partir del enlace. Vuelca los eventos en crudo, a nivel de evento y sin muestreo, con retención indefinida frente a los 14 meses de la interfaz —incluidos todos los Eventos y conversiones tal cual se recogieron, antes de que la UI los reagrupe. Daily produce tablas events_YYYYMMDD; Streaming alimenta events_intraday con baja latencia; Fresh Daily es exclusivo de GA360. Es la fuente para análisis que la UI de GA4 no cubre por sampling o retención.

Modo de exportTabla destinoCaracterística
Dailyevents_YYYYMMDDVolcado diario de eventos en crudo
Streamingevents_intradayAlimentación continua con baja latencia
Fresh Dailyevents_YYYYMMDDExclusivo de GA360
Dato baseeventos a nivel de eventoSin muestreo, retención indefinida (frente a 14 meses en la UI)

Esquema anidado y discrepancia con la interfaz

Las tablas de GA4 en BigQuery son anidadas: event_params, user_properties e items contienen estructuras repetidas que requieren UNNEST en SQL para consultarse. Conviene saber que el dato crudo no reproduce 1:1 las cifras de la UI: GA4 aplica adiciones de modelado, definiciones propias de conversión y thresholding de privacidad. A eso se suma que el propio dato exportado suele necesitar Limpieza y calidad de datos —normalizar nombres de evento, descartar pruebas internas, deduplicar— antes de fiarse de un agregado. Interpretar las diferencias forma parte del trabajo de análisis.

1
Tabla anidada
event_params, user_properties e items contienen estructuras repetidas
2
UNNEST en SQL
Hay que desanidar esas estructuras para poder consultarlas
3
Discrepancia con la UI
El crudo no reproduce 1:1: modelado, conversiones propias, thresholding de privacidad
4
Interpretar diferencias
Explicar el porqué de las desviaciones es parte del análisis

Qué observar

Las señales que importan.

OLTP frente a OLAP, y por qué la analítica usa una base separada

El sistema operacional (OLTP) atiende la aplicación en tiempo real; el almacén analítico (OLAP) responde consultas pesadas sobre históricos. Separarlos evita que el análisis degrade el servicio. El almacenamiento columnar y el modo solo lectura son rasgos típicos del lado analítico.

Export de GA4 sin muestreo y con retención indefinida

El volcado a BigQuery entrega todos los eventos a nivel de evento, sin el sampling de las Exploraciones y sin el límite de 14 meses de la interfaz. Es la vía para análisis histórico y segmentaciones que la UI no permite.

Esquema anidado que exige UNNEST

En las tablas de GA4, los parámetros viven anidados (event_params, user_properties, items). Acceder a un parámetro concreto obliga a desanidar con UNNEST en SQL; es un patrón propio de este export, no opcional.

Modos de export: Daily, Streaming y Fresh Daily

Daily genera tablas events_YYYYMMDD; Streaming alimenta events_intraday casi en tiempo real; Fresh Daily solo está disponible en Google Analytics 360. El modo elegido condiciona la frescura del dato y el patrón de consulta.

Coste por datos escaneados y discrepancia con la UI

El linking es gratis, pero se factura el uso de Google Cloud según el volumen escaneado: una consulta amplia sobre tablas grandes puede costar caro. Y las cifras no cuadran 1:1 con GA4 por adiciones de modelado, definiciones de conversión y thresholding.

Conceptos clave

El vocabulario del término.

Data warehouse
Base de datos separada del sistema operacional, de solo lectura y optimizada para consultas analíticas (OLAP), normalmente con almacenamiento columnar.
OLAP / OLTP
OLTP es el procesamiento transaccional que atiende la aplicación en vivo; OLAP es el procesamiento analítico de consultas pesadas sobre históricos. El almacén analítico sirve al OLAP.
BigQuery
Data warehouse serverless y columnar de Google Cloud, heredero del motor Dremel, consultable con SQL y facturado por uso (datos escaneados).
ETL / ELT
Procesos de carga del almacén. ETL transforma y limpia los datos antes de cargarlos; ELT los carga crudos y los modela después dentro del almacén.
Star schema
Modelo dimensional con una tabla de hechos (un evento por fila) rodeada de tablas de dimensiones. Patrón habitual en almacenes analíticos.
Export de GA4 a BigQuery
Volcado nativo de GA4 que entrega todos los eventos en crudo, a nivel de evento, sin muestreo y con retención indefinida; el linking es gratuito y se paga el uso de Google Cloud.
UNNEST
Operación SQL para desanidar estructuras repetidas (event_params, user_properties, items) del esquema de GA4 y poder consultar sus valores.
Casos de uso · Data warehouse (BigQuery)[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.