Inicio/Glosario/Web scraping y connectors

Analítica

Web scraping y connectors

Conjunto de técnicas de recolección de datos que alimentan la analítica: APIs y connectors, exports puntuales y web scraping. Capturan el dato en origen y lo depositan, de forma estructurada y trazable, en el destino donde se analizará.

Datos & ingeniería

Qué es

"Web scraping y connectors" agrupa la fase de captura del pipeline de datos: de dónde sale el dato y cómo entra. Es el primer eslabón de los ETL / pipelines de datos, antes de la transformación. Hay tres vías complementarias, ordenadas de menor a mayor fricción. La preferente son las APIs y connectors: un connector es un programa que extrae datos de una o varias fuentes upstream (Google Search Console, GA4, Bing, DataForSEO, bases de datos, aplicaciones) y los deposita de forma estructurada en el destino, actuando de intermediario entre APIs dentro de un pipeline ETL (extraer-transformar-cargar) o ELT (extraer-cargar-transformar). La extracción puede ser snapshot (toda la data de golpe) o incremental (solo lo nuevo), y programarse en batch o streaming, o lanzarse de forma puntual.

La segunda vía son los exports: descargas puntuales (CSV, hojas de cálculo, dumps) para datos que no justifican un connector permanente. La tercera es el web scraping: extracción directa del HTML o del contenido renderizado cuando no existe API. Es el último recurso y se aplica con criterio legal y ético: respetar robots.txt y los términos de uso, no saltar autenticación, limitar la frecuencia de peticiones (rate limiting) para no dañar el servidor y tratar los datos personales conforme al GDPR. Técnicamente, el scraping moderno recurre a navegadores headless (Playwright) para renderizar JavaScript, además de proxies y gestión de bloqueos y CAPTCHA.

Transversal a las tres vías está la trazabilidad de origen (data lineage): registrar de dónde vino cada dato, cuándo y cómo. Es lo que permite auditar, reproducir y confiar en el análisis posterior. Conviene distinguir la ingesta (mueve el dato crudo tal cual, priorizando velocidad) del ETL (limpia y normaliza, priorizando calidad): son fases distintas del mismo pipeline.

Recolección con trazabilidad

APIs, connectors y scraping con criterio

FUENTES

APIs · webs

→

CAPTURA

Connectors · scraping

→

ORIGEN

Trazabilidad

De dónde vino cada dato.

Por qué importa

La calidad de cualquier analítica depende de la calidad y la procedencia del dato que la sostiene: lo que entra aquí condiciona toda la Limpieza y calidad de datos posterior y, río abajo, el Modelado de datos y el Data warehouse (BigQuery) donde acaba consolidándose. Elegir la vía adecuada —API antes que export, export antes que scraping— reduce fricción, fragilidad y riesgo legal; cuando la fuente expone una API REST bien documentada, el connector es más estable y barato de mantener que cualquier scraper. El scraping mal planteado tiene cuatro líneas rojas: autenticación, datos personales, copyright y rate limiting; cruzarlas expone a problemas legales y a bloqueos. La jurisprudencia ha matizado el terreno (raspar datos públicos sin saltar controles no se ha considerado violación de la CFAA en EE. UU.), pero dato público no equivale a dato libre: el GDPR sigue aplicando a datos personales de ciudadanos de la UE. Registrar la trazabilidad de origen no garantiza que el dato sea correcto, pero sin ella no hay forma de auditarlo ni de reproducir un análisis. Una vez capturado y normalizado, este flujo es lo que alimenta cuadros de mando y series temporales de visibilidad; y orquestar estas vías sin escribir código a medida es justo lo que resuelve la Automatización con n8n.

En profundidad

Connectors y APIs: tipos de fuente y modos de extracción

Un connector extrae datos de una fuente upstream y los carga en el destino, normalmente consumiendo una API REST que la fuente publica para ese fin. Hay connectors a bases relacionales, ficheros planos, big data, cloud, aplicaciones, redes sociales, web y a medida. En SEO y analítica son habituales GSC, GA4 —la fuente principal de Eventos y conversiones del sitio—, Bing Webmaster Tools, DataForSEO, Sistrix o PageSpeed/CrUX, esta última el origen de los datos de campo de Core Web Vitals. La extracción puede ser snapshot (toda la data de golpe) o incremental (solo lo nuevo, con menos carga sobre la fuente), y programarse en batch o streaming, o ejecutarse de forma puntual.

Eje	Opciones	Detalle
Tipo de fuente	API / DB / fichero / web	Relacional, ficheros planos, big data, cloud, apps, redes, web o a medida
Fuentes SEO/analítica	GSC, GA4, Bing WMT	DataForSEO, Sistrix, PageSpeed/CrUX
Modo de extracción	Snapshot / incremental	Todo de golpe vs. solo lo nuevo (menos carga)
Programación	Batch / streaming / puntual	Periódica, continua o ejecución bajo demanda

Web scraping con criterio legal

Cuando no hay API, el scraping extrae el HTML o el contenido renderizado directamente. Se aplica con criterio: respetar robots.txt —el mismo fichero que gobierna el Rastreo e indexación de los buscadores—, atender los términos de uso, no saltar autenticación, limitar la frecuencia (rate limiting) para no dañar el servidor y tratar los datos personales conforme al GDPR. Técnicamente recurre a navegadores headless como Playwright para renderizar JavaScript —el mismo reto que el JavaScript SEO plantea a los crawlers de Google—, además de proxies y gestión de bloqueos y CAPTCHA.

Respetar robots.txt y términos de usoLeer y acatar las reglas del sitio antes de extraer

Saltar autenticaciónNo acceder a contenido tras login; es acceso no autorizado

Rate limitingLimitar la frecuencia para no dañar el servidor

Tratar datos personales según GDPRBase legal y minimización si hay datos de personas

Renderizado técnicoHeadless (Playwright) para JS, proxies y gestión de bloqueos/CAPTCHA

Marco jurídico del scraping

En EE. UU., la CFAA penaliza el acceso no autorizado; la jurisprudencia (hiQ v. LinkedIn en el 9.º Circuito; Meta v. Bright Data) ha sostenido que raspar datos públicos sin saltar controles no la viola. En la UE, el GDPR aplica a datos personales de sus ciudadanos estén donde estén los servidores, y dato público no equivale a dato libre. Existen además marcos específicos de la UE sobre protección de bases de datos relevantes para el scraping en España.

Marco	Alcance	Criterio clave
CFAA (EE. UU.)	Acceso no autorizado a sistemas	Penaliza el acceso no autorizado
hiQ v. LinkedIn (9.º Circuito)	Datos públicos	Raspar datos públicos sin saltar controles no viola la CFAA
Meta v. Bright Data	Datos públicos	Confirma la línea: público sin eludir barreras
GDPR (UE)	Datos personales de ciudadanos UE	Aplica esté donde esté el servidor; público ≠ libre
Protección de bases de datos (UE/España)	Bases de datos	Marco específico relevante para el scraping

Trazabilidad de origen del dato (data lineage)

Registrar de dónde, cuándo y cómo se obtuvo cada dato es lo que permite auditar, reproducir y confiar en el análisis. Las herramientas de extracción modernas insisten en atar el output de vuelta a su fuente, y ese lineage es lo que da consistencia al Modelado de datos aguas abajo. Sin esta trazabilidad, un análisis puede ser correcto y aun así no ser verificable ni reproducible.

Origen

Registrar de dónde se obtuvo el dato (fuente)

→

Momento y método

Cuándo y cómo se extrajo

→

Atar output a fuente

Las herramientas modernas vinculan el resultado a su origen

→

Auditar y reproducir

Sin trazabilidad el análisis no es verificable ni reproducible

Qué observar

Las señales que importan.

La vía de captura se elige por fricción, no por inercia

Cuando existe API o connector, esa es la opción estructurada y automatizable; el export puntual cubre lo que no justifica un connector permanente; el scraping queda como último recurso. El orden importa porque determina la fragilidad y el coste de mantenimiento del pipeline.

El scraping respeta cuatro líneas rojas

Autenticación, datos personales, copyright y rate limiting. Saltar un login, raspar datos personales sin base legal, extraer expresión creativa protegida o golpear un servidor sin límite de frecuencia son las fronteras donde el scraping deja de ser defendible.

Dato público no es dato libre

La jurisprudencia (hiQ v. LinkedIn, Meta v. Bright Data) ha sostenido que raspar datos públicos sin saltar controles no viola la CFAA, pero el GDPR sigue cubriendo datos personales aunque sean visibles. La sanción de la CNIL a KASPR por raspar LinkedIn ilustra ese matiz.

Cada dato lleva su origen registrado

La trazabilidad de origen (data lineage) anota de dónde, cuándo y cómo se obtuvo cada dato. Es el sello de fiabilidad: permite auditar el análisis, reproducirlo y atar cada conclusión de vuelta a su fuente.

Ingesta y ETL no son lo mismo

La ingesta mueve el dato crudo tal cual, priorizando velocidad; el ETL lo limpia y normaliza, priorizando calidad. Confundir ambas fases lleva a mezclar dato bruto con dato listo para analizar.

Conceptos clave

El vocabulario del término.

Data connector: Programa que extrae datos de una o varias fuentes upstream y los deposita en un destino de forma estructurada. Actúa de intermediario entre APIs dentro de un pipeline ETL o ELT.
ETL / ELT: Fases de un pipeline de datos: extraer-transformar-cargar (ETL) o extraer-cargar-transformar (ELT). Difieren en si la transformación ocurre antes o después de cargar el dato en el destino.
Web scraping: Extracción directa del HTML o del contenido renderizado de una web cuando no existe API. Recurre a navegadores headless para renderizar JavaScript; se aplica con criterio legal y ético.
Rate limiting: Limitación de la frecuencia de peticiones a una fuente para no sobrecargar ni dañar su servidor. Es una de las líneas rojas del scraping responsable.
Data lineage: Trazabilidad de origen del dato: registro de dónde, cuándo y cómo se obtuvo cada dato, para poder auditar, reproducir y confiar en el análisis posterior.
Ingesta de datos: Fase que mueve el dato crudo tal cual desde la fuente al destino, priorizando velocidad. Se distingue del ETL, que limpia y normaliza priorizando calidad.
Snapshot vs incremental: Modos de extracción: el snapshot trae toda la data de golpe; la carga incremental trae solo lo nuevo desde la última ejecución, con menos carga sobre la fuente.

Dónde lo aplicamos

Recolección de datos→

Casos de uso · Web scraping y connectors[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Conceptos relacionados

AnalíticaETL / pipelines de datos→AnalíticaAPI REST→AnalíticaLimpieza y calidad de datos→AnalíticaModelado de datos→AnalíticaData warehouse (BigQuery)→AnalíticaGoogle Analytics 4 (GA4)→AnalíticaSeries temporales→IAAutomatización con n8n→

Fuentes

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.

Explora el glosario → Agenda una llamada