Inicio/Glosario/Web scraping y connectors
AnalíticaWeb scraping y connectors
Conjunto de técnicas de recolección de datos que alimentan la analítica: APIs y connectors, exports puntuales y web scraping. Capturan el dato en origen y lo depositan, de forma estructurada y trazable, en el destino donde se analizará.
Qué es
"Web scraping y connectors" agrupa la fase de captura del pipeline de datos: de dónde sale el dato y cómo entra. Es el primer eslabón de los ETL / pipelines de datos, antes de la transformación. Hay tres vías complementarias, ordenadas de menor a mayor fricción. La preferente son las APIs y connectors: un connector es un programa que extrae datos de una o varias fuentes upstream (Google Search Console, GA4, Bing, DataForSEO, bases de datos, aplicaciones) y los deposita de forma estructurada en el destino, actuando de intermediario entre APIs dentro de un pipeline ETL (extraer-transformar-cargar) o ELT (extraer-cargar-transformar). La extracción puede ser snapshot (toda la data de golpe) o incremental (solo lo nuevo), y programarse en batch o streaming, o lanzarse de forma puntual.
La segunda vía son los exports: descargas puntuales (CSV, hojas de cálculo, dumps) para datos que no justifican un connector permanente. La tercera es el web scraping: extracción directa del HTML o del contenido renderizado cuando no existe API. Es el último recurso y se aplica con criterio legal y ético: respetar robots.txt y los términos de uso, no saltar autenticación, limitar la frecuencia de peticiones (rate limiting) para no dañar el servidor y tratar los datos personales conforme al GDPR. Técnicamente, el scraping moderno recurre a navegadores headless (Playwright) para renderizar JavaScript, además de proxies y gestión de bloqueos y CAPTCHA.
Transversal a las tres vías está la trazabilidad de origen (data lineage): registrar de dónde vino cada dato, cuándo y cómo. Es lo que permite auditar, reproducir y confiar en el análisis posterior. Conviene distinguir la ingesta (mueve el dato crudo tal cual, priorizando velocidad) del ETL (limpia y normaliza, priorizando calidad): son fases distintas del mismo pipeline.
Por qué importa
La calidad de cualquier analítica depende de la calidad y la procedencia del dato que la sostiene: lo que entra aquí condiciona toda la Limpieza y calidad de datos posterior y, río abajo, el Modelado de datos y el Data warehouse (BigQuery) donde acaba consolidándose. Elegir la vía adecuada —API antes que export, export antes que scraping— reduce fricción, fragilidad y riesgo legal; cuando la fuente expone una API REST bien documentada, el connector es más estable y barato de mantener que cualquier scraper. El scraping mal planteado tiene cuatro líneas rojas: autenticación, datos personales, copyright y rate limiting; cruzarlas expone a problemas legales y a bloqueos. La jurisprudencia ha matizado el terreno (raspar datos públicos sin saltar controles no se ha considerado violación de la CFAA en EE. UU.), pero dato público no equivale a dato libre: el GDPR sigue aplicando a datos personales de ciudadanos de la UE. Registrar la trazabilidad de origen no garantiza que el dato sea correcto, pero sin ella no hay forma de auditarlo ni de reproducir un análisis. Una vez capturado y normalizado, este flujo es lo que alimenta cuadros de mando y series temporales de visibilidad; y orquestar estas vías sin escribir código a medida es justo lo que resuelve la Automatización con n8n.
En profundidad
Connectors y APIs: tipos de fuente y modos de extracción
Un connector extrae datos de una fuente upstream y los carga en el destino, normalmente consumiendo una API REST que la fuente publica para ese fin. Hay connectors a bases relacionales, ficheros planos, big data, cloud, aplicaciones, redes sociales, web y a medida. En SEO y analítica son habituales GSC, GA4 —la fuente principal de Eventos y conversiones del sitio—, Bing Webmaster Tools, DataForSEO, Sistrix o PageSpeed/CrUX, esta última el origen de los datos de campo de Core Web Vitals. La extracción puede ser snapshot (toda la data de golpe) o incremental (solo lo nuevo, con menos carga sobre la fuente), y programarse en batch o streaming, o ejecutarse de forma puntual.
| Eje | Opciones | Detalle |
|---|---|---|
| Tipo de fuente | API / DB / fichero / web | Relacional, ficheros planos, big data, cloud, apps, redes, web o a medida |
| Fuentes SEO/analítica | GSC, GA4, Bing WMT | DataForSEO, Sistrix, PageSpeed/CrUX |
| Modo de extracción | Snapshot / incremental | Todo de golpe vs. solo lo nuevo (menos carga) |
| Programación | Batch / streaming / puntual | Periódica, continua o ejecución bajo demanda |
Web scraping con criterio legal
Cuando no hay API, el scraping extrae el HTML o el contenido renderizado directamente. Se aplica con criterio: respetar robots.txt —el mismo fichero que gobierna el Rastreo e indexación de los buscadores—, atender los términos de uso, no saltar autenticación, limitar la frecuencia (rate limiting) para no dañar el servidor y tratar los datos personales conforme al GDPR. Técnicamente recurre a navegadores headless como Playwright para renderizar JavaScript —el mismo reto que el JavaScript SEO plantea a los crawlers de Google—, además de proxies y gestión de bloqueos y CAPTCHA.
Marco jurídico del scraping
En EE. UU., la CFAA penaliza el acceso no autorizado; la jurisprudencia (hiQ v. LinkedIn en el 9.º Circuito; Meta v. Bright Data) ha sostenido que raspar datos públicos sin saltar controles no la viola. En la UE, el GDPR aplica a datos personales de sus ciudadanos estén donde estén los servidores, y dato público no equivale a dato libre. Existen además marcos específicos de la UE sobre protección de bases de datos relevantes para el scraping en España.
| Marco | Alcance | Criterio clave |
|---|---|---|
| CFAA (EE. UU.) | Acceso no autorizado a sistemas | Penaliza el acceso no autorizado |
| hiQ v. LinkedIn (9.º Circuito) | Datos públicos | Raspar datos públicos sin saltar controles no viola la CFAA |
| Meta v. Bright Data | Datos públicos | Confirma la línea: público sin eludir barreras |
| GDPR (UE) | Datos personales de ciudadanos UE | Aplica esté donde esté el servidor; público ≠ libre |
| Protección de bases de datos (UE/España) | Bases de datos | Marco específico relevante para el scraping |
Trazabilidad de origen del dato (data lineage)
Registrar de dónde, cuándo y cómo se obtuvo cada dato es lo que permite auditar, reproducir y confiar en el análisis. Las herramientas de extracción modernas insisten en atar el output de vuelta a su fuente, y ese lineage es lo que da consistencia al Modelado de datos aguas abajo. Sin esta trazabilidad, un análisis puede ser correcto y aun así no ser verificable ni reproducible.
Qué observar
Las señales que importan.
La vía de captura se elige por fricción, no por inercia
Cuando existe API o connector, esa es la opción estructurada y automatizable; el export puntual cubre lo que no justifica un connector permanente; el scraping queda como último recurso. El orden importa porque determina la fragilidad y el coste de mantenimiento del pipeline.
El scraping respeta cuatro líneas rojas
Autenticación, datos personales, copyright y rate limiting. Saltar un login, raspar datos personales sin base legal, extraer expresión creativa protegida o golpear un servidor sin límite de frecuencia son las fronteras donde el scraping deja de ser defendible.
Dato público no es dato libre
La jurisprudencia (hiQ v. LinkedIn, Meta v. Bright Data) ha sostenido que raspar datos públicos sin saltar controles no viola la CFAA, pero el GDPR sigue cubriendo datos personales aunque sean visibles. La sanción de la CNIL a KASPR por raspar LinkedIn ilustra ese matiz.
Cada dato lleva su origen registrado
La trazabilidad de origen (data lineage) anota de dónde, cuándo y cómo se obtuvo cada dato. Es el sello de fiabilidad: permite auditar el análisis, reproducirlo y atar cada conclusión de vuelta a su fuente.
Ingesta y ETL no son lo mismo
La ingesta mueve el dato crudo tal cual, priorizando velocidad; el ETL lo limpia y normaliza, priorizando calidad. Confundir ambas fases lleva a mezclar dato bruto con dato listo para analizar.
Conceptos clave
El vocabulario del término.
- Data connector
- Programa que extrae datos de una o varias fuentes upstream y los deposita en un destino de forma estructurada. Actúa de intermediario entre APIs dentro de un pipeline ETL o ELT.
- ETL / ELT
- Fases de un pipeline de datos: extraer-transformar-cargar (ETL) o extraer-cargar-transformar (ELT). Difieren en si la transformación ocurre antes o después de cargar el dato en el destino.
- Web scraping
- Extracción directa del HTML o del contenido renderizado de una web cuando no existe API. Recurre a navegadores headless para renderizar JavaScript; se aplica con criterio legal y ético.
- Rate limiting
- Limitación de la frecuencia de peticiones a una fuente para no sobrecargar ni dañar su servidor. Es una de las líneas rojas del scraping responsable.
- Data lineage
- Trazabilidad de origen del dato: registro de dónde, cuándo y cómo se obtuvo cada dato, para poder auditar, reproducir y confiar en el análisis posterior.
- Ingesta de datos
- Fase que mueve el dato crudo tal cual desde la fuente al destino, priorizando velocidad. Se distingue del ETL, que limpia y normaliza priorizando calidad.
- Snapshot vs incremental
- Modos de extracción: el snapshot trae toda la data de golpe; la carga incremental trae solo lo nuevo desde la última ejecución, con menos carga sobre la fuente.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Fuentes
- Data Connectors Explained: Your ETL Data Integration Guide
- Data Ingestion vs. ETL: What is the Difference?
- What is Data Ingestion? Definition & Comparison to ETL
- Is Web Scraping Legal? GDPR, CCPA & CFAA Frameworks Explained
- Ninth Circuit Holds Data Scraping is Legal in hiQ v. LinkedIn
- Data scraping and the implications of the latest LinkedIn-hiQ court ruling (IAPP)
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.