innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Web scraping y connectors

Analítica

Web scraping y connectors

Conjunto de técnicas de recolección de datos que alimentan la analítica: APIs y connectors, exports puntuales y web scraping. Capturan el dato en origen y lo depositan, de forma estructurada y trazable, en el destino donde se analizará.

Qué es

"Web scraping y connectors" agrupa la fase de captura del pipeline de datos: de dónde sale el dato y cómo entra. Es el primer eslabón de los ETL / pipelines de datos, antes de la transformación. Hay tres vías complementarias, ordenadas de menor a mayor fricción. La preferente son las APIs y connectors: un connector es un programa que extrae datos de una o varias fuentes upstream (Google Search Console, GA4, Bing, DataForSEO, bases de datos, aplicaciones) y los deposita de forma estructurada en el destino, actuando de intermediario entre APIs dentro de un pipeline ETL (extraer-transformar-cargar) o ELT (extraer-cargar-transformar). La extracción puede ser snapshot (toda la data de golpe) o incremental (solo lo nuevo), y programarse en batch o streaming, o lanzarse de forma puntual.

La segunda vía son los exports: descargas puntuales (CSV, hojas de cálculo, dumps) para datos que no justifican un connector permanente. La tercera es el web scraping: extracción directa del HTML o del contenido renderizado cuando no existe API. Es el último recurso y se aplica con criterio legal y ético: respetar robots.txt y los términos de uso, no saltar autenticación, limitar la frecuencia de peticiones (rate limiting) para no dañar el servidor y tratar los datos personales conforme al GDPR. Técnicamente, el scraping moderno recurre a navegadores headless (Playwright) para renderizar JavaScript, además de proxies y gestión de bloqueos y CAPTCHA.

Transversal a las tres vías está la trazabilidad de origen (data lineage): registrar de dónde vino cada dato, cuándo y cómo. Es lo que permite auditar, reproducir y confiar en el análisis posterior. Conviene distinguir la ingesta (mueve el dato crudo tal cual, priorizando velocidad) del ETL (limpia y normaliza, priorizando calidad): son fases distintas del mismo pipeline.

Recolección con trazabilidad
APIs, connectors y scraping con criterio
FUENTES
APIs · webs
CAPTURA
Connectors · scraping
ORIGEN
Trazabilidad
De dónde vino cada dato.

Por qué importa

La calidad de cualquier analítica depende de la calidad y la procedencia del dato que la sostiene: lo que entra aquí condiciona toda la Limpieza y calidad de datos posterior y, río abajo, el Modelado de datos y el Data warehouse (BigQuery) donde acaba consolidándose. Elegir la vía adecuada —API antes que export, export antes que scraping— reduce fricción, fragilidad y riesgo legal; cuando la fuente expone una API REST bien documentada, el connector es más estable y barato de mantener que cualquier scraper. El scraping mal planteado tiene cuatro líneas rojas: autenticación, datos personales, copyright y rate limiting; cruzarlas expone a problemas legales y a bloqueos. La jurisprudencia ha matizado el terreno (raspar datos públicos sin saltar controles no se ha considerado violación de la CFAA en EE. UU.), pero dato público no equivale a dato libre: el GDPR sigue aplicando a datos personales de ciudadanos de la UE. Registrar la trazabilidad de origen no garantiza que el dato sea correcto, pero sin ella no hay forma de auditarlo ni de reproducir un análisis. Una vez capturado y normalizado, este flujo es lo que alimenta cuadros de mando y series temporales de visibilidad; y orquestar estas vías sin escribir código a medida es justo lo que resuelve la Automatización con n8n.

En profundidad

Connectors y APIs: tipos de fuente y modos de extracción

Un connector extrae datos de una fuente upstream y los carga en el destino, normalmente consumiendo una API REST que la fuente publica para ese fin. Hay connectors a bases relacionales, ficheros planos, big data, cloud, aplicaciones, redes sociales, web y a medida. En SEO y analítica son habituales GSC, GA4 —la fuente principal de Eventos y conversiones del sitio—, Bing Webmaster Tools, DataForSEO, Sistrix o PageSpeed/CrUX, esta última el origen de los datos de campo de Core Web Vitals. La extracción puede ser snapshot (toda la data de golpe) o incremental (solo lo nuevo, con menos carga sobre la fuente), y programarse en batch o streaming, o ejecutarse de forma puntual.

EjeOpcionesDetalle
Tipo de fuenteAPI / DB / fichero / webRelacional, ficheros planos, big data, cloud, apps, redes, web o a medida
Fuentes SEO/analíticaGSC, GA4, Bing WMTDataForSEO, Sistrix, PageSpeed/CrUX
Modo de extracciónSnapshot / incrementalTodo de golpe vs. solo lo nuevo (menos carga)
ProgramaciónBatch / streaming / puntualPeriódica, continua o ejecución bajo demanda

Web scraping con criterio legal

Cuando no hay API, el scraping extrae el HTML o el contenido renderizado directamente. Se aplica con criterio: respetar robots.txt —el mismo fichero que gobierna el Rastreo e indexación de los buscadores—, atender los términos de uso, no saltar autenticación, limitar la frecuencia (rate limiting) para no dañar el servidor y tratar los datos personales conforme al GDPR. Técnicamente recurre a navegadores headless como Playwright para renderizar JavaScript —el mismo reto que el JavaScript SEO plantea a los crawlers de Google—, además de proxies y gestión de bloqueos y CAPTCHA.

Respetar robots.txt y términos de usoLeer y acatar las reglas del sitio antes de extraer
Saltar autenticaciónNo acceder a contenido tras login; es acceso no autorizado
Rate limitingLimitar la frecuencia para no dañar el servidor
Tratar datos personales según GDPRBase legal y minimización si hay datos de personas
Renderizado técnicoHeadless (Playwright) para JS, proxies y gestión de bloqueos/CAPTCHA

Marco jurídico del scraping

En EE. UU., la CFAA penaliza el acceso no autorizado; la jurisprudencia (hiQ v. LinkedIn en el 9.º Circuito; Meta v. Bright Data) ha sostenido que raspar datos públicos sin saltar controles no la viola. En la UE, el GDPR aplica a datos personales de sus ciudadanos estén donde estén los servidores, y dato público no equivale a dato libre. Existen además marcos específicos de la UE sobre protección de bases de datos relevantes para el scraping en España.

MarcoAlcanceCriterio clave
CFAA (EE. UU.)Acceso no autorizado a sistemasPenaliza el acceso no autorizado
hiQ v. LinkedIn (9.º Circuito)Datos públicosRaspar datos públicos sin saltar controles no viola la CFAA
Meta v. Bright DataDatos públicosConfirma la línea: público sin eludir barreras
GDPR (UE)Datos personales de ciudadanos UEAplica esté donde esté el servidor; público ≠ libre
Protección de bases de datos (UE/España)Bases de datosMarco específico relevante para el scraping

Trazabilidad de origen del dato (data lineage)

Registrar de dónde, cuándo y cómo se obtuvo cada dato es lo que permite auditar, reproducir y confiar en el análisis. Las herramientas de extracción modernas insisten en atar el output de vuelta a su fuente, y ese lineage es lo que da consistencia al Modelado de datos aguas abajo. Sin esta trazabilidad, un análisis puede ser correcto y aun así no ser verificable ni reproducible.

1
Origen
Registrar de dónde se obtuvo el dato (fuente)
2
Momento y método
Cuándo y cómo se extrajo
3
Atar output a fuente
Las herramientas modernas vinculan el resultado a su origen
4
Auditar y reproducir
Sin trazabilidad el análisis no es verificable ni reproducible

Qué observar

Las señales que importan.

La vía de captura se elige por fricción, no por inercia

Cuando existe API o connector, esa es la opción estructurada y automatizable; el export puntual cubre lo que no justifica un connector permanente; el scraping queda como último recurso. El orden importa porque determina la fragilidad y el coste de mantenimiento del pipeline.

El scraping respeta cuatro líneas rojas

Autenticación, datos personales, copyright y rate limiting. Saltar un login, raspar datos personales sin base legal, extraer expresión creativa protegida o golpear un servidor sin límite de frecuencia son las fronteras donde el scraping deja de ser defendible.

Dato público no es dato libre

La jurisprudencia (hiQ v. LinkedIn, Meta v. Bright Data) ha sostenido que raspar datos públicos sin saltar controles no viola la CFAA, pero el GDPR sigue cubriendo datos personales aunque sean visibles. La sanción de la CNIL a KASPR por raspar LinkedIn ilustra ese matiz.

Cada dato lleva su origen registrado

La trazabilidad de origen (data lineage) anota de dónde, cuándo y cómo se obtuvo cada dato. Es el sello de fiabilidad: permite auditar el análisis, reproducirlo y atar cada conclusión de vuelta a su fuente.

Ingesta y ETL no son lo mismo

La ingesta mueve el dato crudo tal cual, priorizando velocidad; el ETL lo limpia y normaliza, priorizando calidad. Confundir ambas fases lleva a mezclar dato bruto con dato listo para analizar.

Conceptos clave

El vocabulario del término.

Data connector
Programa que extrae datos de una o varias fuentes upstream y los deposita en un destino de forma estructurada. Actúa de intermediario entre APIs dentro de un pipeline ETL o ELT.
ETL / ELT
Fases de un pipeline de datos: extraer-transformar-cargar (ETL) o extraer-cargar-transformar (ELT). Difieren en si la transformación ocurre antes o después de cargar el dato en el destino.
Web scraping
Extracción directa del HTML o del contenido renderizado de una web cuando no existe API. Recurre a navegadores headless para renderizar JavaScript; se aplica con criterio legal y ético.
Rate limiting
Limitación de la frecuencia de peticiones a una fuente para no sobrecargar ni dañar su servidor. Es una de las líneas rojas del scraping responsable.
Data lineage
Trazabilidad de origen del dato: registro de dónde, cuándo y cómo se obtuvo cada dato, para poder auditar, reproducir y confiar en el análisis posterior.
Ingesta de datos
Fase que mueve el dato crudo tal cual desde la fuente al destino, priorizando velocidad. Se distingue del ETL, que limpia y normaliza priorizando calidad.
Snapshot vs incremental
Modos de extracción: el snapshot trae toda la data de golpe; la carga incremental trae solo lo nuevo desde la última ejecución, con menos carga sobre la fuente.

Dónde lo aplicamos

Casos de uso · Web scraping y connectors[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.