Inicio/Glosario/Crawl budget (presupuesto de rastreo)

SEO técnico

Crawl budget (presupuesto de rastreo)

El crawl budget (presupuesto de rastreo) es el conjunto de URLs que un buscador puede y quiere rastrear en un sitio. Resulta de combinar el límite de capacidad de rastreo (cuánto puede soportar el servidor) y la demanda de rastreo (cuánto interesa ese contenido al buscador).

Indexación & rastreo

Qué es

Según la definición de Google, el presupuesto de rastreo es "el conjunto de URLs que Google puede y quiere rastrear" de un sitio. Es uno de los dos lados del Rastreo e indexación: solo lo rastreado puede indexarse. Combina dos factores. El primero es el límite de capacidad de rastreo (crawl capacity limit): el máximo de conexiones paralelas simultáneas que usa el rastreador más el retardo entre peticiones. Sube cuando el sitio responde rápido y sin errores; baja ante lentitud o errores 5xx. Es el mecanismo con el que el buscador evita sobrecargar el servidor. El segundo es la demanda de rastreo (crawl demand): el interés del buscador en rastrear, que depende del tamaño del sitio, la frecuencia de actualización, la popularidad de las URLs y su frescura. Esa demanda baja cuando el inventario percibido está inflado por duplicados y URLs no deseadas.

No es una métrica que la mayoría de sitios deba vigilar. Google es explícito: solo importa de verdad en sitios grandes de un millón o más de páginas únicas con contenido que cambia de forma moderada, en sitios medianos-grandes de diez mil o más páginas únicas que cambian a diario, y en sitios con una proporción alta de URLs en estado "Detectada: actualmente sin indexar" en Search Console. Por debajo de esos umbrales, el buscador rastrea con eficiencia y el esfuerzo rinde más en la calidad del contenido que en optimizar el rastreo.

El problema clásico que malgasta presupuesto es la explosión combinatoria de URLs: navegación por facetas, parámetros de filtrado y ordenación, paginación infinita, contenido duplicado, soft 404 y cadenas de redirecciones. El rastreador no puede saber de antemano si una URL facetada es útil, así que accede a un número enorme de ellas antes de descartarlas, restando tiempo a las URLs nuevas y valiosas. La pauta canónica es bloquear en robots.txt lo que no se quiere indexar (no usar noindex con ese fin, porque la URL se rastrea igual para leer la etiqueta), devolver 404 o 410 para páginas eliminadas, consolidar duplicados con canonical y mantener los sitemaps al día con solo URLs canónicas, indexables y con estado 200.

Presupuesto de rastreo

Dos componentes que se combinan

Componente	Qué determina
Capacidad	Lo que tu servidor tolera (rápido = más)
Demanda	Cuánto quiere rastrearte Google

Por qué importa

El presupuesto de rastreo importa porque, en sitios grandes, el rastreador tiene un techo de trabajo: cada hit gastado en una URL inútil es un hit que no llega a una página nueva o relevante. Por eso suele ir de la mano de una buena Arquitectura web y de un Enlazado interno que dirija el rastreo hacia lo que importa, en lugar de dispersarlo. Entender el concepto evita dos errores frecuentes. Uno es invertir esfuerzo en optimizarlo en sitios pequeños, donde no es el cuello de botella. El otro es confundir un problema de calidad percibida con uno de presupuesto: miles de URLs marcadas como "Rastreada/Detectada no indexada" o "Duplicada" en Search Console suelen indicar calidad percibida, no falta de presupuesto, y muchas veces se resuelven con Canonicalización y duplicados antes que tocando el rastreo. Diagnosticar bien la causa es el paso previo a cualquier intervención. No hay garantías de posición ni de indexación derivadas de gestionar el rastreo: es una condición de higiene técnica, no una palanca de ranking directa.

En profundidad

Los dos componentes: capacidad y demanda

El límite de capacidad de rastreo mide cuánto puede el sitio soportar: conexiones paralelas más retardo entre peticiones, ajustado por la salud del servidor. Responder rápido y sin errores 5xx lo eleva; la lentitud o los errores lo reducen. Aquí se cruza con los Core Web Vitals y, en general, con el rendimiento del servidor: un sitio que sirve rápido sostiene más capacidad de rastreo. La demanda de rastreo mide cuánto interesa el contenido al buscador: tamaño, frecuencia de actualización, popularidad de las URLs y necesidad de recrawl por frescura, que conecta con la Frescura de contenido como señal de cuánto quiere el buscador volver a pasar. El presupuesto efectivo es la intersección de ambos: lo que el sitio aguanta y lo que el buscador quiere pedir. Un servidor sano con poco contenido valioso, o mucho contenido valioso en un servidor frágil, limitan el rastreo por lados distintos.

Componente	Qué mide	Lo sube / lo baja
Capacidad de rastreo	Cuánto aguanta el sitio: conexiones paralelas y retardo entre peticiones, ajustado por la salud del servidor	Sube: respuestas rápidas sin errores. Baja: lentitud o errores 5xx
Demanda de rastreo	Cuánto le interesa el contenido al buscador: tamaño, frecuencia de cambio, popularidad y necesidad de recrawl por frescura	Sube: contenido valioso, popular y que cambia. Baja: poco contenido de interés
Presupuesto efectivo	La intersección: lo que el sitio aguanta y lo que el buscador quiere pedir	Limitado por el lado más débil: servidor frágil o contenido sin valor

Cuándo importa de verdad y el mito de las URLs no indexadas

Google fija tres situaciones en las que conviene vigilar el presupuesto: sitios de más de un millón de páginas únicas con cambios moderados, sitios de más de diez mil que cambian a diario, y sitios con una proporción alta de URLs "Detectada: actualmente sin indexar". Es el escenario típico del SEO programático, donde se generan grandes volúmenes de URLs a partir de plantillas y datos. Fuera de esos casos, el foco productivo es la calidad. El mito más extendido es leer miles de URLs "Rastreada/Detectada no indexada" o "Duplicada" en Search Console como un problema de presupuesto. Google lo desmiente: normalmente es una señal de calidad percibida, no de falta de rastreo. Confundir ambas cosas lleva a optimizar el rastreo cuando el trabajo real está en el contenido.

Sitio de más de 1M de páginas únicas con cambios moderadosCaso en que Google recomienda vigilar el presupuesto

Sitio de más de 10.000 páginas que cambia a diarioCaso en que Google recomienda vigilar el presupuesto

Proporción alta de URLs 'Detectada: actualmente sin indexar'Caso en que Google recomienda vigilar el presupuesto

Miles de URLs 'Rastreada/Detectada no indexada' o 'Duplicada' en Search ConsoleMito: Google lo desmiente; suele ser señal de calidad percibida, no de falta de rastreo

Optimizar el rastreo cuando el sitio es pequeño/medioFuera de los tres casos, el foco productivo es la calidad del contenido

Qué malgasta el presupuesto y cómo se ataca

Las fuentes de desperdicio habituales son la navegación facetada, los parámetros de filtro y orden, la paginación infinita, el contenido duplicado, los soft 404 y las cadenas largas de redirecciones; estas últimas conectan con las Redirecciones 301 y migraciones, donde una cadena mal saneada multiplica los saltos que el rastreador debe seguir. La pauta canónica de Google: bloquear en robots.txt las URLs que no se quieren indexar (el noindex no sirve para ahorrar rastreo, porque obliga a rastrear la URL para leer la etiqueta); devolver 404 o 410 para páginas eliminadas; hacer que las combinaciones de filtro sin resultados respondan 404 en lugar de redirigir a una página de error genérica; consolidar duplicados con canonical; mantener los Sitemap XML solo con URLs canónicas, indexables y con estado 200; y usar "&" como separador estándar de parámetros. La auditoría práctica cruza el informe de estadísticas de rastreo de Search Console con un crawl y un Análisis de logs, que muestra qué pide de verdad el rastreador, clasificando cada URL en indexar, canonicalizar, bloquear o AJAX.

Fuente de desperdicio	Pauta canónica de Google
Navegación por facetas, parámetros de filtro y orden	Bloquear en robots.txt las URLs que no se quieren indexar; usar '&' como separador estándar de parámetros
Filtros sin resultados que redirigen a error genérico	Hacer que respondan 404 en lugar de redirigir a una página de error genérica
Páginas eliminadas	Devolver 404 o 410 (el noindex no ahorra rastreo: obliga a rastrear la URL para leer la etiqueta)
Contenido duplicado	Consolidar con canonical; mantener sitemaps solo con URLs canónicas, indexables y con estado 200
Soft 404, cadenas largas de redirecciones, paginación infinita	Auditar cruzando estadísticas de rastreo de Search Console con un crawl y logs; clasificar cada URL en indexar, canonicalizar, bloquear o AJAX

Crawl budget y los rastreadores de IA

El rastreo deja de ser solo cosa de Googlebot. Los rastreadores de agentes de IA, como ClaudeBot o GPTBot —los que alimentan la GEO · Generative Engine Optimization y las respuestas generativas—, representan una parte creciente del tráfico de bots. Recorren la misma navegación facetada y los mismos parámetros que ya desperdiciaban el presupuesto de Googlebot, de modo que el problema se duplica: las mismas URLs inútiles consumen ahora también el presupuesto de rastreo de estos agentes. Las mismas medidas de higiene (robots.txt, canonical, control de facetas y parámetros) trabajan en ambos frentes.

Entran los bots de IA

Rastreadores de agentes como ClaudeBot o GPTBot, una parte creciente del tráfico de bots junto a Googlebot

→

Recorren la misma basura

Atraviesan la navegación facetada y los parámetros que ya desperdiciaban el presupuesto de Googlebot

→

El problema se duplica

Las mismas URLs inútiles consumen ahora también el presupuesto de rastreo de estos agentes

→

Misma higiene, dos frentes

robots.txt, canonical y control de facetas y parámetros trabajan a la vez para Googlebot y para los bots de IA

Qué observar

Las señales que importan.

Sitio por encima de los umbrales oficiales

Más de un millón de páginas únicas con cambios moderados, o más de diez mil que se actualizan a diario, son los tamaños donde Google indica que el presupuesto de rastreo empieza a ser un factor real. Por debajo, rara vez es la prioridad.

Volumen alto de "Detectada: actualmente sin indexar"

Una proporción elevada de URLs en este estado dentro de Search Console es una de las tres condiciones que Google señala para vigilar el rastreo. Apunta a que el buscador descubre URLs que no llega a rastrear o no prioriza.

Explosión combinatoria de URLs

Navegación por facetas, parámetros de filtro y orden o paginación infinita generan un número enorme de URLs. El rastreador las recorre antes de descartarlas, lo que desplaza tiempo de rastreo de las páginas nuevas y valiosas.

Hits de rastreo concentrados en URLs no canónicas

Cuando el análisis de logs muestra que buena parte de las visitas del rastreador caen en soft 404, duplicados o cadenas de redirecciones, hay desperdicio medible. El cruce de logs con el informe de estadísticas de rastreo lo hace visible.

Tráfico creciente de rastreadores de IA en las mismas URLs

Los rastreadores de agentes de IA recorren también la navegación facetada y los parámetros. El desperdicio que afecta a Googlebot empieza a consumir igualmente el presupuesto de estos otros rastreadores.

Conceptos clave

El vocabulario del término.

Límite de capacidad de rastreo (crawl capacity limit): Máximo de conexiones paralelas simultáneas que usa el rastreador más el retardo entre peticiones. Sube si el servidor responde rápido y sin errores; baja ante lentitud o errores 5xx. Protege al servidor de la sobrecarga.
Demanda de rastreo (crawl demand): Interés del buscador en rastrear un sitio. Depende del tamaño, la frecuencia de actualización, la popularidad de las URLs y la frescura. Baja cuando el inventario percibido está inflado por duplicados y URLs no deseadas.
Navegación por facetas: Sistema de filtros combinables (color, talla, precio…) que genera URLs por cada combinación. Sin control, produce una explosión combinatoria de URLs que el rastreador recorre antes de descartarlas.
Soft 404: Página que muestra contenido de "no encontrado" o vacío pero responde con código 200 en lugar de 404 o 410. Confunde al rastreador y consume rastreo en URLs sin valor.
robots.txt: Archivo que indica a los rastreadores qué rutas no deben rastrear. Es la pauta canónica para evitar el rastreo de URLs que no se quieren indexar, a diferencia de noindex, que aún exige rastrear la URL para leer la etiqueta.
Sitemap XML: Listado de URLs que se ofrece al buscador para orientar el rastreo. Como apoyo al presupuesto, debe contener solo URLs canónicas, indexables y con estado 200, y mantenerse al día.
Estadísticas de rastreo (Search Console): Informe de Search Console con el volumen y el detalle de las peticiones del rastreador. Cruzado con un crawl y un análisis de logs, permite ver dónde se desperdicia el presupuesto de rastreo.

Dónde lo aplicamos

Crawl budget e indexación avanzada→Análisis de logs→

Casos de uso · Crawl budget (presupuesto de rastreo)[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Conceptos relacionados

SEO técnicoRastreo e indexación→SEO técnicoNavegación facetada→SEO técnicoAnálisis de logs→SEO técnicorobots.txt→SEO técnicoSitemap XML→SEO técnicoRedirecciones 301 y migraciones→SEO técnicoCanonicalización y duplicados→SEO técnicoSEO programático→

Fuentes

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.

Explora el glosario → Agenda una llamada