Inicio/Glosario/Crawl budget (presupuesto de rastreo)
SEO técnicoCrawl budget (presupuesto de rastreo)
El crawl budget (presupuesto de rastreo) es el conjunto de URLs que un buscador puede y quiere rastrear en un sitio. Resulta de combinar el límite de capacidad de rastreo (cuánto puede soportar el servidor) y la demanda de rastreo (cuánto interesa ese contenido al buscador).
Qué es
Según la definición de Google, el presupuesto de rastreo es "el conjunto de URLs que Google puede y quiere rastrear" de un sitio. Es uno de los dos lados del Rastreo e indexación: solo lo rastreado puede indexarse. Combina dos factores. El primero es el límite de capacidad de rastreo (crawl capacity limit): el máximo de conexiones paralelas simultáneas que usa el rastreador más el retardo entre peticiones. Sube cuando el sitio responde rápido y sin errores; baja ante lentitud o errores 5xx. Es el mecanismo con el que el buscador evita sobrecargar el servidor. El segundo es la demanda de rastreo (crawl demand): el interés del buscador en rastrear, que depende del tamaño del sitio, la frecuencia de actualización, la popularidad de las URLs y su frescura. Esa demanda baja cuando el inventario percibido está inflado por duplicados y URLs no deseadas.
No es una métrica que la mayoría de sitios deba vigilar. Google es explícito: solo importa de verdad en sitios grandes de un millón o más de páginas únicas con contenido que cambia de forma moderada, en sitios medianos-grandes de diez mil o más páginas únicas que cambian a diario, y en sitios con una proporción alta de URLs en estado "Detectada: actualmente sin indexar" en Search Console. Por debajo de esos umbrales, el buscador rastrea con eficiencia y el esfuerzo rinde más en la calidad del contenido que en optimizar el rastreo.
El problema clásico que malgasta presupuesto es la explosión combinatoria de URLs: navegación por facetas, parámetros de filtrado y ordenación, paginación infinita, contenido duplicado, soft 404 y cadenas de redirecciones. El rastreador no puede saber de antemano si una URL facetada es útil, así que accede a un número enorme de ellas antes de descartarlas, restando tiempo a las URLs nuevas y valiosas. La pauta canónica es bloquear en robots.txt lo que no se quiere indexar (no usar noindex con ese fin, porque la URL se rastrea igual para leer la etiqueta), devolver 404 o 410 para páginas eliminadas, consolidar duplicados con canonical y mantener los sitemaps al día con solo URLs canónicas, indexables y con estado 200.
| Componente | Qué determina |
|---|---|
| Capacidad | Lo que tu servidor tolera (rápido = más) |
| Demanda | Cuánto quiere rastrearte Google |
Por qué importa
El presupuesto de rastreo importa porque, en sitios grandes, el rastreador tiene un techo de trabajo: cada hit gastado en una URL inútil es un hit que no llega a una página nueva o relevante. Por eso suele ir de la mano de una buena Arquitectura web y de un Enlazado interno que dirija el rastreo hacia lo que importa, en lugar de dispersarlo. Entender el concepto evita dos errores frecuentes. Uno es invertir esfuerzo en optimizarlo en sitios pequeños, donde no es el cuello de botella. El otro es confundir un problema de calidad percibida con uno de presupuesto: miles de URLs marcadas como "Rastreada/Detectada no indexada" o "Duplicada" en Search Console suelen indicar calidad percibida, no falta de presupuesto, y muchas veces se resuelven con Canonicalización y duplicados antes que tocando el rastreo. Diagnosticar bien la causa es el paso previo a cualquier intervención. No hay garantías de posición ni de indexación derivadas de gestionar el rastreo: es una condición de higiene técnica, no una palanca de ranking directa.
En profundidad
Los dos componentes: capacidad y demanda
El límite de capacidad de rastreo mide cuánto puede el sitio soportar: conexiones paralelas más retardo entre peticiones, ajustado por la salud del servidor. Responder rápido y sin errores 5xx lo eleva; la lentitud o los errores lo reducen. Aquí se cruza con los Core Web Vitals y, en general, con el rendimiento del servidor: un sitio que sirve rápido sostiene más capacidad de rastreo. La demanda de rastreo mide cuánto interesa el contenido al buscador: tamaño, frecuencia de actualización, popularidad de las URLs y necesidad de recrawl por frescura, que conecta con la Frescura de contenido como señal de cuánto quiere el buscador volver a pasar. El presupuesto efectivo es la intersección de ambos: lo que el sitio aguanta y lo que el buscador quiere pedir. Un servidor sano con poco contenido valioso, o mucho contenido valioso en un servidor frágil, limitan el rastreo por lados distintos.
| Componente | Qué mide | Lo sube / lo baja |
|---|---|---|
| Capacidad de rastreo | Cuánto aguanta el sitio: conexiones paralelas y retardo entre peticiones, ajustado por la salud del servidor | Sube: respuestas rápidas sin errores. Baja: lentitud o errores 5xx |
| Demanda de rastreo | Cuánto le interesa el contenido al buscador: tamaño, frecuencia de cambio, popularidad y necesidad de recrawl por frescura | Sube: contenido valioso, popular y que cambia. Baja: poco contenido de interés |
| Presupuesto efectivo | La intersección: lo que el sitio aguanta y lo que el buscador quiere pedir | Limitado por el lado más débil: servidor frágil o contenido sin valor |
Cuándo importa de verdad y el mito de las URLs no indexadas
Google fija tres situaciones en las que conviene vigilar el presupuesto: sitios de más de un millón de páginas únicas con cambios moderados, sitios de más de diez mil que cambian a diario, y sitios con una proporción alta de URLs "Detectada: actualmente sin indexar". Es el escenario típico del SEO programático, donde se generan grandes volúmenes de URLs a partir de plantillas y datos. Fuera de esos casos, el foco productivo es la calidad. El mito más extendido es leer miles de URLs "Rastreada/Detectada no indexada" o "Duplicada" en Search Console como un problema de presupuesto. Google lo desmiente: normalmente es una señal de calidad percibida, no de falta de rastreo. Confundir ambas cosas lleva a optimizar el rastreo cuando el trabajo real está en el contenido.
Qué malgasta el presupuesto y cómo se ataca
Las fuentes de desperdicio habituales son la navegación facetada, los parámetros de filtro y orden, la paginación infinita, el contenido duplicado, los soft 404 y las cadenas largas de redirecciones; estas últimas conectan con las Redirecciones 301 y migraciones, donde una cadena mal saneada multiplica los saltos que el rastreador debe seguir. La pauta canónica de Google: bloquear en robots.txt las URLs que no se quieren indexar (el noindex no sirve para ahorrar rastreo, porque obliga a rastrear la URL para leer la etiqueta); devolver 404 o 410 para páginas eliminadas; hacer que las combinaciones de filtro sin resultados respondan 404 en lugar de redirigir a una página de error genérica; consolidar duplicados con canonical; mantener los Sitemap XML solo con URLs canónicas, indexables y con estado 200; y usar "&" como separador estándar de parámetros. La auditoría práctica cruza el informe de estadísticas de rastreo de Search Console con un crawl y un Análisis de logs, que muestra qué pide de verdad el rastreador, clasificando cada URL en indexar, canonicalizar, bloquear o AJAX.
| Fuente de desperdicio | Pauta canónica de Google |
|---|---|
| Navegación por facetas, parámetros de filtro y orden | Bloquear en robots.txt las URLs que no se quieren indexar; usar '&' como separador estándar de parámetros |
| Filtros sin resultados que redirigen a error genérico | Hacer que respondan 404 en lugar de redirigir a una página de error genérica |
| Páginas eliminadas | Devolver 404 o 410 (el noindex no ahorra rastreo: obliga a rastrear la URL para leer la etiqueta) |
| Contenido duplicado | Consolidar con canonical; mantener sitemaps solo con URLs canónicas, indexables y con estado 200 |
| Soft 404, cadenas largas de redirecciones, paginación infinita | Auditar cruzando estadísticas de rastreo de Search Console con un crawl y logs; clasificar cada URL en indexar, canonicalizar, bloquear o AJAX |
Crawl budget y los rastreadores de IA
El rastreo deja de ser solo cosa de Googlebot. Los rastreadores de agentes de IA, como ClaudeBot o GPTBot —los que alimentan la GEO · Generative Engine Optimization y las respuestas generativas—, representan una parte creciente del tráfico de bots. Recorren la misma navegación facetada y los mismos parámetros que ya desperdiciaban el presupuesto de Googlebot, de modo que el problema se duplica: las mismas URLs inútiles consumen ahora también el presupuesto de rastreo de estos agentes. Las mismas medidas de higiene (robots.txt, canonical, control de facetas y parámetros) trabajan en ambos frentes.
Qué observar
Las señales que importan.
Sitio por encima de los umbrales oficiales
Más de un millón de páginas únicas con cambios moderados, o más de diez mil que se actualizan a diario, son los tamaños donde Google indica que el presupuesto de rastreo empieza a ser un factor real. Por debajo, rara vez es la prioridad.
Volumen alto de "Detectada: actualmente sin indexar"
Una proporción elevada de URLs en este estado dentro de Search Console es una de las tres condiciones que Google señala para vigilar el rastreo. Apunta a que el buscador descubre URLs que no llega a rastrear o no prioriza.
Explosión combinatoria de URLs
Navegación por facetas, parámetros de filtro y orden o paginación infinita generan un número enorme de URLs. El rastreador las recorre antes de descartarlas, lo que desplaza tiempo de rastreo de las páginas nuevas y valiosas.
Hits de rastreo concentrados en URLs no canónicas
Cuando el análisis de logs muestra que buena parte de las visitas del rastreador caen en soft 404, duplicados o cadenas de redirecciones, hay desperdicio medible. El cruce de logs con el informe de estadísticas de rastreo lo hace visible.
Tráfico creciente de rastreadores de IA en las mismas URLs
Los rastreadores de agentes de IA recorren también la navegación facetada y los parámetros. El desperdicio que afecta a Googlebot empieza a consumir igualmente el presupuesto de estos otros rastreadores.
Conceptos clave
El vocabulario del término.
- Límite de capacidad de rastreo (crawl capacity limit)
- Máximo de conexiones paralelas simultáneas que usa el rastreador más el retardo entre peticiones. Sube si el servidor responde rápido y sin errores; baja ante lentitud o errores 5xx. Protege al servidor de la sobrecarga.
- Demanda de rastreo (crawl demand)
- Interés del buscador en rastrear un sitio. Depende del tamaño, la frecuencia de actualización, la popularidad de las URLs y la frescura. Baja cuando el inventario percibido está inflado por duplicados y URLs no deseadas.
- Navegación por facetas
- Sistema de filtros combinables (color, talla, precio…) que genera URLs por cada combinación. Sin control, produce una explosión combinatoria de URLs que el rastreador recorre antes de descartarlas.
- Soft 404
- Página que muestra contenido de "no encontrado" o vacío pero responde con código 200 en lugar de 404 o 410. Confunde al rastreador y consume rastreo en URLs sin valor.
- robots.txt
- Archivo que indica a los rastreadores qué rutas no deben rastrear. Es la pauta canónica para evitar el rastreo de URLs que no se quieren indexar, a diferencia de noindex, que aún exige rastrear la URL para leer la etiqueta.
- Sitemap XML
- Listado de URLs que se ofrece al buscador para orientar el rastreo. Como apoyo al presupuesto, debe contener solo URLs canónicas, indexables y con estado 200, y mantenerse al día.
- Estadísticas de rastreo (Search Console)
- Informe de Search Console con el volumen y el detalle de las peticiones del rastreador. Cruzado con un crawl y un análisis de logs, permite ver dónde se desperdicia el presupuesto de rastreo.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Fuentes
- Administrar el presupuesto de rastreo de sitios grandes (Google Search Central) · 2024
- Crawl Budget Management (Google Crawling Infrastructure) · 2024
- Managing crawling of faceted navigation URLs (Google) · 2024
- What Crawl Budget Means for Googlebot (Google Search Central Blog) · 2017-01
- Faceted navigation in SEO: Best practices to avoid issues (Search Engine Land) · 2024
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.