Inicio/Glosario/Rastreo e indexación

SEO técnico

Rastreo e indexación

El rastreo e indexación es la fase técnica del SEO en la que un buscador descubre una URL, descarga su contenido (rastreo) y luego lo analiza y decide si lo guarda en su índice (indexación). Una página debe estar indexada para poder aparecer en los resultados, incluidas las funciones de IA de la Búsqueda.

Indexación & rastreo

Qué es

Google describe tres etapas en cómo funciona la Búsqueda: rastreo, indexación y servicio de resultados. En el rastreo, Googlebot descarga el texto, las imágenes y el vídeo de URLs que ya conoce. En la indexación, analiza y renderiza ese contenido y, si lo considera relevante, lo guarda en el índice. En el servicio, ante una consulta devuelve lo que estima pertinente. En la práctica profesional se antepone un paso de descubrimiento: descubrimiento, rastreo, indexación y posicionamiento.

Un matiz clave: rastrear no obliga a indexar. La indexación no está garantizada; Google puede ver una página y decidir no guardarla por falta de relevancia. En Search Console aparece como rastreada, no indexada. Por eso la indexabilidad sigue siendo el pilar, también para que una página sea elegible en las funciones de IA generativa de la Búsqueda como AI Overviews y AI Mode: debe estar indexada y ser apta para mostrarse con fragmento.

Tres controles trabajan en planos distintos y no son intercambiables. robots.txt regula el rastreo: gestiona el acceso de los crawlers y se consulta antes de visitar la URL; sirve para no sobrecargar el servidor, no para ocultar una página de Google. noindex regula la indexación: indica que la URL no entre en el índice, y solo funciona como meta etiqueta o cabecera HTTP en la propia página. rel=canonical consolida duplicados: señala la versión preferida de URLs equivalentes, el núcleo de la canonicalización y duplicados. Bloquear una URL por robots.txt impide que Google llegue a leer su noindex. A esto se suman el sitemap (señal de descubrimiento, no garantía de indexación), el crawl budget (la capacidad de rastreo es finita y conviene concentrarla en lo importante, sobre todo en sitios grandes) y el rendering (si el contenido depende de JavaScript y el servidor no entrega HTML renderizado, el crawler puede ver una cáscara vacía).

Cómo funciona la Búsqueda

Del descubrimiento al servicio — rastrear no obliga a indexar

Descubrimiento

Sitemaps y enlaces revelan la URL.

→

Rastreo

Googlebot descarga el contenido.

→

Render · indexación

Analiza y, si es relevante, lo guarda.

→

Servicio

Aparece ante una consulta.

Por qué importa

Es el cimiento. Si un buscador no encuentra, no lee o no guarda una página, nada de lo que venga después cuenta: ni contenido, ni enlaces de link building y backlinks, ni posiciones. La arquitectura web y el enlazado interno son justo lo que decide qué URLs se descubren y con qué prioridad. Y vale igual para la búsqueda clásica que para las funciones de IA, donde la indexabilidad sigue siendo el requisito de entrada: sin una página indexada no hay citabilidad en respuestas de IA posible, ni en AI Overviews y AI Mode ni en otros motores generativos (GEO · Generative Engine Optimization).

Los fallos aquí son silenciosos. Una página puede estar rastreada y no indexada sin avisar, o quedar fuera por un robots.txt mal puesto, un noindex olvidado o un canonical que apunta donde no debe. Mirar el total de páginas indexadas no basta: el problema suele esconderse en una sección concreta, y el análisis de logs es la forma de ver qué rastrea Google de verdad y no lo que suponemos. Nadie puede garantizar posiciones; sí se puede trabajar para que las páginas importantes sean rastreables e indexables y que el rastreo no se malgaste en URLs sin valor. La técnica abre la puerta; el criterio humano decide qué merece entrar.

En profundidad

Crawl budget: capacidad por demanda

Google define el presupuesto de rastreo como el conjunto de URLs que puede y quiere rastrear. Son dos componentes que se combinan. La capacidad de rastreo es lo que tu servidor tolera: conexiones en paralelo y retardo entre peticiones. Sube si respondes rápido, baja si te ralentizas o devuelves errores 5xx; aquí los Core Web Vitals y el rendimiento del servidor se solapan con lo que tolera el rastreador. La demanda es cuánto le interesa rastrearte: inventario percibido de URLs útiles, popularidad de cada una y obsolescencia.

La lectura de ingeniería es directa. Un servidor lento no solo penaliza al usuario; recorta cuánto te visita el rastreador. Y la mayoría de sitios no tiene un problema de presupuesto: Google solo señala como candidatos los de más de un millón de páginas que cambian semanalmente, más de diez mil que cambian a diario, o muchas URLs encalladas en 'Detectada: actualmente sin indexar' —típico de la navegación facetada y del SEO programático, que generan combinaciones de URLs casi infinitas. Antes de optimizar presupuesto, comprueba que el problema existe; el crawl budget (presupuesto de rastreo) merece atención solo cuando la escala lo justifica.

Componente	Qué es	Qué lo mueve
Capacidad de rastreo	Lo que tu servidor tolera: conexiones en paralelo y retardo entre peticiones	Sube si respondes rápido; baja si te ralentizas o devuelves errores 5xx
Demanda de rastreo	Cuánto le interesa a Google rastrearte	Inventario percibido de URLs útiles, popularidad de cada una y obsolescencia
Presupuesto resultante	URLs que Google puede Y quiere rastrear	Combinación de capacidad x demanda; solo es problema en sitios muy grandes o muy dinámicos

Renderizado en dos fases y sus límites

El rastreo del HTML y la ejecución del JavaScript son dos pasos distintos. Googlebot baja el HTML inicial; después, el Web Rendering Service ejecuta JS y CSS como un navegador para ver el contenido final. Toda página con respuesta 200 OK que no lleve noindex entra en una cola de renderizado, que puede demorar de segundos en adelante.

Un detalle operativo importa: el WRS cachea de forma agresiva para no repetir peticiones, y puede ignorar tus cabeceras de caché HTTP. Es decir, no controlas con precisión cuándo vuelve a leer un recurso JS o CSS. Si tu contenido crítico depende de JavaScript, asume latencia entre que se rastrea el HTML y que se indexa el contenido renderizado: ese es el terreno del JavaScript SEO, donde el patrón de render (SSR, prerender) decide si el crawler ve el contenido o una cáscara. Esa latencia se mide; no se supone.

Rastreo del HTML

Googlebot baja el HTML inicial de la URL

→

Cola de renderizado

Toda página 200 OK sin noindex entra en cola; puede demorar de segundos en adelante

→

Web Rendering Service

Ejecuta JS y CSS como un navegador para ver el contenido final; cachea de forma agresiva

→

Indexación

Se indexa el contenido renderizado; hay latencia medible entre rastreo del HTML e indexación

Límites de bytes y soft 404: dos fugas silenciosas

Hay dos problemas que no devuelven código de error y por eso pasan inadvertidos. El primero es el peso. La documentación de Googlebot indica que rastrea los primeros 2 MB de un tipo de archivo admitido y los primeros 64 MB de un PDF; los recursos referenciados (CSS, JS) se obtienen aparte bajo el mismo límite. HTML inflado puede dejar contenido fuera del índice sin avisar.

El segundo es el soft 404: una página que dice 'no encontrado' o no aporta valor pero responde 200 en vez de 404/410. Google lo detecta por el contenido, deja la URL sin indexar y malgasta rastreo en ella. Aquí conviene distinguirlo de las redirecciones 301 y migraciones, donde un 301 mal aplicado o un destino vacío también genera estos estados ambiguos. Ambos se diagnostican con instrumentación, no a ojo: vigila el peso de tus plantillas y los estados del informe de indexación.

Fuga silenciosa	Qué ocurre	Cómo se diagnostica
Límite de bytes	Googlebot rastrea los primeros 2 MB de un archivo admitido y 64 MB de un PDF; HTML inflado deja contenido fuera del índice	Vigilando el peso de tus plantillas; los recursos CSS/JS se obtienen aparte bajo el mismo límite
Soft 404	Una página de 'no encontrado' o sin valor responde 200 en vez de 404/410; Google la deja sin indexar y malgasta rastreo	Por el contenido, no por el código; revisando los estados del informe de indexación

De la canonicalización a la jerarquía de señales

La ficha lista canonical como uno de los tres controles, pero no cómo Google decide. Cuando varias URLs son idénticas o muy similares, Google las agrupa en un cluster y elige una representativa, la canónica, donde consolida las señales —el corazón de la canonicalización y duplicados. Esa elección pondera fuentes de distinta fuerza: las redirecciones y el rel=canonical son señales fuertes; la inclusión en el sitemap XML es una señal débil; se suman la preferencia por HTTPS y la coherencia del enlazado interno, que refuerza qué URL se interpreta como principal.

El matiz que cambia el trabajo: rel=canonical es una señal fuerte, no una orden. La doc oficial lo dice explícitamente. Google puede elegir una URL distinta de la que tú declaras como canónica. Por eso no basta con poner la etiqueta: hay que alinear todas las señales (redirecciones, sitemap, enlazado, HTTPS) para que apunten al mismo sitio, y luego comprobar en Search Console qué canónica eligió Google de verdad. En entornos multilingües esto se cruza con hreflang y SEO internacional, donde cada variante de idioma debe canonicalizar a sí misma, no a otra.

RedireccionesSeñal fuerte: consolidan la URL representativa del cluster

rel=canonicalSeñal fuerte, pero NO una orden: Google puede elegir otra URL

Preferencia por HTTPSSuma a favor de la versión segura

Coherencia del enlazado internoRefuerza la elección si apunta al mismo sitio

Inclusión en sitemapSeñal débil: por sí sola no decide la canónica

Qué observar

Las señales que importan.

Cobertura segmentada por carpetas

La indexación se lee por secciones en Search Console (p. ej. /blog/ frente a /productos/), no por el total agregado. El dato segmentado revela dónde está el problema real; el agregado lo oculta.

Rastreada, no indexada

Son URLs que Google ve pero descarta por falta de relevancia. Cada una abre una decisión: mejorarla, consolidarla con otra o dejarla fuera del índice.

Tres controles, tres planos

robots.txt, noindex y rel=canonical operan en planos distintos y cada uno cumple su función. Bloquear por robots.txt una URL que lleva noindex es un error: si el rastreador no la accede, nunca ve la directiva noindex.

Crawl budget

La arquitectura y el enlazado interno concentran el rastreo en las páginas importantes y evitan que se consuma en URLs sin valor. Importa sobre todo en sitios grandes.

Rendering de JavaScript

El contenido construido con JavaScript debe llegar como HTML renderizable. Si no, el crawler encuentra una cáscara vacía y el contenido no entra en el índice.

Conceptos clave

El vocabulario del término.

Límite de capacidad de rastreo: Máximo de conexiones en paralelo y retardo entre peticiones que Google usa con tu sitio; sube si el servidor responde rápido y baja si se ralentiza o devuelve errores 5xx.
Demanda de rastreo: Cuánto quiere rastrearte Google, según el inventario de URLs útiles que percibe, la popularidad de cada URL y cada cuánto cambia su contenido.
Web Rendering Service (WRS): Servicio de Google que, en una segunda fase tras rastrear el HTML, ejecuta JavaScript y CSS como un navegador para ver el contenido final; cachea de forma agresiva y puede ignorar las cabeceras de caché HTTP.
Cola de renderizado: Lista de espera donde Google encola toda página con respuesta 200 OK (salvo noindex) para renderizarla; puede demorar de segundos en adelante y retrasa la indexación del contenido generado por JavaScript.
Límite de 2 MB por URL: Googlebot rastrea los primeros 2 MB de un tipo de archivo admitido (y obtiene cada recurso aparte bajo el mismo límite); la excepción son los PDF, con 64 MB. Lo que excede no se procesa.
Soft 404: Página que muestra 'no encontrado' o sin contenido de valor pero responde con código HTTP 200 en vez de 404/410; Google la detecta por el contenido, la deja sin indexar y desperdicia rastreo.
Cluster de duplicados: Conjunto de URLs idénticas o muy similares que Google agrupa para elegir una sola representativa (la canónica), donde consolida las señales de todas ellas.
rel=canonical como señal: Indicación fuerte de qué URL prefiere el editor como canónica, pero no una orden: Google la pondera con redirecciones, sitemaps, HTTPS y enlazado interno, y puede elegir otra distinta.

Dónde lo aplicamos

Arquitectura e indexabilidad→Optimización SEO técnico→Mantenimiento SEO→Auditoría técnica→

Casos de uso · Rastreo e indexación[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Conceptos relacionados

SEO técnicoArquitectura web→SEO técnicoCore Web Vitals→SEO técnicoDatos estructurados→GEOGEO · Generative Engine Optimization→SEO técnicoEnlazado interno→SEO técnicoCanonicalización y duplicados→SEO técnicorobots.txt→SEO técnicoSitemap XML→

Fuentes

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.

Explora el glosario → Agenda una llamada