Inicio/Glosario/Arquitectura web
SEO técnicoArquitectura web
La arquitectura web es la organización lógica de un sitio: cómo se jerarquizan sus páginas y URLs, a qué profundidad de clic quedan respecto a la home y cómo se enlazan entre sí. Una buena arquitectura permite que los buscadores descubran, rastreen e indexen las páginas que importan con eficiencia.
Qué es
La arquitectura web define la estructura de un sitio en tres planos: la jerarquía de páginas y URLs, la profundidad de clic (cuántos clics separan cada página de la home) y el enlazado interno que las conecta. Es la base sobre la que un buscador entiende qué contiene el sitio y cómo se relacionan sus partes.
Google trata el enlazado interno como un paso crítico del diseño: las páginas relevantes deben alcanzarse en pocos clics desde la home, porque los rastreadores no usan buscadores ni menús desplegables, solo siguen enlaces que sean elementos <a> con atributo href. El enlazado interno también distribuye autoridad por el sitio. La práctica establecida en la disciplina SEO recomienda mantener las páginas clave a pocos clics de la home, evitar páginas huérfanas (sin enlaces internos entrantes) y usar anchor text descriptivo en vez de genérico.
Un patrón habitual para estructurar es el modelo pilar-cluster (hub-and-spoke), núcleo de los clusters de contenido (pilar-cluster): una página pilar cubre un tema amplio y enlaza a páginas de cluster que tratan subtemas; estas enlazan de vuelta al pilar y entre sí cuando es contextualmente relevante. El esqueleto no se define por el catálogo ni por intuición, sino agrupando intenciones de búsqueda para conectar oferta con demanda.
| Nivel | Página | Rastreo y peso |
|---|---|---|
| 0 | Home | Máximo |
| 1 | Categorías | Alto |
| 2 | Detalle | Medio |
| ∞ | Huérfana | Nulo |
Por qué importa
Si un buscador no puede recorrer la web con eficiencia, las páginas importantes quedan lejos, sin enlaces entrantes o detrás de enlaces que el rastreador no sigue, y dejan de descubrirse e indexarse. Sin ese rastreo e indexación —el ciclo por el que un buscador encuentra y registra cada URL— no hay visibilidad: ni en la SERP clásica ni en las respuestas con IA, donde los AI Overviews y AI Mode dependen igualmente de que la página exista en el índice. La arquitectura es condición necesaria en ambos frentes.
El enlazado interno reparte autoridad por el sitio, así que una estructura coherente concentra señales en las páginas que deben posicionar en lugar de diluirlas; es, de hecho, la palanca central del enlazado interno como disciplina y un complemento del que llega vía link building y backlinks externos. Nadie puede garantizar rankings, pero una arquitectura bien construida deja de ser un freno: la web pasa a ser entendible para buscadores y para LLMs, y refuerza la autoridad temática —la señal acumulada que asocia un sitio con un campo— que la búsqueda con IA pondera al decidir a quién citar. Las decisiones de qué priorizar se vuelven medibles. El SEO técnico de siempre no se sustituye con la IA; se amplía.
En profundidad
Crawl budget: qué parte del árbol se rastrea de verdad
La jerarquía define cómo debería rastrearse el sitio. El crawl budget (presupuesto de rastreo) define cuánto se rastrea en la práctica. En sitios grandes Google cruza dos factores: el límite de capacidad (conexiones simultáneas y retardo que tolera el servidor) y la demanda de rastreo (tamaño, frecuencia de actualización, popularidad y calidad). La consecuencia es operativa. Cada URL de bajo valor que Googlebot visita resta tiempo a las que importan: duplicados, facetas, soft 404, espacios infinitos y cadenas de redirección consumen presupuesto sin devolver nada.
Aquí la arquitectura deja de ser un diagrama y se vuelve economía de recursos. El método: instrumentar el análisis de logs de servidor para ver qué rastrea Google de verdad, y recortar el ruido para que el presupuesto caiga sobre las páginas útiles. Fuente: Google Search Central, 'Crawl Budget Management for large sites'.
| Factor | Qué mide | Cómo se gestiona |
|---|---|---|
| Límite de capacidad | Conexiones simultáneas y retardo que tolera el servidor | Servidor rápido y estable: sube el techo de rastreo |
| Demanda de rastreo | Tamaño, frecuencia de actualización, popularidad y calidad | Contenido útil y fresco: Google quiere volver |
| URLs de bajo valor | Duplicados, facetas, soft 404, espacios infinitos, redirecciones | Recortar el ruido para que el presupuesto caiga en lo útil |
| Instrumentación | Qué rastrea Google de verdad | Logs de servidor: medir antes de optimizar |
Facetas, paginación y duplicados: las tres fugas de un e-commerce
La navegación facetada (color, talla, precio, orden) multiplica URLs casi sin límite. Por defecto, Google recomienda bloquear su rastreo en robots.txt, el archivo que indica al rastreador qué rutas no debe pedir: rastrear filtros consume recursos del servidor sin buen motivo. Si una faceta debe indexarse, mantén un orden de filtros consistente, usa '&' como separador estándar de parámetros, evita filtros duplicados y devuelve un 404 real cuando una combinación no da resultados.
La paginación es la segunda fuga. Google ya no usa rel=next/prev, así que cada página de la serie necesita su propia URL canónica: no canonicalices todo a la página 1, y no uses fragmentos (#) para numerar, porque Google los ignora. El scroll infinito solo es rastreable si existe una serie paginada equivalente, con URLs únicas accesibles directamente y gestionada con History API.
La tercera fuga es la canonicalización y duplicados: cuando varias URLs sirven el mismo contenido (HTTP/HTTPS, con o sin barra, www, parámetros), Google elige una representante y deduplica. Las señales —sitemap, rel=canonical, redirecciones, enlazado interno— son preferencias, no órdenes: el sistema puede elegir otra. Diseñar URLs limpias desde el origen evita pelear contra esa elección después. Fuentes: Google Search Central, 'Managing crawling of faceted navigation URLs', guía de paginación e-commerce y 'What is URL Canonicalization'.
Cuando los enlaces dependen de JavaScript
La arquitectura no termina en el <a href>. Si los enlaces o el contenido se inyectan con JavaScript, entramos en el terreno del JavaScript SEO: Googlebot procesa la página en tres fases —rastreo, renderizado e indexación— y el renderizado (un Chromium headless) ocurre en una cola diferida, cuando hay recursos.
La implicación es directa. Un enlace que solo aparece tras ejecutar JS cuenta únicamente si, una vez renderizado, cumple las prácticas de enlaces rastreables. Un fragmento de URL (#) no resuelve como ruta propia, así que las SPAs que navegan por fragmentos dejan huecos en el grafo de enlaces. La regla de ingeniería: las rutas importantes deben existir como URLs reales servidas por History API, y el enlazado clave no debería depender de que el render llegue a tiempo. Fuente: Google Search Central, 'JavaScript SEO basics'.
El matiz de la profundidad de clic
La profundidad de clic es una métrica útil, pero conviene leerla con criterio. No es una señal directa de probabilidad de rastreo: Google también descubre páginas por enlaces externos, no solo por la distancia desde la home.
Hay un segundo matiz. El modelo Reasonable Surfer —descrito en una patente de Google, no una práctica confirmada hoy— pondera cada enlace según la probabilidad de que un usuario realista haga clic en él. Un enlace en el cuerpo del contenido pesa distinto a uno de navegación, footer o sidebar. Es decir, no todos los enlaces que reducen profundidad valen lo mismo. Optimizar arquitectura no es solo acortar clics en una hoja de cálculo: es colocar los enlaces donde de verdad fluyen la atención y la autoridad. Fuente: patente Reasonable Surfer, vía SEO by the Sea.
Qué observar
Las señales que importan.
Profundidad de clic
Las páginas relevantes deben alcanzarse en pocos clics desde la home. Cuanto más enterradas en la estructura, menos rastreo y peso reciben.
Enlazado interno
Las páginas huérfanas no reciben enlaces internos y quedan invisibles. El anchor text descriptivo y el enlazado hacia las páginas que importan dirigen el flujo de autoridad.
Estructura por intención
La agrupación en pilares y clusters debe responder a la demanda real de búsqueda, no al catálogo ni a la intuición.
URLs y jerarquía
La estructura de URLs, las categorías y los breadcrumbs deben reflejar una jerarquía coherente y legible.
Enlaces rastreables
Los enlaces clave deben ser elementos <a> con href. Los basados solo en JavaScript o en menús que el rastreador no sigue no transmiten ni se rastrean.
Conceptos clave
El vocabulario del término.
- Crawl budget (presupuesto de rastreo)
- El conjunto de URLs que Google puede y quiere rastrear de un sitio, resultado de cruzar su límite de capacidad de rastreo con su demanda de rastreo.
- Crawl capacity limit (límite de capacidad)
- Número máximo de conexiones simultáneas y el retardo entre peticiones que Googlebot usa con un sitio, según la salud y velocidad de respuesta del servidor.
- Crawl demand (demanda de rastreo)
- Cuánto quiere rastrear Google un sitio en función de su tamaño, su frecuencia de actualización, su popularidad y la calidad de su contenido.
- Navegación facetada (faceted navigation)
- Sistema de filtros (color, talla, precio, orden) que genera combinaciones casi infinitas de URLs y, mal gestionado, dispara duplicados y desperdicia presupuesto de rastreo.
- Canonicalización
- Proceso por el que Google elige una URL representante (canónica) entre varias páginas duplicadas o muy similares para deduplicar y consolidar señales.
- Soft 404
- Página que responde 200 (OK) pero cuyo contenido indica que no existe o no tiene resultados; sigue rastreándose y gasta presupuesto, por eso conviene devolver un 404 real.
- Render queue (cola de renderizado)
- Etapa diferida en la que Googlebot ejecuta el JavaScript de una página con un Chromium headless, cuando hay recursos, antes de indexarla.
- Reasonable Surfer model
- Modelo descrito en una patente de Google que pondera el valor que transmite un enlace según la probabilidad de que un usuario realista haga clic, influida por su posición y contexto.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Fuentes
- Crawl Budget Management - Google for Developers · 2026-06-01
- Importance of link architecture - Google Search Central Blog · 2026-06-01
- SEO Link Best Practices for Google - Google Search Central · 2026-06-01
- Ecommerce URL Structure Best Practices - Google Search Central · 2026-06-01
- Topical Authority SEO: Your Moat Against AI Search (Guide) - Keyword Insights · 2025-11-13
- Guía de Google sobre la optimización para las funciones de IA generativa de la Búsqueda · 2026-05-22
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.