innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Arquitectura web

SEO técnico

Arquitectura web

La arquitectura web es la organización lógica de un sitio: cómo se jerarquizan sus páginas y URLs, a qué profundidad de clic quedan respecto a la home y cómo se enlazan entre sí. Una buena arquitectura permite que los buscadores descubran, rastreen e indexen las páginas que importan con eficiencia.

Qué es

La arquitectura web define la estructura de un sitio en tres planos: la jerarquía de páginas y URLs, la profundidad de clic (cuántos clics separan cada página de la home) y el enlazado interno que las conecta. Es la base sobre la que un buscador entiende qué contiene el sitio y cómo se relacionan sus partes.

Google trata el enlazado interno como un paso crítico del diseño: las páginas relevantes deben alcanzarse en pocos clics desde la home, porque los rastreadores no usan buscadores ni menús desplegables, solo siguen enlaces que sean elementos <a> con atributo href. El enlazado interno también distribuye autoridad por el sitio. La práctica establecida en la disciplina SEO recomienda mantener las páginas clave a pocos clics de la home, evitar páginas huérfanas (sin enlaces internos entrantes) y usar anchor text descriptivo en vez de genérico.

Un patrón habitual para estructurar es el modelo pilar-cluster (hub-and-spoke), núcleo de los clusters de contenido (pilar-cluster): una página pilar cubre un tema amplio y enlaza a páginas de cluster que tratan subtemas; estas enlazan de vuelta al pilar y entre sí cuando es contextualmente relevante. El esqueleto no se define por el catálogo ni por intuición, sino agrupando intenciones de búsqueda para conectar oferta con demanda.

Profundidad de clic
Cuanto más cerca de la home, más rastreo y peso
NivelPáginaRastreo y peso
0HomeMáximo
1CategoríasAlto
2DetalleMedio
HuérfanaNulo

Por qué importa

Si un buscador no puede recorrer la web con eficiencia, las páginas importantes quedan lejos, sin enlaces entrantes o detrás de enlaces que el rastreador no sigue, y dejan de descubrirse e indexarse. Sin ese rastreo e indexación —el ciclo por el que un buscador encuentra y registra cada URL— no hay visibilidad: ni en la SERP clásica ni en las respuestas con IA, donde los AI Overviews y AI Mode dependen igualmente de que la página exista en el índice. La arquitectura es condición necesaria en ambos frentes.

El enlazado interno reparte autoridad por el sitio, así que una estructura coherente concentra señales en las páginas que deben posicionar en lugar de diluirlas; es, de hecho, la palanca central del enlazado interno como disciplina y un complemento del que llega vía link building y backlinks externos. Nadie puede garantizar rankings, pero una arquitectura bien construida deja de ser un freno: la web pasa a ser entendible para buscadores y para LLMs, y refuerza la autoridad temática —la señal acumulada que asocia un sitio con un campo— que la búsqueda con IA pondera al decidir a quién citar. Las decisiones de qué priorizar se vuelven medibles. El SEO técnico de siempre no se sustituye con la IA; se amplía.

En profundidad

Crawl budget: qué parte del árbol se rastrea de verdad

La jerarquía define cómo debería rastrearse el sitio. El crawl budget (presupuesto de rastreo) define cuánto se rastrea en la práctica. En sitios grandes Google cruza dos factores: el límite de capacidad (conexiones simultáneas y retardo que tolera el servidor) y la demanda de rastreo (tamaño, frecuencia de actualización, popularidad y calidad). La consecuencia es operativa. Cada URL de bajo valor que Googlebot visita resta tiempo a las que importan: duplicados, facetas, soft 404, espacios infinitos y cadenas de redirección consumen presupuesto sin devolver nada.

Aquí la arquitectura deja de ser un diagrama y se vuelve economía de recursos. El método: instrumentar el análisis de logs de servidor para ver qué rastrea Google de verdad, y recortar el ruido para que el presupuesto caiga sobre las páginas útiles. Fuente: Google Search Central, 'Crawl Budget Management for large sites'.

FactorQué mideCómo se gestiona
Límite de capacidadConexiones simultáneas y retardo que tolera el servidorServidor rápido y estable: sube el techo de rastreo
Demanda de rastreoTamaño, frecuencia de actualización, popularidad y calidadContenido útil y fresco: Google quiere volver
URLs de bajo valorDuplicados, facetas, soft 404, espacios infinitos, redireccionesRecortar el ruido para que el presupuesto caiga en lo útil
InstrumentaciónQué rastrea Google de verdadLogs de servidor: medir antes de optimizar

Facetas, paginación y duplicados: las tres fugas de un e-commerce

La navegación facetada (color, talla, precio, orden) multiplica URLs casi sin límite. Por defecto, Google recomienda bloquear su rastreo en robots.txt, el archivo que indica al rastreador qué rutas no debe pedir: rastrear filtros consume recursos del servidor sin buen motivo. Si una faceta debe indexarse, mantén un orden de filtros consistente, usa '&' como separador estándar de parámetros, evita filtros duplicados y devuelve un 404 real cuando una combinación no da resultados.

La paginación es la segunda fuga. Google ya no usa rel=next/prev, así que cada página de la serie necesita su propia URL canónica: no canonicalices todo a la página 1, y no uses fragmentos (#) para numerar, porque Google los ignora. El scroll infinito solo es rastreable si existe una serie paginada equivalente, con URLs únicas accesibles directamente y gestionada con History API.

La tercera fuga es la canonicalización y duplicados: cuando varias URLs sirven el mismo contenido (HTTP/HTTPS, con o sin barra, www, parámetros), Google elige una representante y deduplica. Las señales —sitemap, rel=canonical, redirecciones, enlazado interno— son preferencias, no órdenes: el sistema puede elegir otra. Diseñar URLs limpias desde el origen evita pelear contra esa elección después. Fuentes: Google Search Central, 'Managing crawling of faceted navigation URLs', guía de paginación e-commerce y 'What is URL Canonicalization'.

1
Facetas
Filtros (color, talla, precio) multiplican URLs. Por defecto, bloquear su rastreo en robots.txt
2
Paginación
Sin rel=next/prev. Cada página con su canonical propia; no canonicalizar a la pág 1 ni numerar con #
3
Scroll infinito
Solo rastreable si existe serie paginada equivalente con URLs únicas, vía History API
4
Canonicalización
Google deduplica y elige representante. Sitemap, canonical, redirects, enlazado son preferencias, no órdenes

Cuando los enlaces dependen de JavaScript

La arquitectura no termina en el <a href>. Si los enlaces o el contenido se inyectan con JavaScript, entramos en el terreno del JavaScript SEO: Googlebot procesa la página en tres fases —rastreo, renderizado e indexación— y el renderizado (un Chromium headless) ocurre en una cola diferida, cuando hay recursos.

La implicación es directa. Un enlace que solo aparece tras ejecutar JS cuenta únicamente si, una vez renderizado, cumple las prácticas de enlaces rastreables. Un fragmento de URL (#) no resuelve como ruta propia, así que las SPAs que navegan por fragmentos dejan huecos en el grafo de enlaces. La regla de ingeniería: las rutas importantes deben existir como URLs reales servidas por History API, y el enlazado clave no debería depender de que el render llegue a tiempo. Fuente: Google Search Central, 'JavaScript SEO basics'.

1
Rastreo
Googlebot descarga el HTML inicial y descubre enlaces presentes en el origen
2
Renderizado
Chromium headless ejecuta el JS en una cola diferida, cuando hay recursos
3
Indexación
Los enlaces inyectados por JS cuentan solo si, tras renderizar, son <a href> rastreables
4
Regla
Rutas clave como URLs reales (History API), no fragmentos #; no depender de que el render llegue a tiempo

El matiz de la profundidad de clic

La profundidad de clic es una métrica útil, pero conviene leerla con criterio. No es una señal directa de probabilidad de rastreo: Google también descubre páginas por enlaces externos, no solo por la distancia desde la home.

Hay un segundo matiz. El modelo Reasonable Surfer —descrito en una patente de Google, no una práctica confirmada hoy— pondera cada enlace según la probabilidad de que un usuario realista haga clic en él. Un enlace en el cuerpo del contenido pesa distinto a uno de navegación, footer o sidebar. Es decir, no todos los enlaces que reducen profundidad valen lo mismo. Optimizar arquitectura no es solo acortar clics en una hoja de cálculo: es colocar los enlaces donde de verdad fluyen la atención y la autoridad. Fuente: patente Reasonable Surfer, vía SEO by the Sea.

La profundidad de clic es señal directa de probabilidad de rastreoGoogle también descubre páginas por enlaces externos, no solo por distancia a la home
Es una métrica útil leída con criterioIndica accesibilidad, pero no equivale a prioridad de rastreo
Todos los enlaces que reducen profundidad valen lo mismoReasonable Surfer (patente, no práctica confirmada) pondera por probabilidad de clic real
La posición del enlace importaCuerpo del contenido pesa distinto que navegación, footer o sidebar
Optimizar es colocar enlaces donde fluyen atención y autoridadNo solo acortar clics en una hoja de cálculo

Qué observar

Las señales que importan.

Profundidad de clic

Las páginas relevantes deben alcanzarse en pocos clics desde la home. Cuanto más enterradas en la estructura, menos rastreo y peso reciben.

Enlazado interno

Las páginas huérfanas no reciben enlaces internos y quedan invisibles. El anchor text descriptivo y el enlazado hacia las páginas que importan dirigen el flujo de autoridad.

Estructura por intención

La agrupación en pilares y clusters debe responder a la demanda real de búsqueda, no al catálogo ni a la intuición.

URLs y jerarquía

La estructura de URLs, las categorías y los breadcrumbs deben reflejar una jerarquía coherente y legible.

Enlaces rastreables

Los enlaces clave deben ser elementos <a> con href. Los basados solo en JavaScript o en menús que el rastreador no sigue no transmiten ni se rastrean.

Conceptos clave

El vocabulario del término.

Crawl budget (presupuesto de rastreo)
El conjunto de URLs que Google puede y quiere rastrear de un sitio, resultado de cruzar su límite de capacidad de rastreo con su demanda de rastreo.
Crawl capacity limit (límite de capacidad)
Número máximo de conexiones simultáneas y el retardo entre peticiones que Googlebot usa con un sitio, según la salud y velocidad de respuesta del servidor.
Crawl demand (demanda de rastreo)
Cuánto quiere rastrear Google un sitio en función de su tamaño, su frecuencia de actualización, su popularidad y la calidad de su contenido.
Navegación facetada (faceted navigation)
Sistema de filtros (color, talla, precio, orden) que genera combinaciones casi infinitas de URLs y, mal gestionado, dispara duplicados y desperdicia presupuesto de rastreo.
Canonicalización
Proceso por el que Google elige una URL representante (canónica) entre varias páginas duplicadas o muy similares para deduplicar y consolidar señales.
Soft 404
Página que responde 200 (OK) pero cuyo contenido indica que no existe o no tiene resultados; sigue rastreándose y gasta presupuesto, por eso conviene devolver un 404 real.
Render queue (cola de renderizado)
Etapa diferida en la que Googlebot ejecuta el JavaScript de una página con un Chromium headless, cuando hay recursos, antes de indexarla.
Reasonable Surfer model
Modelo descrito en una patente de Google que pondera el valor que transmite un enlace según la probabilidad de que un usuario realista haga clic, influida por su posición y contexto.
Casos de uso · Arquitectura web[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.