Inicio/Glosario/Navegación facetada

SEO técnico

Navegación facetada

La navegación facetada es el sistema de filtros combinables (color, talla, precio, marca, orden) que acota un listado de productos o resultados. Cada combinación suele generar una URL distinta, casi siempre con parámetros, lo que la convierte en uno de los focos clásicos de problemas de SEO técnico en catálogos grandes.

Indexación & rastreo Arquitectura & enlazado

Qué es

La navegación facetada (faceted navigation) es el patrón de filtros que permite al usuario acotar un listado por varios atributos a la vez: color, talla, precio, marca, valoración, orden o tipo de vista. Es habitual en e-commerce y grandes catálogos, y aporta una buena experiencia de usuario.

El problema aparece en la capa de URLs. Cada combinación de filtros tiende a producir una dirección propia, normalmente con parámetros (por ejemplo ?color=rojo&talla=42&orden=precio). Así, un puñado de categorías puede expandirse a miles o millones de URLs casi idénticas. Conviene distinguir dos conceptos que suelen mezclarse: un facet modifica el contenido mostrado —un subconjunto real de productos, como zapatillas grises de una marca— y puede tener valor de búsqueda propio; un filtro de orden o de vista (ordenar por precio, ver en cuadrícula, paginación de sesión) no cambia el contenido sustantivo y rara vez debe indexarse.

No existe una solución única. Se segmenta cada combinación por su valor y se combinan controles: convertir las combinaciones de alta demanda en páginas estáticas rastreables con URL limpia, H1 y contenido propios; bloquear en robots.txt o resolver en cliente (AJAX) las de bajo valor o casi infinitas; usar canonical para consolidar variantes que sí se rastrean; y reservar noindex para retirar del índice páginas concretas.

Filtros que explotan en URLs

Mal gestionada, malgasta el rastreo

FILTROS

Color · talla · orden

→

EXPLOSIÓN

Combinaciones

Casi infinitas.

→

CONTROL

Canonical · robots

Indexar solo lo que vende.

Por qué importa

Una navegación facetada sin gobierno produce tres males concretos: contenido duplicado (muchas URLs con contenido igual o casi igual), problema que aborda de raíz la Canonicalización y duplicados; malgasto de presupuesto de rastreo —el Crawl budget (presupuesto de rastreo), la cuota que el rastreador dedica al sitio, se agota en combinaciones sin valor en lugar de en las páginas importantes—; e index bloat: URLs basura indexadas que diluyen señales y autoridad, distorsionando el Rastreo e indexación que decide qué entra en el buscador.

El matiz técnico que más errores causa es que robots.txt y noindex no se combinan. Una URL bloqueada en robots.txt no se rastrea, así que el buscador nunca llega a leer su canonical ni su noindex —e incluso puede indexarla a ciegas si recibe enlaces—. Y noindex sí consume rastreo, porque hay que rastrear la página para leer la etiqueta antes de descartarla; por eso Google desaconseja noindex como mecanismo para ahorrar crawl budget y recomienda robots.txt para ese fin. La regla práctica: robots.txt para que no se gaste rastreo; noindex (rastreable) para sacar del índice algo cuya etiqueta sí quieres que se lea; canonical para consolidar duplicados que sí se rastrean. Gestionarla bien ordena el rastreo y el índice, pero ninguna técnica garantiza posiciones.

En profundidad

Facet frente a filtro, orden o vista

No toda combinación merece URL indexable. Un facet acota a un subconjunto real de productos (una marca, un color) y puede responder a una búsqueda concreta —su Intención de búsqueda, lo que el usuario realmente quiere al teclear esa consulta—, por lo que a veces interesa que sea una página propia. Un control de orden (precio ascendente), de vista (cuadrícula o lista) o de paginación de sesión no cambia el contenido sustantivo: presenta los mismos productos de otro modo. Esa distinción decide qué combinaciones se trabajan como páginas y cuáles se mantienen fuera del índice.

Facet (marca, color)Acota a un subconjunto real de productos y puede responder a una búsqueda concreta: candidato a página propia

Orden (precio ascendente)Mismos productos reordenados: no cambia el contenido sustantivo

Vista (cuadrícula o lista)Misma información presentada de otro modo: no merece URL indexable

Paginación de sesiónRecorre el mismo conjunto: se mantiene fuera del índice

Repertorio de controles y cuándo usar cada uno

Combinaciones de alta demanda: convertirlas en páginas estáticas rastreables, con URL limpia, H1 y contenido propios, canonical auto-referente e inclusión en el Sitemap XML —el fichero que declara las URLs que quieres que el buscador conozca—, cuidando no incurrir en Canibalización de keywords frente a la categoría padre, es decir, que dos páginas compitan por la misma consulta. Combinaciones de bajo valor o casi infinitas: bloquearlas en robots.txt (recomendación de Google para ahorrar rastreo) o mantenerlas en cliente vía AJAX, sin generar URL indexable. Variantes que sí se rastrean: canonical hacia la categoría ancla para consolidar señales. Y noindex para retirar del índice páginas concretas que se quieren rastrear.

Tipo de combinación	Tratamiento	Señal técnica
Alta demanda	Página estática rastreable	URL limpia, H1 y contenido propios, canonical auto-referente, en sitemap (sin canibalizar la padre)
Bajo valor / casi infinitas	Fuera del índice	Bloqueo en robots.txt o resolución en cliente vía AJAX (sin URL indexable)
Variante que sí se rastrea	Consolidar señales	Canonical hacia la categoría ancla
Página a retirar del índice	Desindexar pero rastrear	noindex (rastreable)

El matiz excluyente robots.txt frente a noindex

Son mecanismos distintos que no deben solaparse. robots.txt, el archivo que regula qué puede rastrear el buscador, impide el rastreo: la página no se visita, por lo que su canonical y su noindex quedan invisibles para el buscador, que aun así podría indexar la URL a ciegas si recibe enlaces. noindex sí saca del índice, pero exige rastreo previo para leer la etiqueta, de modo que no ahorra presupuesto de rastreo. De ahí la regla: robots.txt para ahorrar rastreo, noindex (rastreable) para desindexar.

Mecanismo	Qué hace	Efecto en rastreo
robots.txt	Impide el rastreo: no se visita la página, su canonical y noindex quedan invisibles; podría indexarse a ciegas si recibe enlaces	Ahorra presupuesto de rastreo
noindex	Saca del índice, pero exige rastreo previo para leer la etiqueta	No ahorra presupuesto de rastreo
Regla	No solaparlos: robots.txt para ahorrar rastreo; noindex (rastreable) para desindexar	Cada uno cubre un objetivo distinto

Buenas prácticas de URL y enlazado

Conviene mantener un orden consistente de las facetas en la URL para no multiplicar variantes equivalentes, ofrecer breadcrumbs hacia la categoría padre e incluir en el sitemap solo las URLs canónicas. Si una combinación debe ser accesible y marcable, la URL ha de cambiar al filtrar; si no debe indexarse, suele resolverse en cliente sin alterar la dirección. Aquí el Enlazado interno —cómo se distribuyen los enlaces dentro del sitio— decide qué facetas reciben fuerza y se descubren con prioridad. La antigua herramienta de parámetros de URL de Search Console quedó deprecada en abril de 2022, así que el control recae hoy en robots.txt, canonical, noindex, esa arquitectura de enlazado interno y unas URLs limpias. En catálogos generados a escala, este gobierno es la base del SEO programático, que produce muchas páginas plantilladas y necesita reglas estrictas de indexación para no inundar el índice.

Orden consistente de facetas en la URLEvita multiplicar variantes equivalentes de la misma página

Breadcrumbs hacia la categoría padreRefuerzan la jerarquía y el enlazado interno

Solo URLs canónicas en el sitemapSe indexa lo que debe indexarse

URL cambia si la combinación debe ser accesible y marcableSi no debe indexarse, se resuelve en cliente sin alterar la dirección

Herramienta de parámetros de URL de Search ConsoleDeprecada en abril de 2022: el control recae en robots.txt, canonical, noindex, enlazado interno y URLs limpias

Qué observar

Las señales que importan.

Picos de 'Duplicada, Google eligió otra canónica' o 'Rastreada/Detectada, actualmente no indexada' a gran escala

En GSC > Indexación > Páginas, estos estados creciendo sobre muchas URLs suelen delatar facetas mal gestionadas: el buscador percibe duplicación o baja calidad y descarta combinaciones. Es una de las primeras pistas de que el catálogo expande URLs sin valor.

Número de URLs indexadas muy por encima de los productos y categorías reales

Si el índice contiene bastantes más URLs que productos y categorías existen, suele indicar que las combinaciones de filtros se están indexando sin control. Señala posible index bloat.

URLs con varios parámetros de filtro y orden apareciendo en el índice

Direcciones del tipo ?color=&talla=&orden= indexadas indican que combinaciones sin valor de búsqueda propio están entrando en el índice en lugar de quedar bloqueadas o resueltas en cliente.

El rastreador consume rastreo en combinaciones de parámetros sin valor

En los logs de servidor, ver al rastreador insistiendo en combinaciones de facetas mientras categorías importantes se rastrean poco apunta a un reparto ineficiente del presupuesto de rastreo.

Conceptos clave

El vocabulario del término.

Facet: Filtro que acota el listado a un subconjunto real de productos (por ejemplo, una marca o un color). Cambia el contenido mostrado y puede tener valor de búsqueda propio, por lo que a veces conviene que sea una página indexable.
Crawl budget (presupuesto de rastreo): Cantidad de páginas que el rastreador dedica a un sitio en un periodo. Las facetas sin valor pueden consumirlo en combinaciones inútiles, restando rastreo a las páginas importantes.
Index bloat: Saturación del índice con URLs de poco o ningún valor —combinaciones de filtros casi idénticas— que diluyen señales y autoridad del sitio.
Etiqueta canonical: Indicación que señala la versión preferente de un contenido para consolidar señales entre variantes que sí se rastrean. No bloquea el rastreo y es una sugerencia, no una orden.
Etiqueta noindex: Directiva que pide retirar una página del índice. Requiere que la página se rastree para leerla, por lo que consume presupuesto de rastreo y no sirve para ahorrarlo.
robots.txt: Archivo que indica qué rutas no deben rastrearse. Evita el gasto de rastreo, pero al impedir la visita el buscador no ve el canonical ni el noindex de esas URLs, que incluso pueden indexarse a ciegas por enlaces.
Herramienta de parámetros de URL: Función de Search Console, hoy deprecada (abril de 2022), que permitía indicar cómo tratar parámetros. Su gestión se traslada ahora a robots.txt, canonical, noindex y la arquitectura de enlazado.

Dónde lo aplicamos

Crawl budget e indexación avanzada→SEO para ecommerce→

Casos de uso · Navegación facetada[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Conceptos relacionados

SEO técnicoCrawl budget (presupuesto de rastreo)→SEO técnicoCanonicalización y duplicados→SEO técnicoRastreo e indexación→SEO técnicorobots.txt→SEO técnicoArquitectura web→SEO técnicoEnlazado interno→SEO técnicoSitemap XML→ContenidosCanibalización de keywords→

Fuentes

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.

Explora el glosario → Agenda una llamada