Inicio/Glosario/Navegación facetada
SEO técnicoNavegación facetada
La navegación facetada es el sistema de filtros combinables (color, talla, precio, marca, orden) que acota un listado de productos o resultados. Cada combinación suele generar una URL distinta, casi siempre con parámetros, lo que la convierte en uno de los focos clásicos de problemas de SEO técnico en catálogos grandes.
Qué es
La navegación facetada (faceted navigation) es el patrón de filtros que permite al usuario acotar un listado por varios atributos a la vez: color, talla, precio, marca, valoración, orden o tipo de vista. Es habitual en e-commerce y grandes catálogos, y aporta una buena experiencia de usuario.
El problema aparece en la capa de URLs. Cada combinación de filtros tiende a producir una dirección propia, normalmente con parámetros (por ejemplo ?color=rojo&talla=42&orden=precio). Así, un puñado de categorías puede expandirse a miles o millones de URLs casi idénticas. Conviene distinguir dos conceptos que suelen mezclarse: un facet modifica el contenido mostrado —un subconjunto real de productos, como zapatillas grises de una marca— y puede tener valor de búsqueda propio; un filtro de orden o de vista (ordenar por precio, ver en cuadrícula, paginación de sesión) no cambia el contenido sustantivo y rara vez debe indexarse.
No existe una solución única. Se segmenta cada combinación por su valor y se combinan controles: convertir las combinaciones de alta demanda en páginas estáticas rastreables con URL limpia, H1 y contenido propios; bloquear en robots.txt o resolver en cliente (AJAX) las de bajo valor o casi infinitas; usar canonical para consolidar variantes que sí se rastrean; y reservar noindex para retirar del índice páginas concretas.
Por qué importa
Una navegación facetada sin gobierno produce tres males concretos: contenido duplicado (muchas URLs con contenido igual o casi igual), problema que aborda de raíz la Canonicalización y duplicados; malgasto de presupuesto de rastreo —el Crawl budget (presupuesto de rastreo), la cuota que el rastreador dedica al sitio, se agota en combinaciones sin valor en lugar de en las páginas importantes—; e index bloat: URLs basura indexadas que diluyen señales y autoridad, distorsionando el Rastreo e indexación que decide qué entra en el buscador.
El matiz técnico que más errores causa es que robots.txt y noindex no se combinan. Una URL bloqueada en robots.txt no se rastrea, así que el buscador nunca llega a leer su canonical ni su noindex —e incluso puede indexarla a ciegas si recibe enlaces—. Y noindex sí consume rastreo, porque hay que rastrear la página para leer la etiqueta antes de descartarla; por eso Google desaconseja noindex como mecanismo para ahorrar crawl budget y recomienda robots.txt para ese fin. La regla práctica: robots.txt para que no se gaste rastreo; noindex (rastreable) para sacar del índice algo cuya etiqueta sí quieres que se lea; canonical para consolidar duplicados que sí se rastrean. Gestionarla bien ordena el rastreo y el índice, pero ninguna técnica garantiza posiciones.
En profundidad
Facet frente a filtro, orden o vista
No toda combinación merece URL indexable. Un facet acota a un subconjunto real de productos (una marca, un color) y puede responder a una búsqueda concreta —su Intención de búsqueda, lo que el usuario realmente quiere al teclear esa consulta—, por lo que a veces interesa que sea una página propia. Un control de orden (precio ascendente), de vista (cuadrícula o lista) o de paginación de sesión no cambia el contenido sustantivo: presenta los mismos productos de otro modo. Esa distinción decide qué combinaciones se trabajan como páginas y cuáles se mantienen fuera del índice.
Repertorio de controles y cuándo usar cada uno
Combinaciones de alta demanda: convertirlas en páginas estáticas rastreables, con URL limpia, H1 y contenido propios, canonical auto-referente e inclusión en el Sitemap XML —el fichero que declara las URLs que quieres que el buscador conozca—, cuidando no incurrir en Canibalización de keywords frente a la categoría padre, es decir, que dos páginas compitan por la misma consulta. Combinaciones de bajo valor o casi infinitas: bloquearlas en robots.txt (recomendación de Google para ahorrar rastreo) o mantenerlas en cliente vía AJAX, sin generar URL indexable. Variantes que sí se rastrean: canonical hacia la categoría ancla para consolidar señales. Y noindex para retirar del índice páginas concretas que se quieren rastrear.
| Tipo de combinación | Tratamiento | Señal técnica |
|---|---|---|
| Alta demanda | Página estática rastreable | URL limpia, H1 y contenido propios, canonical auto-referente, en sitemap (sin canibalizar la padre) |
| Bajo valor / casi infinitas | Fuera del índice | Bloqueo en robots.txt o resolución en cliente vía AJAX (sin URL indexable) |
| Variante que sí se rastrea | Consolidar señales | Canonical hacia la categoría ancla |
| Página a retirar del índice | Desindexar pero rastrear | noindex (rastreable) |
El matiz excluyente robots.txt frente a noindex
Son mecanismos distintos que no deben solaparse. robots.txt, el archivo que regula qué puede rastrear el buscador, impide el rastreo: la página no se visita, por lo que su canonical y su noindex quedan invisibles para el buscador, que aun así podría indexar la URL a ciegas si recibe enlaces. noindex sí saca del índice, pero exige rastreo previo para leer la etiqueta, de modo que no ahorra presupuesto de rastreo. De ahí la regla: robots.txt para ahorrar rastreo, noindex (rastreable) para desindexar.
| Mecanismo | Qué hace | Efecto en rastreo |
|---|---|---|
| robots.txt | Impide el rastreo: no se visita la página, su canonical y noindex quedan invisibles; podría indexarse a ciegas si recibe enlaces | Ahorra presupuesto de rastreo |
| noindex | Saca del índice, pero exige rastreo previo para leer la etiqueta | No ahorra presupuesto de rastreo |
| Regla | No solaparlos: robots.txt para ahorrar rastreo; noindex (rastreable) para desindexar | Cada uno cubre un objetivo distinto |
Buenas prácticas de URL y enlazado
Conviene mantener un orden consistente de las facetas en la URL para no multiplicar variantes equivalentes, ofrecer breadcrumbs hacia la categoría padre e incluir en el sitemap solo las URLs canónicas. Si una combinación debe ser accesible y marcable, la URL ha de cambiar al filtrar; si no debe indexarse, suele resolverse en cliente sin alterar la dirección. Aquí el Enlazado interno —cómo se distribuyen los enlaces dentro del sitio— decide qué facetas reciben fuerza y se descubren con prioridad. La antigua herramienta de parámetros de URL de Search Console quedó deprecada en abril de 2022, así que el control recae hoy en robots.txt, canonical, noindex, esa arquitectura de enlazado interno y unas URLs limpias. En catálogos generados a escala, este gobierno es la base del SEO programático, que produce muchas páginas plantilladas y necesita reglas estrictas de indexación para no inundar el índice.
Qué observar
Las señales que importan.
Picos de 'Duplicada, Google eligió otra canónica' o 'Rastreada/Detectada, actualmente no indexada' a gran escala
En GSC > Indexación > Páginas, estos estados creciendo sobre muchas URLs suelen delatar facetas mal gestionadas: el buscador percibe duplicación o baja calidad y descarta combinaciones. Es una de las primeras pistas de que el catálogo expande URLs sin valor.
Número de URLs indexadas muy por encima de los productos y categorías reales
Si el índice contiene bastantes más URLs que productos y categorías existen, suele indicar que las combinaciones de filtros se están indexando sin control. Señala posible index bloat.
URLs con varios parámetros de filtro y orden apareciendo en el índice
Direcciones del tipo ?color=&talla=&orden= indexadas indican que combinaciones sin valor de búsqueda propio están entrando en el índice en lugar de quedar bloqueadas o resueltas en cliente.
El rastreador consume rastreo en combinaciones de parámetros sin valor
En los logs de servidor, ver al rastreador insistiendo en combinaciones de facetas mientras categorías importantes se rastrean poco apunta a un reparto ineficiente del presupuesto de rastreo.
Conceptos clave
El vocabulario del término.
- Facet
- Filtro que acota el listado a un subconjunto real de productos (por ejemplo, una marca o un color). Cambia el contenido mostrado y puede tener valor de búsqueda propio, por lo que a veces conviene que sea una página indexable.
- Crawl budget (presupuesto de rastreo)
- Cantidad de páginas que el rastreador dedica a un sitio en un periodo. Las facetas sin valor pueden consumirlo en combinaciones inútiles, restando rastreo a las páginas importantes.
- Index bloat
- Saturación del índice con URLs de poco o ningún valor —combinaciones de filtros casi idénticas— que diluyen señales y autoridad del sitio.
- Etiqueta canonical
- Indicación que señala la versión preferente de un contenido para consolidar señales entre variantes que sí se rastrean. No bloquea el rastreo y es una sugerencia, no una orden.
- Etiqueta noindex
- Directiva que pide retirar una página del índice. Requiere que la página se rastree para leerla, por lo que consume presupuesto de rastreo y no sirve para ahorrarlo.
- robots.txt
- Archivo que indica qué rutas no deben rastrearse. Evita el gasto de rastreo, pero al impedir la visita el buscador no ve el canonical ni el noindex de esas URLs, que incluso pueden indexarse a ciegas por enlaces.
- Herramienta de parámetros de URL
- Función de Search Console, hoy deprecada (abril de 2022), que permitía indicar cómo tratar parámetros. Su gestión se traslada ahora a robots.txt, canonical, noindex y la arquitectura de enlazado.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.