innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Sitemap XML

SEO técnico

Sitemap XML

Un sitemap XML es un archivo que declara a los buscadores las páginas, vídeos e imágenes importantes de un sitio y sus relaciones, para facilitar el rastreo. Ayuda al descubrimiento, pero no garantiza ni el rastreo ni la indexación: es una señal débil, no un factor de ranking.

Qué es

Un sitemap XML es un archivo donde el sitio lista las URLs que considera importantes y, opcionalmente, metadatos sobre ellas: la fecha de última modificación y datos de imágenes, vídeos o noticias. Su función es ayudar al buscador a descubrir contenido, sobre todo cuando el enlazado interno es pobre o el sitio es grande.

Google lo trata como una pista, no como una orden. De las etiquetas opcionales, solo lastmod cuenta —y solo si es precisa y verificable—. changefreq y priority se ignoran. El presupuesto de rastreo lo decide Google por autoridad, enlaces y respuesta del servidor, no por lo que declare el sitemap.

El estándar sitemaps.org limita cada archivo a 50 000 URLs y 50 MB sin comprimir. Al superar ese límite, se parte en varios archivos agrupados por un sitemap index (hasta 50 000 sitemaps). Admite compresión gzip, pero el límite de 50 MB se mide sin comprimir. El archivo debe ser UTF-8, ubicarse en la raíz, usar URLs loc de menos de 2048 caracteres y referenciarse desde robots.txt, el archivo que define las reglas de acceso de los rastreadores.

Señal de descubrimiento
Ofrece URLs; no garantiza indexación
SITIO
Sitemap XML
Lista de URLs.
SEÑAL
Descubrimiento
Señal débil.
BUSCADOR
Rastreo
Decide si indexa.

Por qué importa

El sitemap no mejora posiciones. Resuelve un problema anterior: que el buscador encuentre lo que existe. Si una URL importante no se descubre, no compite. Por eso es útil en sitios grandes (más de 500 páginas), nuevos, con mucho contenido multimedia o noticias, o con mal enlazado interno —cuando la Arquitectura web no traza caminos claros hacia el contenido, el sitemap actúa de red de seguridad para el descubrimiento—.

Conviene situarlo en su sitio: el sitemap es una ayuda al Rastreo e indexación, la fase previa a competir por posiciones. No sustituye a un buen Enlazado interno, que distribuye relevancia y guía al rastreador de forma orgánica; lo complementa cuando ese enlazado falla o el volumen de URLs lo desborda. En sitios muy grandes, donde el Crawl budget (presupuesto de rastreo) es un recurso escaso que Google asigna por autoridad y respuesta del servidor, un sitemap bien particionado y honesto en su lastmod orienta hacia lo que de verdad cambió.

Lo que el sitemap sí permite es medir. En Search Console se compara lo enviado con lo indexado, y los estados «Rastreada: no indexada» o «Detectada: no indexada» demuestran, página a página, que estar en el sitemap no implica entrar en el índice. Es un instrumento de diagnóstico, no un atajo; cuando esos estados se disparan, suelen apuntar a problemas de Canonicalización y duplicados, donde Google elige no indexar versiones que considera redundantes.

En la búsqueda con IA el sitemap sigue siendo relevante por la misma razón de siempre: las funciones generativas parten del índice. Si la página no se descubre y no se indexa, no entra en juego en los AI Overviews y AI Mode, que generan respuestas a partir de contenido ya indexado. El sitemap ayuda al primer paso; no a los siguientes.

En profundidad

Sitemap index y particionado

Cuando un sitio supera los 50 000 URLs o los 50 MB por archivo, no cabe en un solo sitemap. La solución del estándar es partir el listado en varios archivos y agruparlos bajo un sitemap index, que apunta a cada uno (hasta 50 000 sitemaps). El gzip está admitido para aligerar la transferencia, pero el límite de tamaño se mide siempre sin comprimir. Particionar por secciones —y no al azar— facilita además leer la cobertura por área en Search Console, y es especialmente útil en sitios con Navegación facetada, donde el espacio de URLs explota y conviene aislar qué se quiere enviar a indexar de lo que se descarta vía robots.txt o canonical.

1
Detectar el límite
El listado supera 50.000 URLs o 50 MB sin comprimir: no cabe en un solo archivo.
2
Particionar por secciones
Dividir por área (blog, productos, categorías), no al azar, para leer la cobertura por bloque.
3
Crear el sitemap index
Un índice que apunta a cada sitemap hijo (hasta 50.000 sitemaps por índice).
4
Servir y comprimir
Gzip admitido para aligerar la transferencia; el límite de tamaño se mide siempre sin comprimir.

Extensiones: imagen, vídeo y noticias

El protocolo admite metadatos propios para imágenes, vídeos y noticias, declarados dentro de las entradas del sitemap. El sitemap de noticias tiene reglas estrictas: máximo 1000 entradas y solo artículos de las últimas 48 horas. Es la vía para que contenido con mucho rich media o de actualidad se describa con el detalle que cada formato necesita, y enlaza directamente con News SEO y Google Discover, donde la velocidad de descubrimiento de lo recién publicado es crítica. Para el vídeo, estas extensiones complementan el trabajo de Video SEO (YouTube) cuando los clips se alojan en el propio dominio.

ExtensiónPara quéRegla propia
ImagenDescribir imágenes asociadas a la URLMetadatos dentro de la entrada del sitemap
VídeoDeclarar vídeo con su rich mediaMetadatos de formato dentro de la entrada
NoticiasContenido de actualidad indexable rápidoMáx. 1000 entradas; solo artículos de las últimas 48 h

lastmod fiable desde el CMS

lastmod es la única etiqueta opcional que Google considera, y solo si es consistente y verificablemente precisa: debe reflejar una actualización significativa, no un retoque cosmético ni un valor que se mueve en cada despliegue. Si no se puede generar con esa precisión desde el CMS, es preferible omitirla antes que poblarla con ruido. Google no publica el umbral exacto de fiabilidad; el criterio operativo es no declarar lo que no se puede sostener. Bien usado, lastmod es una señal de Frescura de contenido fiable: le dice al rastreador qué volver a visitar sin gastar Crawl budget (presupuesto de rastreo) en páginas que no han cambiado.

lastmod refleja una actualización significativaEs la única etiqueta opcional que Google considera
El valor es consistente y verificablemente precisoSolo se usa si se sostiene desde el CMS
Cambia en cada despliegue o por retoque cosméticoEs ruido que erosiona la fiabilidad
No se puede generar con precisiónMejor omitir la etiqueta que poblarla con ruido

Sitemap y búsqueda con IA

Las funciones generativas de búsqueda parten del mismo índice que la búsqueda clásica. El sitemap ayuda a que el contenido se descubra y llegue a ese índice; ahí termina su papel. Para aparecer en una respuesta generada, la página debe estar indexada y ser apta para snippet —algo que el sitemap no decide—. Es la primera pieza de la cadena, no la última: la Citabilidad en respuestas de IA depende de la claridad y estructura del contenido, no de figurar en el sitemap, que solo garantiza el descubrimiento. No conviene confundir el sitemap con propuestas como llms.txt, un archivo distinto que busca orientar a los modelos hacia el contenido relevante; son piezas separadas con propósitos distintos.

1
Sitemap declara la URL
Primera pieza de la cadena: ayuda al descubrimiento.
2
Página indexada
Entra al mismo índice que usa la búsqueda clásica; el sitemap no lo decide.
3
Apta para snippet
Debe poder extraerse y citarse; depende de la página, no del sitemap.
4
Aparece en respuesta generada
Las funciones generativas parten del mismo índice.

Qué observar

Las señales que importan.

Solo URLs canónicas e indexables

El sitemap debe contener únicamente URLs canónicas e indexables. Sin duplicados, parámetros, noindex, redirecciones ni páginas bloqueadas por robots.txt: enviar URLs no indexables diluye las señales de rastreo.

Límites y particionado correctos

Cada archivo se limita a 50 000 URLs y 50 MB sin comprimir. Al superar esos límites, el sitemap se parte en varios archivos agrupados con un sitemap index.

lastmod preciso, sin ruido

lastmod debe reflejar cambios reales y generarse de forma fiable desde el CMS; un valor falseado pierde credibilidad ante el rastreador. changefreq y priority son prescindibles: Google los ignora.

Ubicación y referencia

El archivo va codificado en UTF-8 en la raíz, con cada loc de menos de 2048 caracteres, y se declara en robots.txt para facilitar su descubrimiento.

Enviado vs. indexado en Search Console

La brecha entre URLs enviadas e indexadas, junto a los estados de cobertura, revela qué se descubre pero no entra en el índice. Es la señal clave para detectar fugas de indexación.

Conceptos clave

El vocabulario del término.

Sitemap index
Archivo que agrupa varios sitemaps cuando un solo archivo supera los 50 000 URLs o los 50 MB, hasta un máximo de 50 000 sitemaps.
lastmod
Etiqueta opcional con la fecha de última modificación de una URL; es la única que Google tiene en cuenta, y solo si es precisa y verificable.
changefreq y priority
Etiquetas opcionales del estándar que indican frecuencia de cambio e importancia relativa; Google las ignora por completo.
URL canónica
Versión preferida de una página entre varias equivalentes; es la única que debe figurar en el sitemap.
Crawl budget
Capacidad de rastreo que el buscador asigna a un sitio, decidida por autoridad, enlaces y respuesta del servidor, no por el sitemap.
Sitemap de noticias
Variante con metadatos de noticias, limitada a 1000 entradas y solo a artículos de las últimas 48 horas.
Rastreada/Detectada: no indexada
Estados de Search Console que prueban que una URL puede estar en el sitemap y aun así no entrar en el índice.

Dónde lo aplicamos

Casos de uso · Sitemap XML[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.