Sitemap XML
Un sitemap XML es un archivo que declara a los buscadores las páginas, vídeos e imágenes importantes de un sitio y sus relaciones, para facilitar el rastreo. Ayuda al descubrimiento, pero no garantiza ni el rastreo ni la indexación: es una señal débil, no un factor de ranking.
Qué es
Un sitemap XML es un archivo donde el sitio lista las URLs que considera importantes y, opcionalmente, metadatos sobre ellas: la fecha de última modificación y datos de imágenes, vídeos o noticias. Su función es ayudar al buscador a descubrir contenido, sobre todo cuando el enlazado interno es pobre o el sitio es grande.
Google lo trata como una pista, no como una orden. De las etiquetas opcionales, solo lastmod cuenta —y solo si es precisa y verificable—. changefreq y priority se ignoran. El presupuesto de rastreo lo decide Google por autoridad, enlaces y respuesta del servidor, no por lo que declare el sitemap.
El estándar sitemaps.org limita cada archivo a 50 000 URLs y 50 MB sin comprimir. Al superar ese límite, se parte en varios archivos agrupados por un sitemap index (hasta 50 000 sitemaps). Admite compresión gzip, pero el límite de 50 MB se mide sin comprimir. El archivo debe ser UTF-8, ubicarse en la raíz, usar URLs loc de menos de 2048 caracteres y referenciarse desde robots.txt, el archivo que define las reglas de acceso de los rastreadores.
Por qué importa
El sitemap no mejora posiciones. Resuelve un problema anterior: que el buscador encuentre lo que existe. Si una URL importante no se descubre, no compite. Por eso es útil en sitios grandes (más de 500 páginas), nuevos, con mucho contenido multimedia o noticias, o con mal enlazado interno —cuando la Arquitectura web no traza caminos claros hacia el contenido, el sitemap actúa de red de seguridad para el descubrimiento—.
Conviene situarlo en su sitio: el sitemap es una ayuda al Rastreo e indexación, la fase previa a competir por posiciones. No sustituye a un buen Enlazado interno, que distribuye relevancia y guía al rastreador de forma orgánica; lo complementa cuando ese enlazado falla o el volumen de URLs lo desborda. En sitios muy grandes, donde el Crawl budget (presupuesto de rastreo) es un recurso escaso que Google asigna por autoridad y respuesta del servidor, un sitemap bien particionado y honesto en su lastmod orienta hacia lo que de verdad cambió.
Lo que el sitemap sí permite es medir. En Search Console se compara lo enviado con lo indexado, y los estados «Rastreada: no indexada» o «Detectada: no indexada» demuestran, página a página, que estar en el sitemap no implica entrar en el índice. Es un instrumento de diagnóstico, no un atajo; cuando esos estados se disparan, suelen apuntar a problemas de Canonicalización y duplicados, donde Google elige no indexar versiones que considera redundantes.
En la búsqueda con IA el sitemap sigue siendo relevante por la misma razón de siempre: las funciones generativas parten del índice. Si la página no se descubre y no se indexa, no entra en juego en los AI Overviews y AI Mode, que generan respuestas a partir de contenido ya indexado. El sitemap ayuda al primer paso; no a los siguientes.
En profundidad
Sitemap index y particionado
Cuando un sitio supera los 50 000 URLs o los 50 MB por archivo, no cabe en un solo sitemap. La solución del estándar es partir el listado en varios archivos y agruparlos bajo un sitemap index, que apunta a cada uno (hasta 50 000 sitemaps). El gzip está admitido para aligerar la transferencia, pero el límite de tamaño se mide siempre sin comprimir. Particionar por secciones —y no al azar— facilita además leer la cobertura por área en Search Console, y es especialmente útil en sitios con Navegación facetada, donde el espacio de URLs explota y conviene aislar qué se quiere enviar a indexar de lo que se descarta vía robots.txt o canonical.
Extensiones: imagen, vídeo y noticias
El protocolo admite metadatos propios para imágenes, vídeos y noticias, declarados dentro de las entradas del sitemap. El sitemap de noticias tiene reglas estrictas: máximo 1000 entradas y solo artículos de las últimas 48 horas. Es la vía para que contenido con mucho rich media o de actualidad se describa con el detalle que cada formato necesita, y enlaza directamente con News SEO y Google Discover, donde la velocidad de descubrimiento de lo recién publicado es crítica. Para el vídeo, estas extensiones complementan el trabajo de Video SEO (YouTube) cuando los clips se alojan en el propio dominio.
| Extensión | Para qué | Regla propia |
|---|---|---|
| Imagen | Describir imágenes asociadas a la URL | Metadatos dentro de la entrada del sitemap |
| Vídeo | Declarar vídeo con su rich media | Metadatos de formato dentro de la entrada |
| Noticias | Contenido de actualidad indexable rápido | Máx. 1000 entradas; solo artículos de las últimas 48 h |
lastmod fiable desde el CMS
lastmod es la única etiqueta opcional que Google considera, y solo si es consistente y verificablemente precisa: debe reflejar una actualización significativa, no un retoque cosmético ni un valor que se mueve en cada despliegue. Si no se puede generar con esa precisión desde el CMS, es preferible omitirla antes que poblarla con ruido. Google no publica el umbral exacto de fiabilidad; el criterio operativo es no declarar lo que no se puede sostener. Bien usado, lastmod es una señal de Frescura de contenido fiable: le dice al rastreador qué volver a visitar sin gastar Crawl budget (presupuesto de rastreo) en páginas que no han cambiado.
Sitemap y búsqueda con IA
Las funciones generativas de búsqueda parten del mismo índice que la búsqueda clásica. El sitemap ayuda a que el contenido se descubra y llegue a ese índice; ahí termina su papel. Para aparecer en una respuesta generada, la página debe estar indexada y ser apta para snippet —algo que el sitemap no decide—. Es la primera pieza de la cadena, no la última: la Citabilidad en respuestas de IA depende de la claridad y estructura del contenido, no de figurar en el sitemap, que solo garantiza el descubrimiento. No conviene confundir el sitemap con propuestas como llms.txt, un archivo distinto que busca orientar a los modelos hacia el contenido relevante; son piezas separadas con propósitos distintos.
Qué observar
Las señales que importan.
Solo URLs canónicas e indexables
El sitemap debe contener únicamente URLs canónicas e indexables. Sin duplicados, parámetros, noindex, redirecciones ni páginas bloqueadas por robots.txt: enviar URLs no indexables diluye las señales de rastreo.
Límites y particionado correctos
Cada archivo se limita a 50 000 URLs y 50 MB sin comprimir. Al superar esos límites, el sitemap se parte en varios archivos agrupados con un sitemap index.
lastmod preciso, sin ruido
lastmod debe reflejar cambios reales y generarse de forma fiable desde el CMS; un valor falseado pierde credibilidad ante el rastreador. changefreq y priority son prescindibles: Google los ignora.
Ubicación y referencia
El archivo va codificado en UTF-8 en la raíz, con cada loc de menos de 2048 caracteres, y se declara en robots.txt para facilitar su descubrimiento.
Enviado vs. indexado en Search Console
La brecha entre URLs enviadas e indexadas, junto a los estados de cobertura, revela qué se descubre pero no entra en el índice. Es la señal clave para detectar fugas de indexación.
Conceptos clave
El vocabulario del término.
- Sitemap index
- Archivo que agrupa varios sitemaps cuando un solo archivo supera los 50 000 URLs o los 50 MB, hasta un máximo de 50 000 sitemaps.
- lastmod
- Etiqueta opcional con la fecha de última modificación de una URL; es la única que Google tiene en cuenta, y solo si es precisa y verificable.
- changefreq y priority
- Etiquetas opcionales del estándar que indican frecuencia de cambio e importancia relativa; Google las ignora por completo.
- URL canónica
- Versión preferida de una página entre varias equivalentes; es la única que debe figurar en el sitemap.
- Crawl budget
- Capacidad de rastreo que el buscador asigna a un sitio, decidida por autoridad, enlaces y respuesta del servidor, no por el sitemap.
- Sitemap de noticias
- Variante con metadatos de noticias, limitada a 1000 entradas y solo a artículos de las últimas 48 horas.
- Rastreada/Detectada: no indexada
- Estados de Search Console que prueban que una URL puede estar en el sitemap y aun así no entrar en el índice.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Fuentes
- Sitemaps overview — Google Search Central · 2026-06-01
- Build and submit a sitemap — Google Search Central · 2026-06-01
- Sitemap XML format — sitemaps.org protocol · 2026-06-01
- News sitemap — Google Search Central · 2026-06-01
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.