llms.txt
llms.txt es un archivo Markdown propuesto en 2024 que se coloca en la raíz de un sitio (/llms.txt) para ofrecer a los modelos de lenguaje una guía curada de sus páginas relevantes. Es una propuesta sin estatus de estándar oficial y, a junio de 2026, ningún gran buscador ni proveedor de IA lo respalda como señal de posicionamiento.
Qué es
llms.txt es una propuesta de Jeremy Howard (Answer.AI), publicada el 3 de septiembre de 2024 en llmstxt.org. Define un fichero de texto en formato Markdown, alojado en la raíz del dominio —el mismo lugar declarativo que ocupan robots.txt y el Sitemap XML—, pensado para que un modelo de lenguaje encuentre un resumen ordenado del sitio sin tener que parsear HTML cargado de navegación, anuncios y ruido. La premisa: las ventanas de contexto de los LLM son limitadas, y un índice curado ayudaría a procesar solo lo importante. La propia especificación se describe como "una propuesta para estandarizar" el uso del fichero, no como un estándar cerrado.
El formato canónico es estricto: un H1 con el nombre del proyecto (único campo obligatorio), un blockquote opcional con un resumen breve, secciones de prosa libres y bloques H2 que agrupan listas de enlaces a las páginas clave, cada uno con el patrón enlace más nota opcional. Una sección "Optional" marca recursos secundarios que pueden omitirse para contextos más cortos. Existen variantes que, en lugar de solo enlazar, expanden o vuelcan el contenido —el ecosistema de la propuesta las genera con la herramienta llms_txt2ctx—, de modo que se pueda entregar más material de una vez.
El punto crítico es su estatus. No está ratificado por W3C, IETF ni por ningún buscador. Es una convención voluntaria, controlada por el dueño del sitio, sin mecanismo de verificación. Esa naturaleza —declarativa y no auditada— es la misma que llevó a desaconsejar etiquetas históricas como meta keywords.
Por qué importa
La pregunta práctica no es qué promete llms.txt, sino quién lo lee. A junio de 2026 la respuesta honesta es: casi nadie de las superficies de búsqueda con IA del consumidor. Google ha declarado de forma reiterada que no lo usa ni planea hacerlo —Gary Illyes lo confirmó y John Mueller lo comparó con meta keywords—, y su guía oficial de optimización para la búsqueda con IA generativa (mayo de 2026) lo lista explícitamente como innecesario: indica que no hace falta crear archivos de texto de IA como llms.txt para aparecer en esas respuestas. OpenAI tampoco lo consume. Anthropic publica un llms.txt propio, pero no confirma que sus crawlers lo lean.
Los análisis de logs de servidor disponibles apuntan en la misma dirección: los crawlers de IA reales (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) apenas solicitan el archivo y rastrean el HTML directamente —es decir, dependen del rastreo e indexación clásico de tu sitio, no de un índice declarado al margen—. Quien sí lo consume hoy son los agentes de IDE (Cursor, Continue, Cline) e integraciones MCP de documentación técnica, no las superficies de chat o AI Overviews del consumidor.
La postura razonable: añadir un llms.txt es barato y no perjudica, pero no es un atajo ni un requisito, y nadie puede garantizar visibilidad en IA —menos a través de un fichero que los grandes proveedores no leen—. Antes que invertir esfuerzo aquí, importan los fundamentos verificables que la IA sí premia: indexabilidad, estructura semántica, contenido extraíble y citable —la base de la citabilidad en respuestas de IA—, autoridad y un robots.txt correcto. Todo eso es lo que de verdad construye GEO · Generative Engine Optimization, no un fichero al margen. Donde el archivo sí tiene valor real hoy es como documentación para agentes y asistentes de código.
En profundidad
Origen y especificación: la propuesta de Answer.AI
El formato nació en llmstxt.org el 3 de septiembre de 2024, firmado por Jeremy Howard. El propio documento se presenta como una propuesta para estandarizar el fichero, abierta a la comunidad, no como un estándar ratificado. La estructura canónica usa Markdown por ser legible tanto para humanos como para modelos: H1 con el nombre (obligatorio), blockquote de resumen, secciones de contexto y bloques H2 con listas de enlaces anotados, además de una sección opcional para recursos secundarios. Funcionalmente recuerda a un Sitemap XML pero pensado para LLM en vez de para rastreadores clásicos: un índice declarado en la raíz que orienta al consumidor del sitio. Herramientas del ecosistema, como llms_txt2ctx, generan versiones expandidas que vuelcan el contenido en lugar de solo enlazarlo.
Estado de adopción: qué dicen Google, OpenAI y Anthropic
Google es el más explícito: no lo usa ni lo planea, lo comparó con meta keywords y lo cataloga como innecesario en su guía oficial de búsqueda con IA generativa de mayo de 2026 —la misma que define cómo aparecer en AI Overviews y AI Mode, que se nutren del HTML rastreable, no de este fichero—. OpenAI no lo consume. Anthropic publica un llms.txt en sus propios dominios, pero no ha confirmado que ClaudeBot lo lea. El patrón común: ningún gran proveedor lo ha comprometido como señal en producción.
| Proveedor | Postura sobre llms.txt |
|---|---|
| No lo usa ni lo planea; lo compara con meta keywords y lo cataloga como innecesario | |
| OpenAI | No lo consume |
| Anthropic | Publica un llms.txt propio, pero no confirma que ClaudeBot lo lea |
| Patrón común | Ningún gran proveedor lo ha comprometido como señal en producción |
Evidencia de logs: quién solicita y quién ignora el archivo
Los análisis de tráfico de servidor disponibles coinciden en que los crawlers de IA reales apenas piden /llms.txt y rastrean el HTML directamente. Verificarlo es justamente un caso de análisis de logs: cruzar las peticiones reales de cada bot contra el fichero. La afirmación se sostiene en muestras de logs públicas; conviene leer las fuentes primarias antes de citar cifras concretas, porque los tamaños de muestra y la metodología varían entre estudios.
Caso de uso con valor hoy: documentación para agentes
El nicho donde el archivo aporta es la documentación técnica consumida por agentes de IDE y asistentes de código (Cursor, Continue, Cline) e integraciones MCP · Model Context Protocol. Ahí un índice Markdown curado ahorra parsing y entrega contexto limpio: encaja con la lógica de la AUX · Agent Experience, donde lo que importa es que un agente entienda y navegue el sitio sin fricción. No es lo mismo que aparecer en AI Overviews o en respuestas de chat del consumidor: son superficies y consumidores distintos.
| Superficie | Consumidor | ¿Aporta llms.txt? |
|---|---|---|
| Documentación técnica | Agentes de IDE / asistentes de código (Cursor, Continue, Cline) | Sí: índice Markdown curado ahorra parsing y da contexto limpio |
| Integraciones MCP | Herramientas que consumen contexto estructurado | Sí: entrega de contexto ordenado |
| AI Overviews | Búsqueda con IA del consumidor | No: superficie y consumidor distintos |
| Chat de consumidor | Asistentes generales (chat) | No: no equivale a aparecer en esas respuestas |
En vídeo y audio
Qué observar
Las señales que importan.
¿Quién pide realmente el archivo en los logs?
El registro del servidor revela qué bots solicitan /llms.txt. Cuando lo piden agentes de IDE o scrapers de documentación pero no los crawlers de IA del consumidor, el archivo cumple un nicho técnico, no un objetivo de visibilidad en buscadores.
Coherencia entre el archivo y el contenido real
Un llms.txt que diverge de las páginas que enlaza degrada su utilidad: si el resumen describe algo que la web ya no dice, cualquier consumidor que lo lea recibe información obsoleta. El fichero solo sirve mientras refleja el sitio.
Tamaño y selección de enlaces
Volcar todas las URLs del sitio contradice el propósito del formato y choca con los límites de tokens del modelo. El valor está en la curaduría: pocas páginas, las que de verdad representan el sitio.
Auditoría no es adopción
Que una herramienta detecte o valide el archivo no implica que un buscador lo use como señal. Comprobar la sintaxis es distinto de que una superficie de IA lo consuma; lo primero no prueba lo segundo.
robots.txt sigue siendo el fichero que importa
El control de rastreo efectivo —qué bots de IA acceden y a qué— se decide en robots.txt, soportado y respetado. llms.txt no lo sustituye; son ficheros con propósitos y estatus distintos.
Conceptos clave
El vocabulario del término.
- robots.txt
- Fichero en la raíz del sitio que indica a los rastreadores qué pueden o no rastrear. A diferencia de llms.txt, está soportado y respetado por los buscadores y los principales bots de IA; es el mecanismo real de control de acceso.
- llms-full.txt
- Variante de llms.txt que, en vez de enlazar a las páginas, vuelca su contenido completo en un único fichero Markdown. Útil para entregar todo el material de una vez, a costa de un archivo mucho mayor.
- Ventana de contexto
- Cantidad máxima de texto (tokens) que un modelo de lenguaje puede procesar de una vez. Su límite es el problema que llms.txt dice resolver al ofrecer un resumen curado en lugar de webs enteras.
- Crawler de IA
- Bot que recopila contenido web para entrenar o alimentar modelos y respuestas de IA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended). Son los consumidores que llms.txt aspira a servir y los que, según los logs, apenas lo solicitan.
- meta keywords
- Etiqueta HTML histórica donde el dueño declaraba palabras clave de la página. Al ser autodeclarada y manipulable, los buscadores la ignoran desde hace más de una década. Se cita como precedente del riesgo de las señales no verificadas como llms.txt.
- MCP (Model Context Protocol)
- Protocolo que conecta modelos y agentes con fuentes de contexto externas. Algunas integraciones MCP de documentación consumen llms.txt, lo que constituye su nicho de uso real hoy.
- AI Overviews
- Respuestas generadas por IA que Google muestra sobre los resultados de búsqueda. Aparecer en ellas depende de los fundamentos de rastreo, contenido y autoridad, no de publicar un llms.txt.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Fuentes
- The /llms.txt file proposal (especificación oficial) · 2024-09-03
- Guía de Google: optimización para la búsqueda con IA generativa · 2026-05-22
- Google Search Team Does Not Endorse LLMs.txt Files · 2025-07-01
- Does llms.txt matter? We tracked 10 sites · 2025-08-01
- LLMs.txt: Why AI Crawlers Ignore It · 2025-08-01
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.