innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/llms.txt

GEO

llms.txt

llms.txt es un archivo Markdown propuesto en 2024 que se coloca en la raíz de un sitio (/llms.txt) para ofrecer a los modelos de lenguaje una guía curada de sus páginas relevantes. Es una propuesta sin estatus de estándar oficial y, a junio de 2026, ningún gran buscador ni proveedor de IA lo respalda como señal de posicionamiento.

Qué es

llms.txt es una propuesta de Jeremy Howard (Answer.AI), publicada el 3 de septiembre de 2024 en llmstxt.org. Define un fichero de texto en formato Markdown, alojado en la raíz del dominio —el mismo lugar declarativo que ocupan robots.txt y el Sitemap XML—, pensado para que un modelo de lenguaje encuentre un resumen ordenado del sitio sin tener que parsear HTML cargado de navegación, anuncios y ruido. La premisa: las ventanas de contexto de los LLM son limitadas, y un índice curado ayudaría a procesar solo lo importante. La propia especificación se describe como "una propuesta para estandarizar" el uso del fichero, no como un estándar cerrado.

El formato canónico es estricto: un H1 con el nombre del proyecto (único campo obligatorio), un blockquote opcional con un resumen breve, secciones de prosa libres y bloques H2 que agrupan listas de enlaces a las páginas clave, cada uno con el patrón enlace más nota opcional. Una sección "Optional" marca recursos secundarios que pueden omitirse para contextos más cortos. Existen variantes que, en lugar de solo enlazar, expanden o vuelcan el contenido —el ecosistema de la propuesta las genera con la herramienta llms_txt2ctx—, de modo que se pueda entregar más material de una vez.

El punto crítico es su estatus. No está ratificado por W3C, IETF ni por ningún buscador. Es una convención voluntaria, controlada por el dueño del sitio, sin mecanismo de verificación. Esa naturaleza —declarativa y no auditada— es la misma que llevó a desaconsejar etiquetas históricas como meta keywords.

Estado real de llms.txt
Una propuesta, no un estándar adoptado
Estándar oficialNo
Lo usan los grandes buscadoresAún no
Es una guía en markdown para LLMs

Por qué importa

La pregunta práctica no es qué promete llms.txt, sino quién lo lee. A junio de 2026 la respuesta honesta es: casi nadie de las superficies de búsqueda con IA del consumidor. Google ha declarado de forma reiterada que no lo usa ni planea hacerlo —Gary Illyes lo confirmó y John Mueller lo comparó con meta keywords—, y su guía oficial de optimización para la búsqueda con IA generativa (mayo de 2026) lo lista explícitamente como innecesario: indica que no hace falta crear archivos de texto de IA como llms.txt para aparecer en esas respuestas. OpenAI tampoco lo consume. Anthropic publica un llms.txt propio, pero no confirma que sus crawlers lo lean.

Los análisis de logs de servidor disponibles apuntan en la misma dirección: los crawlers de IA reales (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) apenas solicitan el archivo y rastrean el HTML directamente —es decir, dependen del rastreo e indexación clásico de tu sitio, no de un índice declarado al margen—. Quien sí lo consume hoy son los agentes de IDE (Cursor, Continue, Cline) e integraciones MCP de documentación técnica, no las superficies de chat o AI Overviews del consumidor.

La postura razonable: añadir un llms.txt es barato y no perjudica, pero no es un atajo ni un requisito, y nadie puede garantizar visibilidad en IA —menos a través de un fichero que los grandes proveedores no leen—. Antes que invertir esfuerzo aquí, importan los fundamentos verificables que la IA sí premia: indexabilidad, estructura semántica, contenido extraíble y citable —la base de la citabilidad en respuestas de IA—, autoridad y un robots.txt correcto. Todo eso es lo que de verdad construye GEO · Generative Engine Optimization, no un fichero al margen. Donde el archivo sí tiene valor real hoy es como documentación para agentes y asistentes de código.

En profundidad

Origen y especificación: la propuesta de Answer.AI

El formato nació en llmstxt.org el 3 de septiembre de 2024, firmado por Jeremy Howard. El propio documento se presenta como una propuesta para estandarizar el fichero, abierta a la comunidad, no como un estándar ratificado. La estructura canónica usa Markdown por ser legible tanto para humanos como para modelos: H1 con el nombre (obligatorio), blockquote de resumen, secciones de contexto y bloques H2 con listas de enlaces anotados, además de una sección opcional para recursos secundarios. Funcionalmente recuerda a un Sitemap XML pero pensado para LLM en vez de para rastreadores clásicos: un índice declarado en la raíz que orienta al consumidor del sitio. Herramientas del ecosistema, como llms_txt2ctx, generan versiones expandidas que vuelcan el contenido en lugar de solo enlazarlo.

H1
Nombre del sitio
Encabezado obligatorio que identifica el proyecto o dominio.
>
Blockquote resumen
Cita breve que describe el propósito, legible por humanos y modelos.
H2
Secciones de enlaces
Bloques con listas de enlaces Markdown anotados por contexto.
Opt
Recursos secundarios
Sección opcional para material complementario y menos prioritario.

Estado de adopción: qué dicen Google, OpenAI y Anthropic

Google es el más explícito: no lo usa ni lo planea, lo comparó con meta keywords y lo cataloga como innecesario en su guía oficial de búsqueda con IA generativa de mayo de 2026 —la misma que define cómo aparecer en AI Overviews y AI Mode, que se nutren del HTML rastreable, no de este fichero—. OpenAI no lo consume. Anthropic publica un llms.txt en sus propios dominios, pero no ha confirmado que ClaudeBot lo lea. El patrón común: ningún gran proveedor lo ha comprometido como señal en producción.

ProveedorPostura sobre llms.txt
GoogleNo lo usa ni lo planea; lo compara con meta keywords y lo cataloga como innecesario
OpenAINo lo consume
AnthropicPublica un llms.txt propio, pero no confirma que ClaudeBot lo lea
Patrón comúnNingún gran proveedor lo ha comprometido como señal en producción

Evidencia de logs: quién solicita y quién ignora el archivo

Los análisis de tráfico de servidor disponibles coinciden en que los crawlers de IA reales apenas piden /llms.txt y rastrean el HTML directamente. Verificarlo es justamente un caso de análisis de logs: cruzar las peticiones reales de cada bot contra el fichero. La afirmación se sostiene en muestras de logs públicas; conviene leer las fuentes primarias antes de citar cifras concretas, porque los tamaños de muestra y la metodología varían entre estudios.

Crawlers de IA piden /llms.txtLos logs disponibles muestran que apenas lo solicitan
Rastrean el HTML directamenteEl comportamiento observado es ir a la página, no al índice curado
Cifras concretas comparablesTamaños de muestra y metodología varían entre estudios
Leer las fuentes primarias antes de citarLa afirmación se apoya en muestras de logs públicas que conviene revisar

Caso de uso con valor hoy: documentación para agentes

El nicho donde el archivo aporta es la documentación técnica consumida por agentes de IDE y asistentes de código (Cursor, Continue, Cline) e integraciones MCP · Model Context Protocol. Ahí un índice Markdown curado ahorra parsing y entrega contexto limpio: encaja con la lógica de la AUX · Agent Experience, donde lo que importa es que un agente entienda y navegue el sitio sin fricción. No es lo mismo que aparecer en AI Overviews o en respuestas de chat del consumidor: son superficies y consumidores distintos.

SuperficieConsumidor¿Aporta llms.txt?
Documentación técnicaAgentes de IDE / asistentes de código (Cursor, Continue, Cline)Sí: índice Markdown curado ahorra parsing y da contexto limpio
Integraciones MCPHerramientas que consumen contexto estructuradoSí: entrega de contexto ordenado
AI OverviewsBúsqueda con IA del consumidorNo: superficie y consumidor distintos
Chat de consumidorAsistentes generales (chat)No: no equivale a aparecer en esas respuestas

En vídeo y audio

SEO técnico para IA: Robots.txt, GPTBot y llms.txt explicados | 3.4. Curso de AEO de AhrefsYouTube · Ahrefs

Qué observar

Las señales que importan.

¿Quién pide realmente el archivo en los logs?

El registro del servidor revela qué bots solicitan /llms.txt. Cuando lo piden agentes de IDE o scrapers de documentación pero no los crawlers de IA del consumidor, el archivo cumple un nicho técnico, no un objetivo de visibilidad en buscadores.

Coherencia entre el archivo y el contenido real

Un llms.txt que diverge de las páginas que enlaza degrada su utilidad: si el resumen describe algo que la web ya no dice, cualquier consumidor que lo lea recibe información obsoleta. El fichero solo sirve mientras refleja el sitio.

Tamaño y selección de enlaces

Volcar todas las URLs del sitio contradice el propósito del formato y choca con los límites de tokens del modelo. El valor está en la curaduría: pocas páginas, las que de verdad representan el sitio.

Auditoría no es adopción

Que una herramienta detecte o valide el archivo no implica que un buscador lo use como señal. Comprobar la sintaxis es distinto de que una superficie de IA lo consuma; lo primero no prueba lo segundo.

robots.txt sigue siendo el fichero que importa

El control de rastreo efectivo —qué bots de IA acceden y a qué— se decide en robots.txt, soportado y respetado. llms.txt no lo sustituye; son ficheros con propósitos y estatus distintos.

Conceptos clave

El vocabulario del término.

robots.txt
Fichero en la raíz del sitio que indica a los rastreadores qué pueden o no rastrear. A diferencia de llms.txt, está soportado y respetado por los buscadores y los principales bots de IA; es el mecanismo real de control de acceso.
llms-full.txt
Variante de llms.txt que, en vez de enlazar a las páginas, vuelca su contenido completo en un único fichero Markdown. Útil para entregar todo el material de una vez, a costa de un archivo mucho mayor.
Ventana de contexto
Cantidad máxima de texto (tokens) que un modelo de lenguaje puede procesar de una vez. Su límite es el problema que llms.txt dice resolver al ofrecer un resumen curado en lugar de webs enteras.
Crawler de IA
Bot que recopila contenido web para entrenar o alimentar modelos y respuestas de IA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended). Son los consumidores que llms.txt aspira a servir y los que, según los logs, apenas lo solicitan.
meta keywords
Etiqueta HTML histórica donde el dueño declaraba palabras clave de la página. Al ser autodeclarada y manipulable, los buscadores la ignoran desde hace más de una década. Se cita como precedente del riesgo de las señales no verificadas como llms.txt.
MCP (Model Context Protocol)
Protocolo que conecta modelos y agentes con fuentes de contexto externas. Algunas integraciones MCP de documentación consumen llms.txt, lo que constituye su nicho de uso real hoy.
AI Overviews
Respuestas generadas por IA que Google muestra sobre los resultados de búsqueda. Aparecer en ellas depende de los fundamentos de rastreo, contenido y autoridad, no de publicar un llms.txt.

Dónde lo aplicamos

Casos de uso · llms.txt[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.