Inicio/Glosario/RAG (Retrieval-Augmented Generation)

GEO

RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation, «generación aumentada por recuperación») es una arquitectura en la que el modelo de lenguaje recupera documentos externos relevantes y genera la respuesta sobre ellos, en lugar de depender solo de su memoria de entrenamiento. Es la base técnica de la búsqueda con IA: para que un sistema cite una página, primero tiene que recuperarla.

Búsqueda con IA (GEO/AIO)

Qué es

RAG une dos memorias. La paramétrica: lo que el modelo aprendió durante el entrenamiento y quedó codificado en sus pesos. Y la no paramétrica: un índice externo de documentos que se consulta en el momento de responder. El término se acuñó en el paper de Patrick Lewis y otros (Facebook AI Research, mayo de 2020, presentado en NeurIPS 2020), que combinó un modelo seq2seq preentrenado (BART) con un índice vectorial denso de Wikipedia consultado por un retriever neuronal (DPR).

El pipeline clásico es de un solo disparo: la consulta del usuario se convierte en un embedding (un vector numérico), se busca por similitud semántica en una base de datos vectorial, se recuperan los fragmentos —chunks— más relevantes (top-k), se inyectan como contexto en el prompt y el modelo genera una respuesta fundamentada en ellos, idealmente con citas. La recuperación va antes de la generación; ese es el orden que da nombre a la arquitectura.

RAG ataca dos límites del modelo puro. Uno: el conocimiento congelado en la fecha de corte del entrenamiento, que RAG sortea consultando fuentes actualizables. Dos: las alucinaciones, que se reducen al anclar (grounding) la respuesta en documentos verificables y trazables. No las elimina —el modelo puede recuperar fuentes incompletas o erróneas, o ignorar lo recuperado— pero las atenúa y permite citar el origen.

RAG: recuperar y luego generar

El modelo responde sobre documentos recuperados

Consulta

→

Recuperación

Búsqueda semántica.

→

Reordenación

El reranker prioriza.

→

Generación

Apoyada en fuentes.

Por qué importa

La búsqueda con IA es RAG en su base. Google AI Overviews y AI Mode, ChatGPT Search, Perplexity y Gemini recuperan documentos antes de redactar su respuesta. De ahí una implicación de orden que conviene interiorizar: la IA solo puede citar lo que antes recupera, y solo recupera lo que es rastreable, indexable y extraíble en fragmentos claros. El SEO técnico —empezando por el rastreo e indexación, sin el cual una página ni siquiera entra en el índice— no desaparece con la IA; se convierte en el prerrequisito para entrar siquiera en el conjunto candidato. Optimizar para esa fase candidato-recuperación es precisamente lo que persigue la GEO · Generative Engine Optimization.

Google lo confirma en su guía sobre funciones de IA generativa: una página debe estar indexada y ser apta para mostrarse con fragmento para aparecer en esas funciones, y «todas las prácticas recomendadas de SEO técnico siguen valiendo la pena». Sin recuperación no hay cita posible. Ayuda que el contenido exponga entidades nítidas —conectables con los grafos de conocimiento que el modelo usa para desambiguar—, datos estructurados que marquen qué es cada cosa, y señales de E-E-A-T que respalden la fiabilidad de la fuente recuperada.

Pero recuperar es necesario, no suficiente. Ser parte del conjunto candidato no garantiza la cita: la propia guía de Google avisa de que cumplir los requisitos no implica que el contenido se rastree, indexe o sirva, y el criterio de selección final del modelo no es público. Nadie controla —ni puede garantizar— qué fuente se cita ni en qué posición, y menos en un terreno que cambia cada pocos meses. Lo que sí se puede trabajar con método es la recuperabilidad: que el contenido sea encontrable y extraíble, lo que conecta directamente con la citabilidad en respuestas de IA. Es la condición previa, no una promesa de resultado; lo que queda fuera de tu control se monitoriza con la medición de la visibilidad en IA, no se promete.

En profundidad

El pipeline clásico de un solo disparo

El recorrido mínimo de RAG: la consulta se transforma en embedding, se busca por similitud en la base de datos vectorial, se recuperan los top-k chunks más cercanos, se inyectan en el prompt como contexto y el modelo redacta sobre ellos. Cada paso es un filtro: lo que no se convierte bien en vector, lo que no está indexado o lo que no encaja semánticamente queda fuera antes de que el modelo escriba una sola palabra. Es la misma búsqueda semántica que opera por cercanía de embeddings, no por coincidencia de palabras clave; en sistemas más cuidados, un reranker reordena ese top-k para subir los fragmentos más pertinentes antes de inyectarlos. Entender este flujo explica por qué la estructura del contenido —y no solo su calidad— decide si se recupera.

Consulta → embedding

La pregunta se vectoriza; lo que no se codifica bien ya empieza a perderse.

→

Búsqueda vectorial

Se compara por similitud contra la base vectorial; solo entra lo indexado.

→

Top-k chunks

Se recuperan los fragmentos más cercanos; el resto queda fuera.

→

Inyección + redacción

Los chunks se meten en el prompt como contexto y el modelo redacta sobre ellos.

Por qué la búsqueda con IA es RAG: recuperar como prerrequisito de citar

Google trabaja la recuperación generativa desde el paper REALM (2020); SGE y AI Overviews fueron su puesta en producción. Nielsen Norman Group describe AI Mode como query fan-out más RAG. La consecuencia práctica es una cadena de condiciones: rastreable → indexable → recuperable → candidato → citado. Cada eslabón es necesario para el siguiente, y los primeros son territorio del SEO técnico de siempre —rastreo e indexación, arquitectura web extraíble, datos estructurados que delimiten cada fragmento—. La novedad no es que el SEO técnico importe menos, sino que ahora es la base de la visibilidad en IA, el objeto mismo de la GEO · Generative Engine Optimization.

Rastreable

Indexable

Recuperable

Candidato

Citado

RAG agéntico: query fan-out y el ciclo recuperar-leer-reevaluar

La frontera de 2025-2026 supera el disparo único. Los sistemas agénticos planifican, descomponen la consulta, eligen entre herramientas (índice vectorial, grafo de conocimiento, web, bases de datos), recuperan, leen, evalúan su propio borrador y vuelven a recuperar en un ciclo de pensamiento-acción-observación. Es el patrón de un agente de IA que orquesta varias fuentes, a menudo accediéndolas mediante un MCP · Model Context Protocol que estandariza cómo el modelo invoca cada herramienta. Documentado en surveys académicas (arXiv 2501.09136) y en plataformas como Weaviate. Eleva el listón: ser citable deja de ser un evento puntual y pasa a depender de la consistencia a través de muchas subconsultas.

Planificar (fan-out)

Descompone la consulta en subconsultas y elige herramienta: vectorial, grafo, web o BD.

→

Recuperar + leer

Trae candidatos de cada fuente y los lee como contexto parcial.

→

Evaluar borrador

Revisa su propia respuesta y detecta huecos o contradicciones.

→

Re-recuperar (ciclo)

Vuelve a buscar para cerrar huecos: pensamiento-acción-observación repetido.

GraphRAG y los límites del RAG vectorial plano

El RAG por chunks pierde las relaciones estructurales entre datos y falla cuando la respuesta exige conectar hechos dispersos en varios documentos (razonamiento multi-hop). GraphRAG (impulsado por Microsoft y Neo4j) construye un grafo de conocimiento de entidades y relaciones para preservar ese contexto, a cambio de más coste, más latencia y la necesidad de definir esquemas. Esas entidades y grafos de conocimiento son la misma estructura que ayuda al modelo a desambiguar quién es quién al recuperar. Variantes posteriores —LightRAG, KAG, LeanRAG, HiRAG— exploran ese mismo equilibrio entre estructura y eficiencia.

Dimensión	RAG vectorial plano	GraphRAG
Unidad	Chunks aislados por similitud	Entidades y relaciones en un grafo
Multi-hop	Pierde hechos dispersos entre documentos	Conecta hechos a través de varios documentos
Coste / latencia	Menor; sin esquema previo	Mayor; requiere definir esquema y construir el grafo
Variantes	Recuperación densa estándar	LightRAG, KAG, LeanRAG, HiRAG

Qué observar

Las señales que importan.

La página tiene que ser rastreable e indexable antes que nada

Si el contenido no se rastrea ni se indexa, nunca entra al índice del que el sistema recupera candidatos. La aptitud técnica para aparecer con fragmento es la puerta de entrada a la cita en IA, no un detalle accesorio.

El contenido debe ser extraíble en fragmentos coherentes

RAG trocea las páginas en chunks. Los bloques con una idea clara, encabezados que la describen y respuestas autoconclusivas se recuperan mejor que los párrafos largos y ambiguos, que producen fragmentos demasiado genéricos para casar con una consulta concreta.

Un solo disparo ya no basta: el sistema descompone la consulta

La búsqueda con IA actual hace query fan-out: divide una pregunta en varias subconsultas concurrentes y recupera para cada una. Ser recuperable una vez no alcanza; hace falta serlo de forma consistente a través de muchas variantes de la misma intención.

Recuperar no equivale a ser correcto

El sistema entrega al modelo lo que recupera, le guste o no, y muchos pipelines carecen de verificación posterior. Una fuente recuperada puede ser incompleta o errónea; por eso RAG reduce, pero no elimina, las alucinaciones.

El tamaño del chunk es un parámetro de calidad

Los chunks demasiado grandes diluyen la señal y no casan con consultas específicas; los demasiado pequeños pierden coherencia semántica. La granularidad con la que se trocea el contenido condiciona directamente qué se recupera y qué se ignora.

Conceptos clave

El vocabulario del término.

Embedding: Representación numérica (un vector) de un texto que captura su significado, de modo que los textos semánticamente parecidos quedan cerca en el espacio vectorial. Es lo que permite buscar por similitud de sentido y no solo por coincidencia de palabras.
Base de datos vectorial: Almacén especializado en guardar embeddings y encontrar rápidamente los más cercanos a una consulta. Es el índice del que RAG recupera los fragmentos candidatos.
Chunk: Fragmento en el que se trocea un documento antes de indexarlo. Es la unidad mínima que un sistema RAG recupera e inyecta como contexto; su tamaño y coherencia condicionan la calidad de la recuperación.
Top-k: Los k fragmentos más relevantes que el retriever devuelve para una consulta. Define cuánto contexto recibe el modelo antes de generar la respuesta.
Grounding (anclaje): Fundamentar la respuesta del modelo en documentos externos recuperados, en lugar de en su memoria interna. Es el mecanismo por el que RAG reduce alucinaciones y permite citar el origen.
Query fan-out: Técnica por la que el sistema descompone una consulta en varias subconsultas concurrentes y recupera para cada una. Es característica de la búsqueda con IA agéntica frente al RAG de un solo disparo.
Memoria paramétrica / no paramétrica: La paramétrica es el conocimiento codificado en los pesos del modelo durante el entrenamiento; la no paramétrica es el índice externo de documentos que se consulta al responder. RAG combina ambas.

Dónde lo aplicamos

Contenido GEO→

Casos de uso · RAG (Retrieval-Augmented Generation)[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Conceptos relacionados

GEOGEO · Generative Engine Optimization→GEOCitabilidad en respuestas de IA→GEOAI Overviews y AI Mode→GEOEntidades y grafos de conocimiento→SEO técnicoRastreo e indexación→SEO técnicoDatos estructurados→IAAgente de IA y mesh de agentes→SEO técnicoArquitectura web→

Fuentes

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.

Explora el glosario → Agenda una llamada