innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Reranker

IA

Reranker

Un reranker (reordenador) es un modelo que recibe pares de consulta y documento y devuelve una puntuación de relevancia para reordenar los candidatos recuperados. Es la segunda etapa de una arquitectura de recuperación en dos pasos.

Qué es

Un reranker es un modelo de relevancia. Toma una consulta y un conjunto de documentos candidatos ya recuperados, evalúa cada pareja consulta-documento y devuelve una puntuación que sirve para reordenarlos de más a menos pertinente. Su lugar natural es la segunda etapa de una arquitectura de recuperación en dos pasos (two-stage retrieval), típica en sistemas RAG (Retrieval-Augmented Generation), donde un LLM responde a partir de documentos recuperados: primero una búsqueda vectorial rápida trae un conjunto amplio de candidatos con alto recall; después el reranker afina ese conjunto por relevancia real frente a la consulta concreta.

La diferencia técnica con un modelo de embeddings está en la arquitectura. Un bi-encoder (el modelo de embeddings) codifica la consulta y cada documento por separado, en vectores que pueden precomputarse, y los compara por similitud coseno; comprime cada texto a un único vector, con la pérdida de información que eso implica, y nunca "ve" contra qué consulta se medirá. Un cross-encoder (el reranker) mete la consulta y el documento juntos en el mismo transformer y los lee a la vez, lo que le permite captar matices y relaciones finas que el embedding pierde —por ejemplo, que "500 €/noche" contradice "barato".

Esa lectura conjunta es más precisa pero también más cara: cada par consulta-documento se calcula en tiempo de inferencia y no se puede precomputar. De ahí el patrón en dos etapas. La búsqueda vectorial resuelve grandes volúmenes con baja latencia pero de forma tosca; el reranker es lento pero fino, así que solo se aplica a un subconjunto manejable, habitualmente el top-50 a top-100 de candidatos.

Reordenar por relevancia
Afina lo que la búsqueda vectorial recupera
ENTRADA
Candidatos
Recuperados.
RERANKER
Cross-encoder
Compara consulta-doc.
SALIDA
Top relevante

Por qué importa

El reranking importa porque separa dos objetivos que entran en tensión: recuperar suficiente material relevante (recall) y no saturar al modelo con ruido. Una búsqueda semántica amplia —la primera etapa, que recupera por significado y no por coincidencia exacta de palabras— trae muchos candidatos, pero meterlos todos "a lo bruto" en la ventana de contexto del LLM (modelo de lenguaje grande) degrada su capacidad para localizar la información que importa. El reranker permite recuperar mucho y entregar poco y bueno: reordena por relevancia real y deja pasar solo los documentos más pertinentes.

No es magia ni una garantía de respuestas correctas. Es un compromiso entre coste y precisión: añade latencia e inferencia a cambio de un orden más fino. Su utilidad depende de la calidad de los candidatos que reciba —si la primera etapa, normalmente apoyada en una base de datos vectorial que indexa los embeddings, no recupera el documento adecuado, el reranker no puede inventarlo— y del modelo concreto que se use. Por eso el reranking convive con la limpieza y calidad de los datos: si lo indexado está duplicado o es ruido, ningún reordenamiento lo arregla.

En profundidad

Cross-encoder frente a bi-encoder: arquitectura y precisión

El bi-encoder codifica consulta y documento por separado en vectores que se pueden precomputar y se comparan por similitud coseno —el mecanismo de cualquier modelo de embeddings—. Es rápido y escalable, pero comprime cada texto a un solo vector y nunca ve la consulta y el documento a la vez. El cross-encoder los procesa juntos en el mismo transformer en tiempo de consulta, lo que le permite captar dependencias finas entre ambos textos. A cambio de esa precisión, no se puede precomputar nada: cada par se evalúa en inferencia.

CriterioBi-encoderCross-encoder
CodificaciónConsulta y documento por separadoConsulta y documento juntos en el mismo transformer
ComparaciónSimilitud coseno entre vectoresInteracción directa par a par en inferencia
PrecomputaciónSí: los vectores se calculan y almacenan antesNo: cada par se evalúa en tiempo de consulta
Dependencias finasNo las ve (un vector por texto)Las capta entre ambos textos
PerfilRápido y escalablePreciso pero costoso

La recuperación en dos etapas (two-stage retrieval)

El patrón combina lo mejor de dos mundos. La primera etapa —bi-encoder o BM25— recupera rápido un conjunto amplio de candidatos priorizando recall: no perder lo relevante; cuando se apoya en embeddings, esa fase es una búsqueda semántica sobre una base de datos vectorial. La segunda etapa —el reranker— reordena ese conjunto por relevancia real y se queda con los más pertinentes para pasarlos al LLM. Documentos que la búsqueda vectorial situó en posiciones bajas pueden subir a las primeras tras el reordenamiento.

1ª etapa
Recuperación amplia
Bi-encoder o BM25 trae un conjunto grande de candidatos priorizando recall: no perder lo relevante
2ª etapa
Reranking
El reranker reordena ese conjunto por relevancia real par a par
Selección
Top pertinentes
Se quedan los más relevantes; documentos antes mal posicionados pueden subir arriba
Entrega
Contexto al LLM
Solo los fragmentos más pertinentes llegan al modelo generativo

Coste, latencia y el patrón top-k

El reranking es caro porque calcula cada par consulta-documento en inferencia y no se precomputa. La búsqueda vectorial resuelve grandes volúmenes con baja latencia; un cross-encoder aplicado a millones de registros sería inviable en tiempo. Por eso el reranker solo se aplica a un top-k acotado: el subconjunto que la primera etapa ya ha filtrado, habitualmente entre 50 y 100 candidatos.

Corpus completo (búsqueda vectorial, baja latencia)
Top-k filtrado por la 1ª etapa (~50-100 candidatos)
Pares reordenados por el cross-encoder en inferencia
Mejores documentos que pasan al LLM

Por qué el reranking mejora un sistema RAG

El reranker maximiza el recall útil minimizando el ruido. En un sistema RAG (Retrieval-Augmented Generation) permite recuperar muchos candidatos sin saturar la ventana de contexto del LLM con tokens irrelevantes, algo que degrada la capacidad del modelo para localizar la respuesta. El resultado es que llega al modelo contenido más pertinente y menos relleno —lo mismo que persigue la citabilidad en respuestas de IA: que el pasaje correcto quede arriba y sea el que el modelo cita—. No garantiza una respuesta correcta: depende de que la primera etapa haya recuperado el documento adecuado.

Maximiza el recall útil minimizando el ruidoRecupera muchos candidatos y deja solo los pertinentes
Protege la ventana de contexto del LLMEvita saturarla con tokens irrelevantes que degradan al modelo
Mejora la pertinencia del contenido entregadoLlega más señal y menos relleno al modelo
No garantiza una respuesta correctaDepende de que la 1ª etapa haya recuperado el documento adecuado

Qué observar

Las señales que importan.

Arquitectura en dos etapas explícita

Una recuperación rápida de alto recall seguida de un reordenamiento preciso sobre un top-k acotado indica un diseño que separa cobertura y precisión. Es la señal de que el sistema busca ancho y entrega estrecho.

Cross-encoder frente a bi-encoder

Que el reordenamiento procese la pareja consulta-documento junta en el mismo transformer —y no compare vectores precomputados por separado— es lo que distingue a un reranker de un modelo de embeddings. Marca dónde se gana precisión.

Top-k acotado en el reranking

Aplicar el reranker solo a un subconjunto (típicamente 50-100 candidatos) y no a todo el corpus refleja su coste: cada par se calcula en inferencia y no se precomputa. Rerankear el índice entero sería inviable en latencia.

Una puntuación de relevancia que pondera el orden final

Cuando el rerank_score entra en el ranking final junto a otras señales —como autoridad de la fuente o frescura—, indica que la relevancia semántica fina es un factor más, no el único criterio de orden.

Conceptos clave

El vocabulario del término.

Cross-encoder
Arquitectura que procesa la consulta y el documento juntos en el mismo transformer y emite una puntuación de relevancia. Es la base de un reranker: más preciso que el bi-encoder, pero no precomputable.
Bi-encoder
Modelo (de embeddings) que codifica consulta y documento por separado en vectores precomputables y los compara por similitud. Rápido y escalable, pero con pérdida por comprimir cada texto a un solo vector.
Two-stage retrieval
Arquitectura de recuperación en dos pasos: una primera etapa rápida y de alto recall que trae candidatos, y una segunda etapa de reordenamiento preciso sobre un subconjunto acotado.
Recall
Proporción de documentos relevantes que el sistema consigue recuperar. La primera etapa prioriza recall amplio; el reranker afina el orden de ese conjunto.
Top-k
El subconjunto de los k mejores candidatos al que se aplica el reranker (habitualmente 50-100), en lugar de a todo el corpus, por su coste en inferencia.
Ventana de contexto
Límite de tokens que un LLM puede procesar a la vez. Saturarla con documentos irrelevantes degrada la localización de la respuesta; el reranker ayuda a entregar solo lo pertinente.
RAG
Recuperación aumentada por generación: canalización que recupera documentos y los pasa a un LLM para generar la respuesta. El reranker es un componente opcional de su etapa de recuperación.
Casos de uso · Reranker[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.