Reranker
Un reranker (reordenador) es un modelo que recibe pares de consulta y documento y devuelve una puntuación de relevancia para reordenar los candidatos recuperados. Es la segunda etapa de una arquitectura de recuperación en dos pasos.
Qué es
Un reranker es un modelo de relevancia. Toma una consulta y un conjunto de documentos candidatos ya recuperados, evalúa cada pareja consulta-documento y devuelve una puntuación que sirve para reordenarlos de más a menos pertinente. Su lugar natural es la segunda etapa de una arquitectura de recuperación en dos pasos (two-stage retrieval), típica en sistemas RAG (Retrieval-Augmented Generation), donde un LLM responde a partir de documentos recuperados: primero una búsqueda vectorial rápida trae un conjunto amplio de candidatos con alto recall; después el reranker afina ese conjunto por relevancia real frente a la consulta concreta.
La diferencia técnica con un modelo de embeddings está en la arquitectura. Un bi-encoder (el modelo de embeddings) codifica la consulta y cada documento por separado, en vectores que pueden precomputarse, y los compara por similitud coseno; comprime cada texto a un único vector, con la pérdida de información que eso implica, y nunca "ve" contra qué consulta se medirá. Un cross-encoder (el reranker) mete la consulta y el documento juntos en el mismo transformer y los lee a la vez, lo que le permite captar matices y relaciones finas que el embedding pierde —por ejemplo, que "500 €/noche" contradice "barato".
Esa lectura conjunta es más precisa pero también más cara: cada par consulta-documento se calcula en tiempo de inferencia y no se puede precomputar. De ahí el patrón en dos etapas. La búsqueda vectorial resuelve grandes volúmenes con baja latencia pero de forma tosca; el reranker es lento pero fino, así que solo se aplica a un subconjunto manejable, habitualmente el top-50 a top-100 de candidatos.
Por qué importa
El reranking importa porque separa dos objetivos que entran en tensión: recuperar suficiente material relevante (recall) y no saturar al modelo con ruido. Una búsqueda semántica amplia —la primera etapa, que recupera por significado y no por coincidencia exacta de palabras— trae muchos candidatos, pero meterlos todos "a lo bruto" en la ventana de contexto del LLM (modelo de lenguaje grande) degrada su capacidad para localizar la información que importa. El reranker permite recuperar mucho y entregar poco y bueno: reordena por relevancia real y deja pasar solo los documentos más pertinentes.
No es magia ni una garantía de respuestas correctas. Es un compromiso entre coste y precisión: añade latencia e inferencia a cambio de un orden más fino. Su utilidad depende de la calidad de los candidatos que reciba —si la primera etapa, normalmente apoyada en una base de datos vectorial que indexa los embeddings, no recupera el documento adecuado, el reranker no puede inventarlo— y del modelo concreto que se use. Por eso el reranking convive con la limpieza y calidad de los datos: si lo indexado está duplicado o es ruido, ningún reordenamiento lo arregla.
En profundidad
Cross-encoder frente a bi-encoder: arquitectura y precisión
El bi-encoder codifica consulta y documento por separado en vectores que se pueden precomputar y se comparan por similitud coseno —el mecanismo de cualquier modelo de embeddings—. Es rápido y escalable, pero comprime cada texto a un solo vector y nunca ve la consulta y el documento a la vez. El cross-encoder los procesa juntos en el mismo transformer en tiempo de consulta, lo que le permite captar dependencias finas entre ambos textos. A cambio de esa precisión, no se puede precomputar nada: cada par se evalúa en inferencia.
| Criterio | Bi-encoder | Cross-encoder |
|---|---|---|
| Codificación | Consulta y documento por separado | Consulta y documento juntos en el mismo transformer |
| Comparación | Similitud coseno entre vectores | Interacción directa par a par en inferencia |
| Precomputación | Sí: los vectores se calculan y almacenan antes | No: cada par se evalúa en tiempo de consulta |
| Dependencias finas | No las ve (un vector por texto) | Las capta entre ambos textos |
| Perfil | Rápido y escalable | Preciso pero costoso |
La recuperación en dos etapas (two-stage retrieval)
El patrón combina lo mejor de dos mundos. La primera etapa —bi-encoder o BM25— recupera rápido un conjunto amplio de candidatos priorizando recall: no perder lo relevante; cuando se apoya en embeddings, esa fase es una búsqueda semántica sobre una base de datos vectorial. La segunda etapa —el reranker— reordena ese conjunto por relevancia real y se queda con los más pertinentes para pasarlos al LLM. Documentos que la búsqueda vectorial situó en posiciones bajas pueden subir a las primeras tras el reordenamiento.
Coste, latencia y el patrón top-k
El reranking es caro porque calcula cada par consulta-documento en inferencia y no se precomputa. La búsqueda vectorial resuelve grandes volúmenes con baja latencia; un cross-encoder aplicado a millones de registros sería inviable en tiempo. Por eso el reranker solo se aplica a un top-k acotado: el subconjunto que la primera etapa ya ha filtrado, habitualmente entre 50 y 100 candidatos.
Por qué el reranking mejora un sistema RAG
El reranker maximiza el recall útil minimizando el ruido. En un sistema RAG (Retrieval-Augmented Generation) permite recuperar muchos candidatos sin saturar la ventana de contexto del LLM con tokens irrelevantes, algo que degrada la capacidad del modelo para localizar la respuesta. El resultado es que llega al modelo contenido más pertinente y menos relleno —lo mismo que persigue la citabilidad en respuestas de IA: que el pasaje correcto quede arriba y sea el que el modelo cita—. No garantiza una respuesta correcta: depende de que la primera etapa haya recuperado el documento adecuado.
Qué observar
Las señales que importan.
Arquitectura en dos etapas explícita
Una recuperación rápida de alto recall seguida de un reordenamiento preciso sobre un top-k acotado indica un diseño que separa cobertura y precisión. Es la señal de que el sistema busca ancho y entrega estrecho.
Cross-encoder frente a bi-encoder
Que el reordenamiento procese la pareja consulta-documento junta en el mismo transformer —y no compare vectores precomputados por separado— es lo que distingue a un reranker de un modelo de embeddings. Marca dónde se gana precisión.
Top-k acotado en el reranking
Aplicar el reranker solo a un subconjunto (típicamente 50-100 candidatos) y no a todo el corpus refleja su coste: cada par se calcula en inferencia y no se precomputa. Rerankear el índice entero sería inviable en latencia.
Una puntuación de relevancia que pondera el orden final
Cuando el rerank_score entra en el ranking final junto a otras señales —como autoridad de la fuente o frescura—, indica que la relevancia semántica fina es un factor más, no el único criterio de orden.
Conceptos clave
El vocabulario del término.
- Cross-encoder
- Arquitectura que procesa la consulta y el documento juntos en el mismo transformer y emite una puntuación de relevancia. Es la base de un reranker: más preciso que el bi-encoder, pero no precomputable.
- Bi-encoder
- Modelo (de embeddings) que codifica consulta y documento por separado en vectores precomputables y los compara por similitud. Rápido y escalable, pero con pérdida por comprimir cada texto a un solo vector.
- Two-stage retrieval
- Arquitectura de recuperación en dos pasos: una primera etapa rápida y de alto recall que trae candidatos, y una segunda etapa de reordenamiento preciso sobre un subconjunto acotado.
- Recall
- Proporción de documentos relevantes que el sistema consigue recuperar. La primera etapa prioriza recall amplio; el reranker afina el orden de ese conjunto.
- Top-k
- El subconjunto de los k mejores candidatos al que se aplica el reranker (habitualmente 50-100), en lugar de a todo el corpus, por su coste en inferencia.
- Ventana de contexto
- Límite de tokens que un LLM puede procesar a la vez. Saturarla con documentos irrelevantes degrada la localización de la respuesta; el reranker ayuda a entregar solo lo pertinente.
- RAG
- Recuperación aumentada por generación: canalización que recupera documentos y los pasa a un LLM para generar la respuesta. El reranker es un componente opcional de su etapa de recuperación.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Fuentes
- Rerankers and Two-Stage Retrieval
- Cross-Encoders — Sentence Transformers documentation
- Training and Finetuning Reranker Models with Sentence Transformers
- Bi-Encoders vs Cross-Encoders
- What is the difference between a bi-encoder and a cross-encoder for similarity tasks?
- Advanced RAG Retrieval: Cross-Encoders & Reranking
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.