Qué es
La búsqueda semántica representa tanto la consulta del usuario como los documentos como embeddings: vectores numéricos de alta dimensión que codifican el sentido del texto. Esos vectores se guardan en una base de datos vectorial y, en el momento de la consulta, el sistema busca los documentos cuyo vector está más cerca del de la pregunta, midiendo la proximidad por similitud del coseno o distancia euclídea, a menudo con índices de vecinos aproximados (ANN, tipo HNSW) para resolverlo rápido. Así reconoce que "coche" y "automóvil", o "diseño de API" y "API design", hablan de lo mismo aunque no compartan las palabras exactas.
La recuperación vectorial es rápida pero aproximada, porque comprime cada texto en un único vector calculado por separado (bi-encoder o recuperación densa). Sobre ella se añade una etapa de precisión: el reranker, un cross-encoder que procesa cada par consulta-documento conjuntamente a través del transformer completo y emite una puntuación de relevancia más fina. Como es más caro de computar, no se aplica a toda la base, sino al patrón en dos fases retrieve-then-rerank: primero se recuperan N candidatos por vector, luego el reranker los reordena y devuelve los K mejores. La tendencia de mayor calidad es la búsqueda híbrida, que combina coincidencia léxica (keywords), semántica (embeddings) y reordenación para mejorar a la vez precisión y recall.
Es el mecanismo de recuperación que sostiene el RAG (Retrieval-Augmented Generation): trocear documentos en chunks, embeberlos e indexarlos y, en runtime, embeber la pregunta, recuperar los chunks más relevantes y pasarlos al modelo como contexto. La diferencia de alcance es clara: la búsqueda semántica solo encuentra y devuelve los pasajes relevantes; el RAG, además, los usa para redactar una respuesta fundamentada.
Por qué importa
Buscar por significado evita el punto ciego de la coincidencia exacta de palabras: encuentra documentos relevantes aunque usen sinónimos o formulaciones distintas a las de la consulta. Es la base de recuperación de las capas de conocimiento documental y de los sistemas de pregunta-respuesta sobre fuentes propias, y por eso aparece bajo el capó de cualquier chatbot / asistente conversacional que responde sobre tu corpus en lugar de inventar. No es infalible: la recuperación vectorial es aproximada, puede perder contexto entre chunks y la calidad depende del modelo de embeddings, de la limpieza y calidad de datos del corpus (basura dentro, basura recuperada) y de la etapa de reordenación con un reranker. De ahí los patrones que la refinan (retrieve-then-rerank, búsqueda híbrida) y los enfoques que añaden estructura, como GraphRAG, que apoya la recuperación en entidades y grafos de conocimiento en lugar de solo en proximidad vectorial.
En profundidad
Espacio vectorial: cómo se mide la proximidad de significado
Cada texto se proyecta en un punto de un espacio de muchas dimensiones; esa proyección la calcula el modelo de embeddings. La cercanía entre dos puntos se mide por similitud del coseno (ángulo entre vectores) o distancia euclídea. Para no comparar contra todos los vectores uno a uno, se usan índices de vecinos más cercanos aproximados (ANN), como HNSW, que sacrifican exactitud marginal a cambio de gran velocidad de consulta; esos índices son lo que provee una base de datos vectorial.
Bi-encoder frente a cross-encoder
El bi-encoder (recuperación densa) calcula el vector de la consulta y el de cada documento por separado; es rápido y escala a toda la base, pero aproximado, porque comprime cada texto en un solo vector. El cross-encoder procesa el par consulta-documento conjuntamente a través del transformer completo y da una relevancia más precisa; es más caro, por eso se reserva a reordenar un puñado de candidatos en el papel de reranker, no a recorrer todo el corpus.
| Aspecto | Bi-encoder | Cross-encoder |
|---|---|---|
| Cómo procesa | Vector de consulta y de documento por separado | Par consulta-documento juntos en el transformer completo |
| Coste | Rápido y barato | Más caro |
| Escala | A toda la base | A un puñado de candidatos |
| Precisión | Aproximada (un solo vector por texto) | Relevancia más precisa |
| Rol típico | Recuperación densa inicial | Reordenar los candidatos |
Retrieve-then-rerank y búsqueda híbrida
El patrón habitual encadena dos etapas: el retriever vectorial trae N candidatos rápido pero aproximado, y el reranker los reordena para devolver los K mejores. La búsqueda híbrida suma una tercera pieza, la coincidencia léxica de palabras clave, junto a la semántica de los embeddings y la reordenación. Combinar las tres mejora a la vez precisión y recall, y es la configuración de mayor calidad hoy.
Búsqueda semántica frente a RAG
Ambas comparten la recuperación por significado, pero difieren en alcance. La búsqueda semántica termina al devolver los pasajes relevantes: es una recuperación. El RAG (Retrieval-Augmented Generation) da un paso más y entrega esos pasajes a un LLM como contexto para redactar una respuesta fundamentada en ellos. Dicho de otro modo: la semántica encuentra; el RAG, además, explica.
| Búsqueda semántica | RAG | |
|---|---|---|
| Base común | Recuperación por significado | Recuperación por significado |
| Salida | Devuelve los pasajes relevantes | Redacta una respuesta fundamentada en ellos |
| Dónde termina | Termina al recuperar | Pasa los pasajes a un LLM como contexto |
| En una frase | Encuentra | Encuentra y, además, explica |
Qué observar
Las señales que importan.
Comparación por proximidad de vectores, no por palabras
La consulta y los documentos se representan como vectores y se comparan por cercanía en el espacio vectorial. Importa porque permite recuperar textos relevantes aunque no compartan los términos exactos de la pregunta.
Embeddings que codifican significado
Un embedding es una representación numérica que preserva el sentido del texto; los textos de significado parecido quedan cerca. Es la condición para que la proximidad vectorial equivalga a proximidad de significado.
Base vectorial con índices de vecinos aproximados
El almacén resuelve la búsqueda de similitud, normalmente con índices ANN tipo HNSW. Importa porque hace viable consultar millones de vectores en milisegundos, a cambio de una aproximación controlada.
Pipeline en dos fases retrieve-then-rerank
Una recuperación rápida y aproximada (bi-encoder) trae N candidatos; una reordenación precisa (cross-encoder) devuelve los K mejores. Separa velocidad de precisión en vez de sacrificar una por la otra.
Búsqueda híbrida (léxico + semántica + reranking)
Combinar coincidencia de palabras con similitud semántica y reordenación mejora precisión y recall a la vez. Es la señal de un sistema de recuperación maduro frente a la semántica pura.
Conceptos clave
El vocabulario del término.
- Embedding
- Representación numérica de un texto en forma de vector de muchas dimensiones que preserva su significado; textos de sentido parecido producen vectores cercanos.
- Base de datos vectorial
- Almacén que guarda embeddings y resuelve búsquedas por similitud, normalmente con índices de vecinos aproximados para responder rápido.
- Similitud del coseno
- Medida de proximidad entre dos vectores basada en el ángulo que forman; cuanto menor es el ángulo, más parecido es el significado representado.
- ANN (vecinos aproximados)
- Familia de algoritmos, como HNSW, que encuentran los vectores más cercanos de forma aproximada para ganar velocidad sin comparar contra todos uno a uno.
- Bi-encoder
- Modelo que calcula por separado el vector de la consulta y el de cada documento; base de la recuperación densa, rápida pero aproximada.
- Cross-encoder
- Modelo que procesa el par consulta-documento conjuntamente y emite una puntuación de relevancia precisa; más costoso, propio de la etapa de reordenación.
- Retrieve-then-rerank
- Patrón en dos fases: recuperar N candidatos rápido por vector y reordenarlos con un reranker para devolver los K mejores, equilibrando velocidad y precisión.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Fuentes
- Retrieve & Re-Rank Pipeline (Sentence-Transformers)
- Rerankers and Two-Stage Retrieval (Pinecone)
- Reranking for Better Search (Qdrant Documentation)
- Using Cross-Encoders as reranker in multistage vector search (Weaviate)
- Semantic search vs. RAG: A side-by-side comparison (Meilisearch)
- Hierarchical Navigable Small World (Wikipedia)
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.