innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Base de datos vectorial

IA

Base de datos vectorial

Sistema especializado en almacenar, indexar y recuperar embeddings —representaciones numéricas del significado de un dato— para encontrar los elementos más parecidos por similitud semántica, no por coincidencia exacta.

Qué es

Una base de datos vectorial guarda embeddings: vectores de números decimales, de alta dimensión, que un modelo de IA genera para capturar el significado semántico de un texto, una imagen, un audio o un vídeo. Frente a la base de datos tradicional, que busca coincidencias exactas en filas y columnas, la vectorial convierte la consulta en un vector y devuelve los vectores almacenados más cercanos en el espacio: busca por parecido de significado, no por coincidencia léxica.

Para que esa búsqueda sea rápida sobre millones de vectores, no se compara la consulta contra todo el corpus. Se usan índices de vecino más cercano aproximado (ANN, Approximate Nearest Neighbor), que sacrifican algo de exactitud (recall) a cambio de mucha velocidad. El índice más extendido es HNSW (Hierarchical Navigable Small World), un grafo jerárquico por capas que navega saltando hacia la zona más parecida; otras familias son IVF (particiona el espacio en clústeres con k-means) y PQ (Product Quantization, comprime los vectores). La cercanía se mide con métricas de distancia: similitud coseno, distancia euclídea o producto escalar.

Es la capa de infraestructura que sostiene la búsqueda semántica y el patrón RAG (Retrieval-Augmented Generation): se trocean documentos, se convierten en embeddings, se guardan en la base vectorial y, ante una pregunta, se recuperan los fragmentos más relevantes para pasarlos como contexto a un modelo de lenguaje. Como motores se citan Qdrant (base dedicada) y pgvector (extensión que añade vectores a PostgreSQL), además de Pinecone, Weaviate, Milvus, Chroma o LanceDB.

Base de datos vectorial
Indexa embeddings y busca por similitud
GUARDA
Embeddings
ÍNDICE
ANN
Vecinos aproximados.
CONSULTA
Similitud
Sostiene el RAG.

Por qué importa

Es el componente donde el conocimiento se persiste en forma que un agente o un modelo de lenguaje puede recuperar por significado. Sin esta capa, la búsqueda semántica y el RAG (Retrieval-Augmented Generation) no escalan: comparar cada consulta contra todo el corpus sería inviable sobre grandes volúmenes. Es también el sustrato sobre el que se monta la búsqueda semántica como servicio y el que suele alimentar a un agente de IA, que la consulta como memoria de largo plazo a través de protocolos como MCP (Model Context Protocol).

Conviene entender sus límites. La elección de índice y métrica es un compromiso entre velocidad, recall y memoria; no hay una receta única. Y el RAG vectorial clásico falla con preguntas compuestas, que necesitan varias recuperaciones, o cuando un primer intento recupera mal —por distancia inadecuada o por un troceado que parte el pasaje relevante—, lo que puede propagar errores al modelo. Una palanca habitual para mitigarlo es el reranker, que reordena los candidatos recuperados con un modelo más fino antes de pasarlos al LLM. De ahí también el interés por enfoques como el RAG agéntico o GraphRAG, este último apoyado en entidades y grafos de conocimiento en lugar de solo vectores.

En profundidad

Qué guarda y cómo busca: del dato al vector y de la consulta a los vecinos

El dato —texto, imagen, audio— se 'comprime' a un vector mediante un modelo de embeddings (por ejemplo OpenAI o bge-m3). La consulta se convierte en otro vector con el mismo modelo, y la base devuelve los vectores almacenados más cercanos. Por eso buscar 'gato' puede encontrar textos sobre animales relacionados aunque la palabra exacta no aparezca: lo que se compara es significado, no caracteres. Ese contenido a indexar no nace en la base: suele llegar de procesos de ETL / pipelines de datos que trocean, normalizan y embeben los documentos; el audio y el vídeo pasan antes por transcripción (STT) y voz (TTS) para convertirse en texto vectorizable.

1
Dato de origen
Texto, imagen o audio que se quiere indexar
2
Embedding
Un modelo (OpenAI, bge-m3) lo comprime a un vector
3
Consulta a vector
La pregunta se convierte con el MISMO modelo
4
Vecinos más cercanos
Devuelve los vectores próximos: compara significado, no caracteres

Índices ANN: HNSW, IVF y PQ, y el compromiso velocidad/recall/memoria

HNSW construye capas de vectores conectados por similitud y navega el grafo saltando hacia la zona más parecida; prioriza velocidad y recall altos a cambio de más memoria y tiempo de construcción. IVF agrupa los vectores en clústeres con k-means y solo busca en los más cercanos: construye más rápido y gasta menos memoria, con menor recall. PQ comprime los vectores para acelerar y ahorrar memoria. La combinación elegida fija el equilibrio del sistema.

ÍndiceOptimizaCompromiso
HNSWVelocidad y recall altosMás memoria y tiempo de construcción
IVFConstrucción rápida, menos memoriaRecall menor (solo busca clústeres cercanos)
PQCompresión: acelera y ahorra memoriaPérdida de precisión por cuantización

Métricas de distancia: coseno, euclídea y producto escalar

La métrica define qué significa 'cercano' en el espacio vectorial. La similitud coseno mide el ángulo entre vectores e ignora su magnitud; la distancia euclídea mide la línea recta entre dos puntos; el producto escalar combina dirección y magnitud. La elección no es libre: debe ser coherente con cómo se entrenó el modelo de embeddings.

MétricaQué mideSensible a magnitud
CosenoEl ángulo entre vectoresNo (ignora magnitud)
EuclídeaLa línea recta entre dos puntos
Producto escalarDirección y magnitud combinadas

Motores y despliegue: base dedicada frente a extensión sobre Postgres

Qdrant es una base vectorial dedicada, con filtrado por metadatos y foco en rendimiento. pgvector es una extensión que añade vectores a PostgreSQL: encaja cuando ya se usa Postgres y se quiere vectores junto a las garantías transaccionales (ACID) de la base relacional. Otras opciones del ecosistema son Pinecone, Weaviate, Milvus, Chroma o LanceDB. La elección depende del volumen, la infraestructura previa y los requisitos de filtrado y operación, y normalmente se despliega sobre infraestructura cloud, ya sea como servicio gestionado o autoalojada. Conviene cuidar la limpieza y calidad de datos antes de indexar: un corpus con duplicados o ruido degrada el recall por mucho que el índice sea bueno.

Qdrant (base dedicada)Filtrado por metadatos y foco en rendimiento
pgvector (extensión)Vectores junto a las garantías ACID de Postgres
Pinecone / Weaviate / Milvus / Chroma / LanceDBOtras opciones del ecosistema
No hay opción únicaDepende de volumen, infraestructura previa, filtrado y operación

Qué observar

Las señales que importan.

Distinguir almacenar de generar y de recuperar

La base vectorial almacena e indexa los vectores; generar el embedding es trabajo del modelo, y recuperar más generar es el patrón RAG. Confundir las tres capas lleva a atribuir a la base de datos responsabilidades que no son suyas.

El índice ANN es un compromiso explícito

No se escanea todo el corpus: se cambia algo de exactitud (recall) por mucha velocidad. La señal de madurez es que la elección de índice (HNSW, IVF, PQ) y sus parámetros se justifique según volumen, latencia y memoria, no por defecto.

La métrica de distancia define qué es 'cercano'

Coseno ignora la magnitud y mira el ángulo; la euclídea mide línea recta; el producto escalar combina ambas. La métrica debe coincidir con la que espera el modelo de embeddings usado, o la similitud pierde sentido.

Más que similitud: CRUD, filtrado y control de acceso

Una base vectorial de producción no solo busca por parecido: añade altas y bajas, filtrado por metadatos, replicación y control de acceso sobre los embeddings. Sin esas piezas es un índice, no una base de datos.

El fallo de recuperación se propaga

Si la base devuelve fragmentos poco relevantes, el modelo genera sobre un contexto pobre. El troceado de los documentos y la calidad del embedding condicionan el resultado tanto como el propio índice.

Conceptos clave

El vocabulario del término.

Embedding
Representación numérica de alta dimensión —un vector de decimales— que un modelo genera para capturar el significado semántico de un dato. Es lo que la base vectorial almacena.
ANN (Approximate Nearest Neighbor)
Familia de índices de vecino más cercano aproximado que evitan escanear todo el corpus: cambian algo de exactitud por mucha velocidad de búsqueda.
HNSW (Hierarchical Navigable Small World)
Índice de grafo jerárquico por capas, el más extendido. Conecta vectores por similitud y navega saltando hacia la zona más parecida; alto recall y velocidad a cambio de más memoria.
IVF (Inverted File)
Índice que particiona el espacio en clústeres con k-means y busca solo en los más cercanos a la consulta. Construye rápido y gasta poca memoria, con menor recall.
PQ (Product Quantization)
Técnica que comprime los vectores para acelerar la búsqueda y ahorrar memoria, a costa de precisión en la representación.
Similitud coseno
Métrica de distancia que mide el ángulo entre dos vectores e ignora su magnitud. Una de las formas habituales de definir qué vectores están 'cerca'.
RAG (Retrieval-Augmented Generation)
Patrón que recupera de la base vectorial los fragmentos más relevantes a una pregunta y los pasa como contexto a un modelo de lenguaje. La base vectorial es su capa de almacenamiento e índice.
Casos de uso · Base de datos vectorial[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.