Inicio/Glosario/Embeddings

Embeddings

Un embedding es un vector numérico denso que representa el significado de un objeto —texto, imagen, audio o nodo de un grafo— en un espacio continuo, de modo que los elementos parecidos quedan cerca y los distintos lejos.

Automatización & agentes Búsqueda con IA (GEO/AIO)Datos & ingeniería

Qué es

Un embedding convierte un objeto en una lista de números (del orden de cientos a miles de dimensiones) que ocupa una posición en un espacio vectorial. La posición no es arbitraria: codifica significado. Dos textos con sentido próximo caen cerca; dos sin relación, lejos. La cercanía se mide con la similitud coseno o la distancia euclídea entre los vectores.

Frente a representaciones dispersas como el one-hot encoding —que solo marca identidad léxica y ocupa tantas posiciones como el vocabulario—, el embedding es compacto y denso: comprime el significado en un rango de valores manejable. Eso lo hace apto para tareas como agrupar (clustering), recomendar, clasificar o recuperar por significado.

No es exclusivo del texto. Hay embeddings de imagen, audio, vídeo y grafos. El sentido de la «similitud» cambia con el dominio: en texto, cercanía es semántica; en un grafo, suele reflejar posición o estructura (homofilia), útil para predicción de enlaces o resolución de entidades. El embedding lo produce un modelo entrenado para ese fin (un modelo de embeddings, por ejemplo un bi-encoder).

El significado como vector

Similitud por distancia

TEXTO

Fragmento

→

EMBEDDING

Vector

Representa el sentido.

→

USO

Similitud

Búsqueda y clustering.

Por qué importa

El embedding es la pieza base de la recuperación por significado. Sin vectores comparables no hay Búsqueda semántica, que es la recuperación por sentido y no por coincidencia léxica; ni Base de datos vectorial, que es el almacén que indexa esos vectores para buscar vecinos cercanos a escala; ni patrón RAG (Retrieval-Augmented Generation), que recupera fragmentos relevantes para inyectarlos como contexto a un LLM (modelo de lenguaje grande). Todo eso se construye encima de la capacidad de convertir documentos y consultas en posiciones de un mismo espacio.

Tiene un límite conocido: comprimir todo el significado de un objeto en un único vector antes de compararlo pierde matices. Por eso, en escenarios exigentes, el embedding no opera solo —se añade un reordenado posterior (un Reranker, que puntúa de nuevo cada candidato leyendo consulta y documento juntos) o, en casos complejos, una estructura de grafo (GraphRAG), apoyada en Entidades y grafos de conocimiento que modelan relaciones explícitas entre objetos. El embedding abre la recuperación; no la cierra por sí mismo.

En profundidad

Qué codifica un embedding y en qué se diferencia del one-hot

El one-hot encoding asigna a cada término una posición única en un vector tan largo como el vocabulario: marca identidad, no significado, y no relaciona términos parecidos. El embedding, en cambio, es denso —del orden de cientos a miles de valores— y sitúa cada objeto según lo que significa, de forma que sinónimos o conceptos afines quedan próximos. Esa densidad es lo que habilita agrupar, recomendar y clasificar sobre la base del sentido. Cómo se representa cada objeto es una decisión de Modelado de datos, que define qué entra al espacio vectorial y con qué granularidad.

Aspecto	One-hot	Embedding
Qué codifica	Identidad: posición única en el vocabulario	Significado: posición según lo que el objeto representa
Forma del vector	Disperso y tan largo como el vocabulario	Denso, de cientos a miles de valores
Términos afines	Equidistantes; no se relacionan entre sí	Sinónimos y conceptos próximos quedan cerca
Qué habilita	Marcar presencia/ausencia	Agrupar, recomendar y clasificar por sentido

Cómo se mide la similitud entre vectores

Comparar dos embeddings es medir su cercanía en el espacio. Las medidas habituales son la similitud coseno (ángulo entre vectores) y la distancia euclídea (separación en línea recta). No son intercambiables sin más: la elección depende de cómo se entrenó el modelo y de la tarea, y la distancia euclídea pierde fiabilidad cuando la dimensionalidad es muy alta. Documentar la métrica evita interpretar mal qué cuenta como «parecido»; esa misma métrica es la que ejecuta internamente una Base de datos vectorial al resolver la consulta de vecinos cercanos.

Métrica	Qué mide	Cuándo elegirla
Similitud coseno	El ángulo entre los dos vectores (orientación)	Cuando importa la dirección, no la magnitud
Distancia euclídea	La separación en línea recta entre puntos	Espacios de baja dimensión; pierde fiabilidad en alta dimensionalidad
Criterio común	Cómo se entrenó el modelo y la tarea concreta	Usar la métrica con la que el modelo aprendió
Buena práctica	Documentar qué cuenta como «parecido»	Siempre, para no malinterpretar la cercanía

Embeddings más allá del texto

Existen embeddings para imagen, audio, vídeo y grafos. La técnica es la misma —proyectar a un espacio vectorial— pero el significado de la proximidad varía. En texto, vectores cercanos comparten semántica. En un grafo de conocimiento, la cercanía refleja posición estructural (homofilia), lo que sirve para predicción de enlaces o resolución de entidades —el terreno propio de las Entidades y grafos de conocimiento, donde lo que importa es cómo se conectan los objetos, no solo qué dicen. Interpretar distancias exige conocer el dominio de origen.

Dominio	Qué significa la proximidad
Texto	Semántica compartida: vectores cercanos significan lo mismo
Imagen / audio / vídeo	Parecido perceptual proyectado al mismo espacio vectorial
Grafo de conocimiento	Posición estructural (homofilia): enlaces y resolución de entidades
Lectura transversal	La técnica es la misma; interpretar distancias exige conocer el origen

Del embedding al uso: por qué solo no basta

El embedding habilita la búsqueda por significado, pero rara vez es la pieza final. La recuperación suele organizarse en dos etapas: un recall amplio con embeddings (bi-encoder) y un reordenado posterior con un Reranker (cross-encoder), que codifica consulta y candidato juntos para afinar el orden. Para relaciones complejas se combina con la estructura de un grafo (GraphRAG). El embedding es el cimiento; Búsqueda semántica, Base de datos vectorial, RAG (Retrieval-Augmented Generation) y el Reranker son lo que se levanta sobre él.

Embedding (cimiento)

Proyecta consulta y objetos a un espacio vectorial: habilita búsqueda por significado

→

Recall amplio (bi-encoder)

Base vectorial recupera muchos candidatos por cercanía semántica

→

Reranking (cross-encoder)

Reordena codificando consulta y candidato juntos para afinar la relevancia

→

Estructura / GraphRAG

Para relaciones complejas, combina con la topología de un grafo

Qué observar

Las señales que importan.

Vector denso, no etiqueta dispersa

Un embedding ocupa un rango acotado de valores (del orden de cientos a miles) y codifica significado, no solo identidad léxica. Distingue una representación semántica real de un one-hot, que solo marca presencia o ausencia de un término.

La métrica de similitud es explícita

La cercanía entre dos vectores se calcula con similitud coseno o distancia euclídea. Conviene nombrar el método usado: no existe una única medida universal y la elección afecta a qué se considera «parecido».

El dominio cambia el sentido de «cerca»

En texto, proximidad equivale a semántica; en un grafo, a posición o estructura. Un embedding multimodal exige saber qué tipo de similitud está modelando antes de interpretar distancias.

Un único vector pierde matices

Reducir un objeto entero a un vector es una compresión con pérdida. Cuando la recuperación falla en precisión, suele indicar que hace falta una etapa de reordenado (reranking) o una representación estructurada, no solo más dimensiones.

Conceptos clave

El vocabulario del término.

Vector denso: Lista compacta de valores numéricos (del orden de cientos a miles) en la que casi todas las posiciones aportan información. Es la forma que toma un embedding, frente a las representaciones dispersas como el one-hot.
One-hot encoding: Representación dispersa que asigna a cada término una posición única en un vector del tamaño del vocabulario. Marca identidad léxica, pero no codifica significado ni relaciona términos parecidos.
Similitud coseno: Medida de cercanía entre dos vectores basada en el ángulo que forman. Es una de las métricas habituales para comparar embeddings; cuanto menor el ángulo, mayor la similitud.
Distancia euclídea: Medida de separación en línea recta entre dos puntos del espacio vectorial. Alternativa a la similitud coseno para estimar cuán parecidos son dos embeddings; pierde fiabilidad en dimensionalidades muy altas.
Bi-encoder: Modelo de embeddings que codifica cada texto por separado en su propio vector, sin interacción entre los tokens de la consulta y los del candidato. Permite precomputar vectores y recuperar rápido a gran escala.
Embedding multimodal: Embedding que representa objetos de distinta naturaleza —imagen, audio, vídeo— en un espacio vectorial. El sentido de la proximidad depende del dominio modelado.
Embedding de grafo: Vector que representa un nodo de un grafo según su posición o estructura. La cercanía refleja relaciones estructurales (homofilia), útil para predicción de enlaces y resolución de entidades.

Dónde lo aplicamos

Capa de conocimiento→Estructura y modelado→Ecosistema de modelos IA→

Casos de uso · Embeddings[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Conceptos relacionados

IABase de datos vectorial→IABúsqueda semántica→GEORAG (Retrieval-Augmented Generation)→IAReranker→IALLM (modelo de lenguaje grande)→AnalíticaModelado de datos→GEOEntidades y grafos de conocimiento→GEOGEO · Generative Engine Optimization→

Fuentes

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.

Explora el glosario → Agenda una llamada