Embeddings
Un embedding es un vector numérico denso que representa el significado de un objeto —texto, imagen, audio o nodo de un grafo— en un espacio continuo, de modo que los elementos parecidos quedan cerca y los distintos lejos.
Qué es
Un embedding convierte un objeto en una lista de números (del orden de cientos a miles de dimensiones) que ocupa una posición en un espacio vectorial. La posición no es arbitraria: codifica significado. Dos textos con sentido próximo caen cerca; dos sin relación, lejos. La cercanía se mide con la similitud coseno o la distancia euclídea entre los vectores.
Frente a representaciones dispersas como el one-hot encoding —que solo marca identidad léxica y ocupa tantas posiciones como el vocabulario—, el embedding es compacto y denso: comprime el significado en un rango de valores manejable. Eso lo hace apto para tareas como agrupar (clustering), recomendar, clasificar o recuperar por significado.
No es exclusivo del texto. Hay embeddings de imagen, audio, vídeo y grafos. El sentido de la «similitud» cambia con el dominio: en texto, cercanía es semántica; en un grafo, suele reflejar posición o estructura (homofilia), útil para predicción de enlaces o resolución de entidades. El embedding lo produce un modelo entrenado para ese fin (un modelo de embeddings, por ejemplo un bi-encoder).
Por qué importa
El embedding es la pieza base de la recuperación por significado. Sin vectores comparables no hay Búsqueda semántica, que es la recuperación por sentido y no por coincidencia léxica; ni Base de datos vectorial, que es el almacén que indexa esos vectores para buscar vecinos cercanos a escala; ni patrón RAG (Retrieval-Augmented Generation), que recupera fragmentos relevantes para inyectarlos como contexto a un LLM (modelo de lenguaje grande). Todo eso se construye encima de la capacidad de convertir documentos y consultas en posiciones de un mismo espacio.
Tiene un límite conocido: comprimir todo el significado de un objeto en un único vector antes de compararlo pierde matices. Por eso, en escenarios exigentes, el embedding no opera solo —se añade un reordenado posterior (un Reranker, que puntúa de nuevo cada candidato leyendo consulta y documento juntos) o, en casos complejos, una estructura de grafo (GraphRAG), apoyada en Entidades y grafos de conocimiento que modelan relaciones explícitas entre objetos. El embedding abre la recuperación; no la cierra por sí mismo.
En profundidad
Qué codifica un embedding y en qué se diferencia del one-hot
El one-hot encoding asigna a cada término una posición única en un vector tan largo como el vocabulario: marca identidad, no significado, y no relaciona términos parecidos. El embedding, en cambio, es denso —del orden de cientos a miles de valores— y sitúa cada objeto según lo que significa, de forma que sinónimos o conceptos afines quedan próximos. Esa densidad es lo que habilita agrupar, recomendar y clasificar sobre la base del sentido. Cómo se representa cada objeto es una decisión de Modelado de datos, que define qué entra al espacio vectorial y con qué granularidad.
| Aspecto | One-hot | Embedding |
|---|---|---|
| Qué codifica | Identidad: posición única en el vocabulario | Significado: posición según lo que el objeto representa |
| Forma del vector | Disperso y tan largo como el vocabulario | Denso, de cientos a miles de valores |
| Términos afines | Equidistantes; no se relacionan entre sí | Sinónimos y conceptos próximos quedan cerca |
| Qué habilita | Marcar presencia/ausencia | Agrupar, recomendar y clasificar por sentido |
Cómo se mide la similitud entre vectores
Comparar dos embeddings es medir su cercanía en el espacio. Las medidas habituales son la similitud coseno (ángulo entre vectores) y la distancia euclídea (separación en línea recta). No son intercambiables sin más: la elección depende de cómo se entrenó el modelo y de la tarea, y la distancia euclídea pierde fiabilidad cuando la dimensionalidad es muy alta. Documentar la métrica evita interpretar mal qué cuenta como «parecido»; esa misma métrica es la que ejecuta internamente una Base de datos vectorial al resolver la consulta de vecinos cercanos.
| Métrica | Qué mide | Cuándo elegirla |
|---|---|---|
| Similitud coseno | El ángulo entre los dos vectores (orientación) | Cuando importa la dirección, no la magnitud |
| Distancia euclídea | La separación en línea recta entre puntos | Espacios de baja dimensión; pierde fiabilidad en alta dimensionalidad |
| Criterio común | Cómo se entrenó el modelo y la tarea concreta | Usar la métrica con la que el modelo aprendió |
| Buena práctica | Documentar qué cuenta como «parecido» | Siempre, para no malinterpretar la cercanía |
Embeddings más allá del texto
Existen embeddings para imagen, audio, vídeo y grafos. La técnica es la misma —proyectar a un espacio vectorial— pero el significado de la proximidad varía. En texto, vectores cercanos comparten semántica. En un grafo de conocimiento, la cercanía refleja posición estructural (homofilia), lo que sirve para predicción de enlaces o resolución de entidades —el terreno propio de las Entidades y grafos de conocimiento, donde lo que importa es cómo se conectan los objetos, no solo qué dicen. Interpretar distancias exige conocer el dominio de origen.
| Dominio | Qué significa la proximidad |
|---|---|
| Texto | Semántica compartida: vectores cercanos significan lo mismo |
| Imagen / audio / vídeo | Parecido perceptual proyectado al mismo espacio vectorial |
| Grafo de conocimiento | Posición estructural (homofilia): enlaces y resolución de entidades |
| Lectura transversal | La técnica es la misma; interpretar distancias exige conocer el origen |
Del embedding al uso: por qué solo no basta
El embedding habilita la búsqueda por significado, pero rara vez es la pieza final. La recuperación suele organizarse en dos etapas: un recall amplio con embeddings (bi-encoder) y un reordenado posterior con un Reranker (cross-encoder), que codifica consulta y candidato juntos para afinar el orden. Para relaciones complejas se combina con la estructura de un grafo (GraphRAG). El embedding es el cimiento; Búsqueda semántica, Base de datos vectorial, RAG (Retrieval-Augmented Generation) y el Reranker son lo que se levanta sobre él.
Qué observar
Las señales que importan.
Vector denso, no etiqueta dispersa
Un embedding ocupa un rango acotado de valores (del orden de cientos a miles) y codifica significado, no solo identidad léxica. Distingue una representación semántica real de un one-hot, que solo marca presencia o ausencia de un término.
La métrica de similitud es explícita
La cercanía entre dos vectores se calcula con similitud coseno o distancia euclídea. Conviene nombrar el método usado: no existe una única medida universal y la elección afecta a qué se considera «parecido».
El dominio cambia el sentido de «cerca»
En texto, proximidad equivale a semántica; en un grafo, a posición o estructura. Un embedding multimodal exige saber qué tipo de similitud está modelando antes de interpretar distancias.
Un único vector pierde matices
Reducir un objeto entero a un vector es una compresión con pérdida. Cuando la recuperación falla en precisión, suele indicar que hace falta una etapa de reordenado (reranking) o una representación estructurada, no solo más dimensiones.
Conceptos clave
El vocabulario del término.
- Vector denso
- Lista compacta de valores numéricos (del orden de cientos a miles) en la que casi todas las posiciones aportan información. Es la forma que toma un embedding, frente a las representaciones dispersas como el one-hot.
- One-hot encoding
- Representación dispersa que asigna a cada término una posición única en un vector del tamaño del vocabulario. Marca identidad léxica, pero no codifica significado ni relaciona términos parecidos.
- Similitud coseno
- Medida de cercanía entre dos vectores basada en el ángulo que forman. Es una de las métricas habituales para comparar embeddings; cuanto menor el ángulo, mayor la similitud.
- Distancia euclídea
- Medida de separación en línea recta entre dos puntos del espacio vectorial. Alternativa a la similitud coseno para estimar cuán parecidos son dos embeddings; pierde fiabilidad en dimensionalidades muy altas.
- Bi-encoder
- Modelo de embeddings que codifica cada texto por separado en su propio vector, sin interacción entre los tokens de la consulta y los del candidato. Permite precomputar vectores y recuperar rápido a gran escala.
- Embedding multimodal
- Embedding que representa objetos de distinta naturaleza —imagen, audio, vídeo— en un espacio vectorial. El sentido de la proximidad depende del dominio modelado.
- Embedding de grafo
- Vector que representa un nodo de un grafo según su posición o estructura. La cercanía refleja relaciones estructurales (homofilia), útil para predicción de enlaces y resolución de entidades.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.