innovaorigen tech Agenda una llamada
Agenda una llamada

Inicio/Glosario/Embeddings

IA

Embeddings

Un embedding es un vector numérico denso que representa el significado de un objeto —texto, imagen, audio o nodo de un grafo— en un espacio continuo, de modo que los elementos parecidos quedan cerca y los distintos lejos.

Qué es

Un embedding convierte un objeto en una lista de números (del orden de cientos a miles de dimensiones) que ocupa una posición en un espacio vectorial. La posición no es arbitraria: codifica significado. Dos textos con sentido próximo caen cerca; dos sin relación, lejos. La cercanía se mide con la similitud coseno o la distancia euclídea entre los vectores.

Frente a representaciones dispersas como el one-hot encoding —que solo marca identidad léxica y ocupa tantas posiciones como el vocabulario—, el embedding es compacto y denso: comprime el significado en un rango de valores manejable. Eso lo hace apto para tareas como agrupar (clustering), recomendar, clasificar o recuperar por significado.

No es exclusivo del texto. Hay embeddings de imagen, audio, vídeo y grafos. El sentido de la «similitud» cambia con el dominio: en texto, cercanía es semántica; en un grafo, suele reflejar posición o estructura (homofilia), útil para predicción de enlaces o resolución de entidades. El embedding lo produce un modelo entrenado para ese fin (un modelo de embeddings, por ejemplo un bi-encoder).

El significado como vector
Similitud por distancia
TEXTO
Fragmento
EMBEDDING
Vector
Representa el sentido.
USO
Similitud
Búsqueda y clustering.

Por qué importa

El embedding es la pieza base de la recuperación por significado. Sin vectores comparables no hay Búsqueda semántica, que es la recuperación por sentido y no por coincidencia léxica; ni Base de datos vectorial, que es el almacén que indexa esos vectores para buscar vecinos cercanos a escala; ni patrón RAG (Retrieval-Augmented Generation), que recupera fragmentos relevantes para inyectarlos como contexto a un LLM (modelo de lenguaje grande). Todo eso se construye encima de la capacidad de convertir documentos y consultas en posiciones de un mismo espacio.

Tiene un límite conocido: comprimir todo el significado de un objeto en un único vector antes de compararlo pierde matices. Por eso, en escenarios exigentes, el embedding no opera solo —se añade un reordenado posterior (un Reranker, que puntúa de nuevo cada candidato leyendo consulta y documento juntos) o, en casos complejos, una estructura de grafo (GraphRAG), apoyada en Entidades y grafos de conocimiento que modelan relaciones explícitas entre objetos. El embedding abre la recuperación; no la cierra por sí mismo.

En profundidad

Qué codifica un embedding y en qué se diferencia del one-hot

El one-hot encoding asigna a cada término una posición única en un vector tan largo como el vocabulario: marca identidad, no significado, y no relaciona términos parecidos. El embedding, en cambio, es denso —del orden de cientos a miles de valores— y sitúa cada objeto según lo que significa, de forma que sinónimos o conceptos afines quedan próximos. Esa densidad es lo que habilita agrupar, recomendar y clasificar sobre la base del sentido. Cómo se representa cada objeto es una decisión de Modelado de datos, que define qué entra al espacio vectorial y con qué granularidad.

AspectoOne-hotEmbedding
Qué codificaIdentidad: posición única en el vocabularioSignificado: posición según lo que el objeto representa
Forma del vectorDisperso y tan largo como el vocabularioDenso, de cientos a miles de valores
Términos afinesEquidistantes; no se relacionan entre síSinónimos y conceptos próximos quedan cerca
Qué habilitaMarcar presencia/ausenciaAgrupar, recomendar y clasificar por sentido

Cómo se mide la similitud entre vectores

Comparar dos embeddings es medir su cercanía en el espacio. Las medidas habituales son la similitud coseno (ángulo entre vectores) y la distancia euclídea (separación en línea recta). No son intercambiables sin más: la elección depende de cómo se entrenó el modelo y de la tarea, y la distancia euclídea pierde fiabilidad cuando la dimensionalidad es muy alta. Documentar la métrica evita interpretar mal qué cuenta como «parecido»; esa misma métrica es la que ejecuta internamente una Base de datos vectorial al resolver la consulta de vecinos cercanos.

MétricaQué mideCuándo elegirla
Similitud cosenoEl ángulo entre los dos vectores (orientación)Cuando importa la dirección, no la magnitud
Distancia euclídeaLa separación en línea recta entre puntosEspacios de baja dimensión; pierde fiabilidad en alta dimensionalidad
Criterio comúnCómo se entrenó el modelo y la tarea concretaUsar la métrica con la que el modelo aprendió
Buena prácticaDocumentar qué cuenta como «parecido»Siempre, para no malinterpretar la cercanía

Embeddings más allá del texto

Existen embeddings para imagen, audio, vídeo y grafos. La técnica es la misma —proyectar a un espacio vectorial— pero el significado de la proximidad varía. En texto, vectores cercanos comparten semántica. En un grafo de conocimiento, la cercanía refleja posición estructural (homofilia), lo que sirve para predicción de enlaces o resolución de entidades —el terreno propio de las Entidades y grafos de conocimiento, donde lo que importa es cómo se conectan los objetos, no solo qué dicen. Interpretar distancias exige conocer el dominio de origen.

DominioQué significa la proximidad
TextoSemántica compartida: vectores cercanos significan lo mismo
Imagen / audio / vídeoParecido perceptual proyectado al mismo espacio vectorial
Grafo de conocimientoPosición estructural (homofilia): enlaces y resolución de entidades
Lectura transversalLa técnica es la misma; interpretar distancias exige conocer el origen

Del embedding al uso: por qué solo no basta

El embedding habilita la búsqueda por significado, pero rara vez es la pieza final. La recuperación suele organizarse en dos etapas: un recall amplio con embeddings (bi-encoder) y un reordenado posterior con un Reranker (cross-encoder), que codifica consulta y candidato juntos para afinar el orden. Para relaciones complejas se combina con la estructura de un grafo (GraphRAG). El embedding es el cimiento; Búsqueda semántica, Base de datos vectorial, RAG (Retrieval-Augmented Generation) y el Reranker son lo que se levanta sobre él.

1
Embedding (cimiento)
Proyecta consulta y objetos a un espacio vectorial: habilita búsqueda por significado
2
Recall amplio (bi-encoder)
Base vectorial recupera muchos candidatos por cercanía semántica
3
Reranking (cross-encoder)
Reordena codificando consulta y candidato juntos para afinar la relevancia
4
Estructura / GraphRAG
Para relaciones complejas, combina con la topología de un grafo

Qué observar

Las señales que importan.

Vector denso, no etiqueta dispersa

Un embedding ocupa un rango acotado de valores (del orden de cientos a miles) y codifica significado, no solo identidad léxica. Distingue una representación semántica real de un one-hot, que solo marca presencia o ausencia de un término.

La métrica de similitud es explícita

La cercanía entre dos vectores se calcula con similitud coseno o distancia euclídea. Conviene nombrar el método usado: no existe una única medida universal y la elección afecta a qué se considera «parecido».

El dominio cambia el sentido de «cerca»

En texto, proximidad equivale a semántica; en un grafo, a posición o estructura. Un embedding multimodal exige saber qué tipo de similitud está modelando antes de interpretar distancias.

Un único vector pierde matices

Reducir un objeto entero a un vector es una compresión con pérdida. Cuando la recuperación falla en precisión, suele indicar que hace falta una etapa de reordenado (reranking) o una representación estructurada, no solo más dimensiones.

Conceptos clave

El vocabulario del término.

Vector denso
Lista compacta de valores numéricos (del orden de cientos a miles) en la que casi todas las posiciones aportan información. Es la forma que toma un embedding, frente a las representaciones dispersas como el one-hot.
One-hot encoding
Representación dispersa que asigna a cada término una posición única en un vector del tamaño del vocabulario. Marca identidad léxica, pero no codifica significado ni relaciona términos parecidos.
Similitud coseno
Medida de cercanía entre dos vectores basada en el ángulo que forman. Es una de las métricas habituales para comparar embeddings; cuanto menor el ángulo, mayor la similitud.
Distancia euclídea
Medida de separación en línea recta entre dos puntos del espacio vectorial. Alternativa a la similitud coseno para estimar cuán parecidos son dos embeddings; pierde fiabilidad en dimensionalidades muy altas.
Bi-encoder
Modelo de embeddings que codifica cada texto por separado en su propio vector, sin interacción entre los tokens de la consulta y los del candidato. Permite precomputar vectores y recuperar rápido a gran escala.
Embedding multimodal
Embedding que representa objetos de distinta naturaleza —imagen, audio, vídeo— en un espacio vectorial. El sentido de la proximidad depende del dominio modelado.
Embedding de grafo
Vector que representa un nodo de un grafo según su posición o estructura. La cercanía refleja relaciones estructurales (homofilia), útil para predicción de enlaces y resolución de entidades.
Casos de uso · Embeddings[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.