Inicio/Glosario/LLM (modelo de lenguaje grande)

LLM (modelo de lenguaje grande)

Un LLM (modelo de lenguaje grande) es una red neuronal entrenada sobre enormes volúmenes de texto cuya tarea es predecir el siguiente token a partir del contexto previo. No piensa ni busca: autocompleta de forma estadística.

Automatización & agentes

Qué es

Un LLM (Large Language Model) es una red neuronal entrenada con grandes cantidades de texto para una tarea concreta: predecir el siguiente token —la unidad mínima de texto, sea palabra, subpalabra o carácter— dado lo que viene antes. Es la tecnología detrás de los chatbots (ChatGPT, Claude, Gemini, Perplexity) y de los agentes de IA. Casi todos se apoyan en la arquitectura transformer, presentada por Google en 2017 ('Attention Is All You Need'), cuyo mecanismo de atención pondera de golpe qué tokens de la secuencia son relevantes entre sí, en lugar de procesarlos uno a uno como las redes anteriores.

Conviene desmitificarlo. Un LLM no 'razona' como una persona ni consulta una base de datos: es un motor estadístico de autocompletar que asigna probabilidades a los posibles tokens siguientes a partir de patrones aprendidos. Representa el significado mediante embeddings (vectores) que capturan relaciones —género, capital-país— y opera sobre tokens, no sobre palabras exactas; por eso no cuenta palabras como un humano. De ese funcionamiento emergen tres conceptos que conviene distinguir: el token (cómo trocea el texto), la ventana de contexto (cuántos tokens tiene 'a la vista' a la vez) y la alucinación (texto fluido pero factualmente incorrecto).

Un matiz importante: el LLM clásico solo predice el siguiente token. El modelo de razonamiento genera además tokens internos de 'pensamiento' no visibles y puede invocar herramientas —búsqueda web, ejecución de código— antes de responder. En ambos casos, salvo que se acople recuperación (RAG) o herramientas, el modelo no consulta fuentes en vivo.

Predecir el siguiente token

La base de chatbots y agentes

ENTRADA

Tokens

Ventana de contexto.

→

MODELO

Predice

El siguiente token.

→

SALIDA

Texto

Con riesgo de alucinar.

Por qué importa

La distinción entre un LLM y un buscador es práctica, no académica. Un buscador recupera y ordena documentos que ya existen; un LLM genera texto nuevo de forma probabilística y, sin recuperación o herramientas acopladas, no comprueba fuentes ni garantiza veracidad. Por eso la alucinación no es un fallo accidental que se 'arregle': es una consecuencia estructural de predecir tokens. Quien trabaja GEO · Generative Engine Optimization —optimizar para que estos modelos y los AI Overviews y AI Mode que los incorporan recuperen y citen tu contenido— necesita asumirlo. Si el modelo autocompleta y puede alucinar, su salida se verifica antes de publicarse. El valor no está en pedirle una lista, sino en contrastar, criticar y validar lo que produce: criterio humano al mando. Nadie puede garantizar posiciones ni citas de un modelo; lo que sí puede instrumentarse es el juicio sobre lo que genera, y la Medición de la visibilidad en IA, que rastrea cuándo y cómo te citan estos sistemas, para tener señal en lugar de intuición.

En profundidad

Arquitectura transformer y el mecanismo de atención

La práctica totalidad de los LLM actuales se basa en el transformer, presentado por Google en 2017 ('Attention Is All You Need'). Su mecanismo de atención (self-attention) evalúa de golpe qué tokens de la secuencia son relevantes entre sí, en lugar de recorrerlos uno a uno como las redes recurrentes previas. Curiosidad: BERT, que forma parte del algoritmo de Google desde hace años, ya era un transformer (la 'T' de su nombre) antes de la popularización de ChatGPT. El mismo mecanismo que pondera la relevancia entre tokens es el que produce los Embeddings —vectores que sitúan textos por su significado— sobre los que se apoya luego la Búsqueda semántica.

Tokens de entrada

La secuencia se convierte en tokens y se proyecta en vectores con su posición.

→

Self-attention

Cada token mira a todos los demás de golpe y pondera cuáles son relevantes entre sí.

→

Capas apiladas

Bloques de atención + feed-forward se repiten en profundidad refinando la representación.

→

Predicción

La salida estima el siguiente token. BERT (la 'T' de transformer) ya usaba este mecanismo.

Tokens, ventana de contexto y parámetros

El token es la unidad mínima del modelado: el texto se convierte en índices numéricos (por ejemplo mediante byte-pair encoding). La ventana de contexto es cuántos tokens puede manejar el modelo a la vez; los rangos han crecido deprisa —del orden de 1k en GPT-2 a 128k, 200k o cifras que se afirman cercanas o superiores a 1 millón en modelos recientes— y conviene tratarlos como datos cambiantes que se verifican por modelo antes de citarlos. Una ventana mayor no implica de por sí mejor resultado: los modelos suelen degradarse antes de su límite teórico. Los parámetros son los pesos del modelo; cuando se cuentan en cientos de miles de millones, superan el hardware de consumo. Una tendencia reciente es Mixture of Experts (MoE): muchos parámetros totales pero solo una fracción activa por token.

Concepto	Qué es	Matiz a verificar
Token	Unidad mínima del texto modelado (p. ej. via byte-pair encoding)	No equivale a 'palabra'; un término puede ser varios tokens
Ventana de contexto	Cuántos tokens maneja a la vez	Cifras cambian por modelo; suele degradarse antes del límite teórico
Parámetros	Los pesos aprendidos del modelo	En cientos de miles de millones superan el hardware de consumo
MoE	Mixture of Experts: muchos pesos totales	Solo una fracción se activa por token

Por qué un LLM alucina (y no 'piensa' ni 'busca')

El LLM emula combinaciones de palabras vistas en el entrenamiento; cuando extrapola más allá de lo que 'sabe', produce texto fluido y plausible aunque sea falso. No calcula ni verifica como una persona. De ahí la idea que recogen varias fuentes: un LLM siempre puede alucinar. La consecuencia operativa es directa: la salida se usa como borrador a verificar, no como verdad establecida. Para acotarlo se acopla RAG (Retrieval-Augmented Generation), que recupera fragmentos reales y se los da al modelo como contexto antes de responder, de modo que la generación se ancle en fuentes y no en su pura memoria estadística.

Verifica los hechosEmula combinaciones de palabras vistas, no comprueba ni calcula como una persona

Sabe cuándo no sabeAl extrapolar produce texto fluido y plausible aunque sea falso

Genera lenguaje convincenteSu fluidez es precisamente lo que hace difícil detectar el error

Sirve como borradorLa salida se usa como punto de partida a verificar, nunca como verdad establecida

LLM clásico vs. modelo de razonamiento con herramientas

El LLM 'de estilo antiguo' se limita a predecir el siguiente token. El modelo de razonamiento genera primero tokens internos de 'pensamiento' (no mostrados, en número variable) y puede orquestar herramientas —búsqueda web, ejecución de código— antes de emitir la respuesta. En las búsquedas con IA actuales, una consulta puede disparar varias sub-recuperaciones que el modelo coordina: pipelines agénticos sobre la misma base predictiva. Cuando ese encadenamiento de herramientas se formaliza, el LLM pasa a ser el cerebro de un Agente de IA y mesh de agentes, y a menudo accede a esas herramientas mediante MCP · Model Context Protocol, el estándar que expone capacidades externas al modelo de forma uniforme.

Rasgo	LLM clásico	Modelo de razonamiento
Qué hace	Predice el siguiente token	Genera tokens internos de 'pensamiento' antes de responder
Herramientas	No las usa	Orquesta búsqueda web, ejecución de código y más
Recuperación	Una sola pasada	Una consulta puede disparar varias sub-recuperaciones coordinadas
Base	Predictiva	La misma base predictiva, ahora en pipeline agéntico

Qué observar

Las señales que importan.

Genera texto, no recupera documentos

Un LLM produce tokens probables; no consulta un índice de fuentes en vivo salvo que se le acople recuperación (RAG) o herramientas. Confundirlo con un buscador lleva a confiar en datos que el modelo no ha verificado.

La alucinación es estructural, no anecdótica

Generar texto plausible pero incorrecto es consecuencia de cómo se entrena el modelo —predecir el siguiente token y extrapolar—, no un bug puntual. Asumirlo cambia el flujo de trabajo: toda salida factual se contrasta.

Opera sobre tokens, no sobre palabras

El texto se trocea en tokens (palabra, subpalabra o carácter). Por eso un LLM no cuenta palabras como una persona y la longitud útil se mide en tokens, no en caracteres.

La ventana de contexto acota qué 'recuerda'

El modelo solo procesa un número limitado de tokens a la vez (entrada más salida). Esa ventana determina cuánta información mantiene presente en una conversación o un documento largo, y una ventana mayor no garantiza mejor resultado.

Razonar y usar herramientas no es lo mismo que predecir

Un modelo de razonamiento añade tokens internos de 'pensamiento' y puede llamar a búsqueda o código antes de responder. Distinguirlo del LLM clásico evita atribuir capacidades —o garantías— que el modelo base no tiene.

Conceptos clave

El vocabulario del término.

Token: Unidad mínima sobre la que opera el modelo: palabra, subpalabra o carácter. El texto se tokeniza en índices numéricos; el modelo predice el token siguiente, no la palabra.
Transformer: Arquitectura de red neuronal presentada por Google en 2017 que sustenta casi todos los LLM. Su mecanismo de atención pondera las relaciones entre todos los tokens de la secuencia a la vez.
Ventana de contexto: Cantidad máxima de tokens (entrada más salida) que el modelo procesa de una vez. Determina cuánta información mantiene presente; sus límites crecen rápido y conviene verificarlos por modelo.
Alucinación: Texto fluido y plausible pero factualmente incorrecto o no sustentado. Es una consecuencia estructural de predecir tokens, no un fallo accidental.
Embedding: Representación del texto como vector numérico que captura relaciones semánticas (género, capital-país). Es la forma en que el modelo codifica el significado.
Modelo de razonamiento: LLM que genera tokens internos de 'pensamiento' no visibles y puede invocar herramientas (búsqueda, código) antes de responder, frente al LLM clásico que solo predice el siguiente token.
Mixture of Experts (MoE): Diseño en el que el modelo tiene muchos parámetros totales pero solo activa una fracción por token, buscando eficiencia sin renunciar a tamaño.

Dónde lo aplicamos

Capa de conocimiento→

Casos de uso · LLM (modelo de lenguaje grande)[PENDIENTE]

Aún no mostramos casos.

No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.

Conceptos relacionados

GEORAG (Retrieval-Augmented Generation)→IAEmbeddings→IAAgente de IA y mesh de agentes→IAChatbot / asistente conversacional→IABúsqueda semántica→AnalíticaMedición de la visibilidad en IA→GEOGEO · Generative Engine Optimization→GEOCitabilidad en respuestas de IA→

Fuentes

Una pieza del glosario.

Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.

Explora el glosario → Agenda una llamada