Inicio/Glosario/LLM (modelo de lenguaje grande)
IALLM (modelo de lenguaje grande)
Un LLM (modelo de lenguaje grande) es una red neuronal entrenada sobre enormes volúmenes de texto cuya tarea es predecir el siguiente token a partir del contexto previo. No piensa ni busca: autocompleta de forma estadística.
Qué es
Un LLM (Large Language Model) es una red neuronal entrenada con grandes cantidades de texto para una tarea concreta: predecir el siguiente token —la unidad mínima de texto, sea palabra, subpalabra o carácter— dado lo que viene antes. Es la tecnología detrás de los chatbots (ChatGPT, Claude, Gemini, Perplexity) y de los agentes de IA. Casi todos se apoyan en la arquitectura transformer, presentada por Google en 2017 ('Attention Is All You Need'), cuyo mecanismo de atención pondera de golpe qué tokens de la secuencia son relevantes entre sí, en lugar de procesarlos uno a uno como las redes anteriores.
Conviene desmitificarlo. Un LLM no 'razona' como una persona ni consulta una base de datos: es un motor estadístico de autocompletar que asigna probabilidades a los posibles tokens siguientes a partir de patrones aprendidos. Representa el significado mediante embeddings (vectores) que capturan relaciones —género, capital-país— y opera sobre tokens, no sobre palabras exactas; por eso no cuenta palabras como un humano. De ese funcionamiento emergen tres conceptos que conviene distinguir: el token (cómo trocea el texto), la ventana de contexto (cuántos tokens tiene 'a la vista' a la vez) y la alucinación (texto fluido pero factualmente incorrecto).
Un matiz importante: el LLM clásico solo predice el siguiente token. El modelo de razonamiento genera además tokens internos de 'pensamiento' no visibles y puede invocar herramientas —búsqueda web, ejecución de código— antes de responder. En ambos casos, salvo que se acople recuperación (RAG) o herramientas, el modelo no consulta fuentes en vivo.
Por qué importa
La distinción entre un LLM y un buscador es práctica, no académica. Un buscador recupera y ordena documentos que ya existen; un LLM genera texto nuevo de forma probabilística y, sin recuperación o herramientas acopladas, no comprueba fuentes ni garantiza veracidad. Por eso la alucinación no es un fallo accidental que se 'arregle': es una consecuencia estructural de predecir tokens. Quien trabaja GEO · Generative Engine Optimization —optimizar para que estos modelos y los AI Overviews y AI Mode que los incorporan recuperen y citen tu contenido— necesita asumirlo. Si el modelo autocompleta y puede alucinar, su salida se verifica antes de publicarse. El valor no está en pedirle una lista, sino en contrastar, criticar y validar lo que produce: criterio humano al mando. Nadie puede garantizar posiciones ni citas de un modelo; lo que sí puede instrumentarse es el juicio sobre lo que genera, y la Medición de la visibilidad en IA, que rastrea cuándo y cómo te citan estos sistemas, para tener señal en lugar de intuición.
En profundidad
Arquitectura transformer y el mecanismo de atención
La práctica totalidad de los LLM actuales se basa en el transformer, presentado por Google en 2017 ('Attention Is All You Need'). Su mecanismo de atención (self-attention) evalúa de golpe qué tokens de la secuencia son relevantes entre sí, en lugar de recorrerlos uno a uno como las redes recurrentes previas. Curiosidad: BERT, que forma parte del algoritmo de Google desde hace años, ya era un transformer (la 'T' de su nombre) antes de la popularización de ChatGPT. El mismo mecanismo que pondera la relevancia entre tokens es el que produce los Embeddings —vectores que sitúan textos por su significado— sobre los que se apoya luego la Búsqueda semántica.
Tokens, ventana de contexto y parámetros
El token es la unidad mínima del modelado: el texto se convierte en índices numéricos (por ejemplo mediante byte-pair encoding). La ventana de contexto es cuántos tokens puede manejar el modelo a la vez; los rangos han crecido deprisa —del orden de 1k en GPT-2 a 128k, 200k o cifras que se afirman cercanas o superiores a 1 millón en modelos recientes— y conviene tratarlos como datos cambiantes que se verifican por modelo antes de citarlos. Una ventana mayor no implica de por sí mejor resultado: los modelos suelen degradarse antes de su límite teórico. Los parámetros son los pesos del modelo; cuando se cuentan en cientos de miles de millones, superan el hardware de consumo. Una tendencia reciente es Mixture of Experts (MoE): muchos parámetros totales pero solo una fracción activa por token.
| Concepto | Qué es | Matiz a verificar |
|---|---|---|
| Token | Unidad mínima del texto modelado (p. ej. via byte-pair encoding) | No equivale a 'palabra'; un término puede ser varios tokens |
| Ventana de contexto | Cuántos tokens maneja a la vez | Cifras cambian por modelo; suele degradarse antes del límite teórico |
| Parámetros | Los pesos aprendidos del modelo | En cientos de miles de millones superan el hardware de consumo |
| MoE | Mixture of Experts: muchos pesos totales | Solo una fracción se activa por token |
Por qué un LLM alucina (y no 'piensa' ni 'busca')
El LLM emula combinaciones de palabras vistas en el entrenamiento; cuando extrapola más allá de lo que 'sabe', produce texto fluido y plausible aunque sea falso. No calcula ni verifica como una persona. De ahí la idea que recogen varias fuentes: un LLM siempre puede alucinar. La consecuencia operativa es directa: la salida se usa como borrador a verificar, no como verdad establecida. Para acotarlo se acopla RAG (Retrieval-Augmented Generation), que recupera fragmentos reales y se los da al modelo como contexto antes de responder, de modo que la generación se ancle en fuentes y no en su pura memoria estadística.
LLM clásico vs. modelo de razonamiento con herramientas
El LLM 'de estilo antiguo' se limita a predecir el siguiente token. El modelo de razonamiento genera primero tokens internos de 'pensamiento' (no mostrados, en número variable) y puede orquestar herramientas —búsqueda web, ejecución de código— antes de emitir la respuesta. En las búsquedas con IA actuales, una consulta puede disparar varias sub-recuperaciones que el modelo coordina: pipelines agénticos sobre la misma base predictiva. Cuando ese encadenamiento de herramientas se formaliza, el LLM pasa a ser el cerebro de un Agente de IA y mesh de agentes, y a menudo accede a esas herramientas mediante MCP · Model Context Protocol, el estándar que expone capacidades externas al modelo de forma uniforme.
| Rasgo | LLM clásico | Modelo de razonamiento |
|---|---|---|
| Qué hace | Predice el siguiente token | Genera tokens internos de 'pensamiento' antes de responder |
| Herramientas | No las usa | Orquesta búsqueda web, ejecución de código y más |
| Recuperación | Una sola pasada | Una consulta puede disparar varias sub-recuperaciones coordinadas |
| Base | Predictiva | La misma base predictiva, ahora en pipeline agéntico |
Qué observar
Las señales que importan.
Genera texto, no recupera documentos
Un LLM produce tokens probables; no consulta un índice de fuentes en vivo salvo que se le acople recuperación (RAG) o herramientas. Confundirlo con un buscador lleva a confiar en datos que el modelo no ha verificado.
La alucinación es estructural, no anecdótica
Generar texto plausible pero incorrecto es consecuencia de cómo se entrena el modelo —predecir el siguiente token y extrapolar—, no un bug puntual. Asumirlo cambia el flujo de trabajo: toda salida factual se contrasta.
Opera sobre tokens, no sobre palabras
El texto se trocea en tokens (palabra, subpalabra o carácter). Por eso un LLM no cuenta palabras como una persona y la longitud útil se mide en tokens, no en caracteres.
La ventana de contexto acota qué 'recuerda'
El modelo solo procesa un número limitado de tokens a la vez (entrada más salida). Esa ventana determina cuánta información mantiene presente en una conversación o un documento largo, y una ventana mayor no garantiza mejor resultado.
Razonar y usar herramientas no es lo mismo que predecir
Un modelo de razonamiento añade tokens internos de 'pensamiento' y puede llamar a búsqueda o código antes de responder. Distinguirlo del LLM clásico evita atribuir capacidades —o garantías— que el modelo base no tiene.
Conceptos clave
El vocabulario del término.
- Token
- Unidad mínima sobre la que opera el modelo: palabra, subpalabra o carácter. El texto se tokeniza en índices numéricos; el modelo predice el token siguiente, no la palabra.
- Transformer
- Arquitectura de red neuronal presentada por Google en 2017 que sustenta casi todos los LLM. Su mecanismo de atención pondera las relaciones entre todos los tokens de la secuencia a la vez.
- Ventana de contexto
- Cantidad máxima de tokens (entrada más salida) que el modelo procesa de una vez. Determina cuánta información mantiene presente; sus límites crecen rápido y conviene verificarlos por modelo.
- Alucinación
- Texto fluido y plausible pero factualmente incorrecto o no sustentado. Es una consecuencia estructural de predecir tokens, no un fallo accidental.
- Embedding
- Representación del texto como vector numérico que captura relaciones semánticas (género, capital-país). Es la forma en que el modelo codifica el significado.
- Modelo de razonamiento
- LLM que genera tokens internos de 'pensamiento' no visibles y puede invocar herramientas (búsqueda, código) antes de responder, frente al LLM clásico que solo predice el siguiente token.
- Mixture of Experts (MoE)
- Diseño en el que el modelo tiene muchos parámetros totales pero solo activa una fracción por token, buscando eficiencia sin renunciar a tamaño.
Dónde lo aplicamos
Aún no mostramos casos.
No inventamos resultados. Cuando tengamos casos reales —anonimizados y medibles— donde este concepto marcó la diferencia, vivirán aquí.
Fuentes
- Large language model — Wikipedia · 2026
- Introduction to Large Language Models — Google for Developers · 2026
- Attention Is All You Need — Wikipedia · 2017
- Context windows — Claude API Docs · 2026
- Más allá de RAG: por qué cada plataforma de búsqueda con IA es ahora agéntica — Search Engine Land · 2026-05-29
- You're Using AI at the Execution Layer; the Value Is in the Judgment Layer — Search Engine Journal · 2026-05-28
Una pieza del glosario.
Forma parte del glosario de SEO, analítica e IA de InnovaOrigen Tech: un mapa de conceptos definidos con criterio y fuentes. Si quieres llevarlo a tu caso, lo vemos sin compromiso.