La inteligencia artificial no piensa: cómo funciona ChatGPT

La frase correcta no es que ChatGPT "piensa mal". La frase más precisa es otra: ChatGPT no piensa como un humano. No tiene experiencia del mundo, no siente, no percibe, no desea y no entiende en el sentido cotidiano en que entendemos una conversación entre personas. Lo que hace es algo más extraño y, a su manera, más potente: calcula qué fragmento de texto debería venir después de otro fragmento de texto.

Eso puede sonar trivial. No lo es. Cuando ese cálculo se entrena sobre cantidades gigantescas de lenguaje humano y se afina para seguir instrucciones, el resultado puede parecer explicación, razonamiento, humor o consejo. Pero debajo de esa superficie hay un mecanismo muy distinto del cerebro humano. Entender esa diferencia importa porque evita dos errores simétricos: creer que la IA es sólo un loro estadístico inútil, o creer que ya apareció una mente artificial comparable a una persona.

La idea central: predecir el siguiente token

Los modelos de lenguaje grandes, como GPT, fueron entrenados para una tarea básica: predecir el siguiente token.

Un token no es necesariamente una palabra completa. Puede ser una palabra, una sílaba, una parte de una palabra o un signo de puntuación. El modelo recibe una secuencia de tokens y estima cuál tiene más probabilidad de venir después. Luego agrega ese token a la secuencia y repite el proceso una y otra vez.

Visto desde afuera, parece que responde. Visto desde adentro, lo que hace es esto:

convierte el texto de entrada en tokens;
transforma esos tokens en vectores numéricos;
calcula relaciones entre ellos;
produce una distribución de probabilidad sobre los posibles tokens siguientes;
elige uno según esa distribución;
repite.

Toda la "inteligencia" visible aparece ahí: en una cadena de predicciones sucesivas extremadamente sofisticada.

ChatGPT no busca respuestas en una base de datos

Este punto es importante porque mucha gente todavía imagina que ChatGPT funciona como un buscador con frases guardadas. No es así.

No consulta una tabla donde ya estén escritas todas las respuestas posibles. Tampoco recupera un párrafo exacto y lo pega. Lo que hace es usar patrones aprendidos durante el entrenamiento para generar una respuesta nueva, token por token, en el momento.

Por eso puede reformular una idea de mil maneras, resumir un texto que nunca vio literalmente en esa forma o equivocarse con total fluidez. No recupera verdad: genera continuidad lingüística plausible.

Qué aprende realmente durante el entrenamiento

GPT significa Generative Pre-trained Transformer. La palabra clave acá es pre-trained.

Antes de convertirse en asistente conversacional, el modelo pasa por una etapa de preentrenamiento sobre grandes volúmenes de texto. OpenAI no publicó en detalle el tamaño exacto del dataset ni el número de parámetros de GPT-4, así que conviene no repetir estimaciones externas como si fueran hechos confirmados. Lo que sí está documentado es el principio: durante el entrenamiento, el sistema ajusta una enorme cantidad de pesos numéricos para reducir el error al predecir el siguiente token.

Esos pesos son los llamados parámetros. No son reglas escritas a mano. Son valores aprendidos durante la optimización.

En otras palabras: el modelo no "aprende ideas" como las aprende una persona. Aprende una estructura matemática que le permite capturar regularidades del lenguaje, del conocimiento expresado en lenguaje y de las formas humanas de razonar cuando están escritas.

El salto técnico que cambió todo: el Transformer

La arquitectura que hizo posible esta explosión fue presentada por investigadores de Google en 2017 en el paper Attention Is All You Need. Su aporte central fue el mecanismo de self-attention.

Antes de los transformers, muchos sistemas procesaban el texto de manera más secuencial. El transformer hace otra cosa: deja que cada token "mire" a los demás tokens de la secuencia y calcule cuáles son más relevantes para interpretarse a sí mismo.

Eso permite resolver problemas de contexto que antes eran mucho más difíciles. Por ejemplo:

que la palabra "banco" no signifique lo mismo si más adelante aparece "río" o "préstamo";
que una negación al comienzo de una frase siga afectando su sentido varias palabras después;
que una conversación larga mantenga cierto hilo lógico.

No porque el modelo "comprenda" como una persona, sino porque la arquitectura le permite modelar dependencias complejas entre partes distantes del texto.

Embeddings: cómo el texto se vuelve geometría

Antes de usar atención, el modelo convierte los tokens en vectores. A eso se lo suele llamar embedding.

Un embedding es una representación numérica en un espacio de muchas dimensiones. La gracia es que tokens o conceptos relacionados tienden a quedar ubicados de manera que sus distancias y direcciones conserven algo de su parentesco semántico o funcional.

Ese paso es clave. Para la máquina, el lenguaje no entra como significado consciente. Entra como geometría de alta dimensión sobre la cual se pueden hacer operaciones algebraicas.

Cuando ChatGPT parece "ver" que una palabra está relacionada con otra, lo que en realidad ocurre es que su representación vectorial y el contexto hacen que ciertas continuidades resulten más probables que otras.

De GPT a ChatGPT: el ajuste con feedback humano

Un predictor puro de tokens no necesariamente contesta bien preguntas. Puede ser brillante para continuar texto y al mismo tiempo bastante malo para obedecer instrucciones o mantenerse útil.

Ahí entra el paso que convirtió a GPT en ChatGPT: el ajuste con human feedback. OpenAI explicó este proceso con bastante claridad en el trabajo Training language models to follow instructions with human feedback, más conocido como el paper de InstructGPT.

La lógica es esta:

primero, personas humanas escriben ejemplos de buenas respuestas;
después, comparan varias salidas del modelo y ordenan cuál es mejor;
con eso se entrena un reward model;
finalmente, el modelo principal se ajusta para producir respuestas que maximicen ese criterio aprendido.

Esto no le da conciencia. Le da comportamiento conversacional alineado: más capacidad para seguir pedidos, responder con cierto tono, negarse en ciertos casos y ser evaluado como útil por humanos.

Por qué a veces parece razonar

Acá está el punto que más confunde.

Cuando ChatGPT resuelve un problema, resume un libro o compara dos ideas, muchas veces parece estar razonando paso a paso. En cierto sentido funcional, lo hace. Pero no necesariamente del modo en que razona una persona.

Lo que vemos puede surgir de una combinación de cosas:

patrones de razonamiento que el modelo absorbió de millones de textos humanos;
capacidad del transformer para mantener relaciones entre partes del problema;
ajuste fino para producir respuestas más ordenadas y explicativas;
técnicas de inferencia que premian cadenas intermedias más útiles.

La apariencia de razonamiento no prueba experiencia consciente. Prueba que el sistema aprendió muy bien formas lingüísticas del razonamiento y que puede desplegarlas con alta eficacia.

Cómo piensa un humano y cómo "piensa" una máquina

La analogía entre redes neuronales artificiales y cerebro humano sirve hasta cierto punto. Después empieza a engañar.

Una neurona biológica es una célula viva que recibe señales electroquímicas, se conecta mediante sinapsis, cambia con la experiencia, opera en un cuerpo, consume poquísima energía comparada con una granja de GPUs y está integrada con visión, oído, tacto, memoria autobiográfica, hormonas, dolor, recompensa, movimiento y objetivos.

Una neurona artificial, en cambio, es una operación matemática: recibe números, los pondera, suma, aplica una no linealidad y pasa el resultado a la siguiente capa.

Las dos cosas comparten una inspiración lejana. No comparten mecanismo real.

Visualización editorial del pensamiento humano como red biológica de neuronas, sentidos y cerebro — El pensamiento humano no es sólo lenguaje: integra percepción, memoria, cuerpo, emoción y aprendizaje biológico. Crédito: OpenAI / Un Mundo Loco

En un humano, pensar incluye por lo menos estas capas:

percepción del entorno;
memoria de largo plazo;
experiencia corporal;
motivaciones;
control de la atención;
aprendizaje situado;
capacidad de actuar y comprobar si una hipótesis funcionó en el mundo.

En un modelo de lenguaje, el proceso es mucho más acotado:

recibe tokens;
calcula relaciones entre tokens;
actualiza estados internos temporales;
produce probabilidades sobre el siguiente token.

No hay hambre, miedo, tacto, respiración, equilibrio, infancia, deseos ni contacto directo con el mundo físico salvo el que le llegue mediado por texto, imágenes u otras interfaces.

Cómo "piensa" la máquina en la práctica

Decir que la máquina "piensa" es una metáfora útil, pero sigue siendo metáfora.

Lo que hace un modelo como ChatGPT durante la inferencia es ejecutar una secuencia de multiplicaciones de matrices, sumas, normalizaciones, pasos de atención y proyecciones vectoriales sobre hardware especializado. En un sentido duro, el pensamiento de la máquina es cómputo estadístico sobre representaciones numéricas.

Ingeniero frente a servidores y monitor con un flujo de red neuronal artificial y predicción de tokens — Un modelo de lenguaje no consulta intuiciones: transforma texto en vectores, calcula atención y emite probabilidades sobre el siguiente token. Crédito: OpenAI / Un Mundo Loco

Eso no significa que sea simple. Significa que su base es distinta.

La máquina no tiene una escena mental interior a la que después le pone palabras. Produce palabras como salida de un proceso numérico que logró comprimir muchísima estructura del lenguaje y del conocimiento expresado en lenguaje.

Entonces, ¿por qué puede equivocarse con tanta seguridad?

Porque el objetivo del modelo no es decir la verdad metafísica. El objetivo es producir la continuación más adecuada según lo que aprendió y según cómo fue afinado.

Eso explica las llamadas alucinaciones. Si el contexto empuja al modelo a una respuesta falsa pero altamente plausible, puede fabricarla con tono totalmente convincente.

No está mintiendo en el sentido humano. Tampoco "sabe que no sabe" por defecto. Lo que pasa es que la función objetivo no equivale a un detector perfecto de verdad.

Por eso un modelo puede:

explicar muy bien un concepto real;
inventar una cita inexistente;
hacer una cuenta correcta en un caso y fallar en otro;
sonar experto donde en realidad está extrapolando mal.

Lo que sí puede hacer muy bien

Ser rigurosos también implica no subestimarlo.

Que ChatGPT no piense como un humano no significa que sea una herramienta menor. Puede ser extremadamente bueno en tareas donde el lenguaje concentra gran parte del trabajo cognitivo:

resumir;
comparar argumentos;
reescribir;
clasificar;
extraer patrones de documentos;
programar;
traducir;
explicar conceptos con distintos niveles de complejidad.

En esas tareas, el modelo funciona como una máquina de compresión y reorganización del conocimiento textual a una escala que ningún humano puede igualar en velocidad.

La diferencia que de verdad cambia todo

La frase "ChatGPT no piensa" se vuelve útil sólo si se entiende bien. No quiere decir que sea un juguete estadístico sin valor. Quiere decir que su inteligencia, cuando aparece, no nace del mismo tipo de proceso que la inteligencia humana.

Un cerebro humano piensa desde un cuerpo vivo insertado en el mundo.

Un modelo de lenguaje produce lenguaje desde una estructura matemática entrenada sobre enormes corpus y afinada con feedback humano.

Eso cambia la forma de usarlo, de confiar en él y de criticarlo.

Si lo tratás como un oráculo, te va a engañar.

Si lo tratás como una calculadora lingüística absurdamente potente, capaz de reorganizar patrones del lenguaje y del conocimiento con gran eficacia pero sin comprensión humana garantizada, empezás a verlo con más precisión.

Y esa precisión importa mucho más que la discusión vacía entre "piensa" o "no piensa".

Importa porque hoy millones de personas ya estudian, escriben, programan y deciden con sistemas así.

La regla práctica

La mejor regla para usar ChatGPT no es ni adorarlo ni burlarse de él.

Es esta:

pedile estructura, velocidad, comparación y primeras versiones; no le delegues sin control la verdad, el juicio ni la comprensión del mundo.

Para quienes quieren usar estas herramientas con más criterio, una [guía sobre cómo hacer buenos prompts para ChatGPT](/noticias/como-hacer-un-buen-prompt-chatgpt/) ayuda a entender cómo darle instrucciones que el modelo pueda seguir mejor. Y para comparar con DeepSeek, otra opción que usa una arquitectura diferente, hay una [explicación de qué es DeepSeek y cómo usarlo](/noticias/deepseek-que-es-como-usar/).

Fuentes consultadas: OpenAI — GPT-4 · Vaswani et al. — Attention Is All You Need · Ouyang et al. — Training language models to follow instructions with human feedback · NINDS — Brain Basics

Fuente original: OpenAI / Google Research / NINDS