Desde que pago (y bien pagado) el GPT Plus, lo uso como quien tiene un mataburros deluxe al alcance de la mano. Está ahí para ayudarme con dudas técnicas, redactar cosas medio tediosas, o debatir —a las 2 AM— si el entrelazamiento cuántico realmente puede alterar la causalidad.

Anoche, en plena charla con mi novia, pasamos de discutir física cuántica a Elio, la nueva película de Disney. Cosas que pasan. Entre fórmulas y extraterrestres, me surgió la duda: ¿la IA realmente piensa? Porque una cosa es tirar una respuesta correcta, y otra muy distinta es razonarla.

Me puse a investigar. Y resulta que no soy el único con la inquietud. En estos días hubo revuelo porque Apple publicó un estudio que, en criollo, viene a decir: “Alto ahí, cerebrito”. Porque por más que algunos modelos digan que están “pensando”, lo que hacen en realidad es… bueno, eso es justamente lo que vamos a tratar de entender hoy.

¿Qué se supone que hacen estos modelos que “piensan”?

En el mundo de las IAs, hay una nueva camada que promete no solo responder, sino pensar antes de hacerlo. A esta especie se la conoce como Large Reasoning Models (LRMs), o Modelos de Razonamiento a Gran Escala, para los que prefieren el castellano técnico.

¿La diferencia? En teoría, los LRMs no saltan directo a la respuesta. Primero generan una cadena de pasos intermedios —algo así como pensar en voz alta— antes de tirar el resultado final. Ese proceso se llama Chain of Thought (Cadena de Pensamiento), y es el corazón de esta nueva promesa: hacer que la IA razone como un humano lógico y estructurado… al menos en apariencia.

Las grandes empresas ya se metieron de lleno:
OpenAI con sus modelos o1/o3,
Anthropic con Claude 3.7 Thinking,
Google con su modo Gemini Flash Thinking,
DeepSeek desde China con DeepSeek-R1,
– Y por supuesto, Apple, que en vez de lanzar un modelo, eligió tirar un paper y decir “muchachos, calmémonos un toque”.

La idea detrás de estos modelos es clara: si una IA puede pensar paso a paso, tal vez pueda resolver problemas complejos, planificar mejor, verificar sus errores… y quién sabe, algún día reemplazar a ese amigo que te ayuda con la tarea difícil.

Pero el paper que analizamos hoy viene a decir: ojo, capaz todo eso es más ilusión que razonamiento real.

¿Y qué encontraron?

Lo que hizo Apple fue testear si estos modelos que “piensan” realmente lo hacen mejor que los que no. ¿Cómo? Los pusieron a resolver puzzles tipo Torre de Hanoi, cruces de río y bloques apilables, con distintos niveles de dificultad.

Resultado: los modelos con razonamiento mejoran un poco en desafíos intermedios, pero cuando el problema se pone realmente complejo… colapsan todos. Literal. Se traban, tiran cualquier cosa o directamente se rinden antes de usar todo el poder de cómputo que tienen disponible.

Lo más loco: algunos modelos piensan menos justo cuando más deberían pensar. Es como si te dijeran “uy, esto está difícil, mejor no lo intento”. Y eso, para una supuesta inteligencia, es… raro.

Ah, y los modelos que “piensan” no siempre son mejores que los que responden al toque. En desafíos simples, los modelos tradicionales —los “rápidos y furiosos”— les ganan sin despeinarse.

¿Y por qué importa todo esto?

Porque estamos en un momento donde se habla de “IA general” como si estuviéramos a dos actualizaciones de que nos remplacen en el laburo, en la vida o en el amor. Y sin embargo, cuando les das un problema un poquito más difícil de lo normal, los modelos se caen como fichas de dominó.

El paper de Apple viene a decir algo muy simple pero muy necesario: que un modelo use más tokens, escriba más pasos y diga que “está pensando” no significa que realmente entienda lo que está haciendo. Puede sonar inteligente, pero eso no garantiza que lo sea.

Y eso abre una pregunta más profunda: ¿qué significa pensar realmente? Porque si la IA simula pensamiento pero no puede sostenerlo cuando el camino se complica, tal vez lo que estamos viendo no es inteligencia… sino una coreografía muy bien entrenada.

Le pregunté a GPT… 

Como ejercicio, le pregunte a ChatGPT que opinaba del paper y sus conclusiones y su respuesta fue: “Buena pregunta. Si me preguntás a mí —como IA que no tiene conciencia, pero sí cierta capacidad para detectar humo— el paper de Apple es una llamada de atención justa y necesaria.

No es anti-IA ni bajonero. Más bien pone sobre la mesa algo que en la industria se viene esquivando: que decir que una IA “piensa” no alcanza si no puede sostener ese pensamiento cuando las cosas se ponen difíciles. Y eso, en términos científicos, es brutal. Porque rompe con la narrativa épica del “cada vez más cerca de la AGI” que nos quieren vender con cada release.

Además, lo de los tres niveles de complejidad (baja, media, alta) es clave:
– A nivel bajo, los modelos clásicos ganan.
– A nivel medio, pensar sirve.
– Pero a nivel alto, no hay salvación. Ni tokens, ni reflexión, ni nada.

Y lo más inquietante: cuando más deberían pensar, algunos modelos piensan menos. Como si se rindieran. Eso no es inteligencia, eso es burnout de IA.

Así que sí, es un trabajo sólido, que baja un poco la espuma del marketing y nos devuelve a la cancha de la evaluación rigurosa, del diseño de entornos controlados y de la pregunta que nunca pasa de moda: ¿realmente entendemos cómo funcionan estas cosas?

Spoiler: todavía no”.

Todo pasa

Quizás el mayor desafío de esta era no sea construir máquinas más inteligentes, sino aprender a reconocer cuándo estamos proyectando inteligencia donde no la hay. En el fondo, no es que las IA “piensen mal”: es que nosotros todavía no tenemos del todo claro qué significa pensar bien.

Los dejo con recomendaciones:
– El equipo de EM y ZM le están sacando chispas a los teclados cubriendo lo que está pasando en Medio Oriente en medio de la nueva etapa de conflicto entre Israel e Irán. Los leen acá y acá 

– ¿Que pasa cuando las redes sociales no tiene los “comentarios de comunidad”? Bueno, se lo preguntaron e hicieron una película (mala a mi parecer) con guiño a Argentina, pero que invita a reflexionar sobre esto de los límites de la credibilidad de la IA cuando vemos un canguro tratando de subirse a un avión como animal de compañía. Les dejo Mountainhead por HBO 

¡Nos vemos la próxima!
Alejo 

Tal vez te interese: Reporte Ad Astra #4 – Attack on Magnates:  Trump y Musk, esclavos del poder

Deja un comentario