Anthropic ha puesto en marcha un experimento que combina inteligencia artificial y videojuegos clásicos a través de Twitch. El pasado martes por la tarde, la empresa lanzó el stream «Claude Plays Pokémon«, en el que su modelo Claude 3.7 Sonnet juega a Pokémon Rojo, una entrega emblemática de 1996 que sigue siendo utilizada como banco de pruebas para evaluar capacidades de razonamiento y toma de decisiones en inteligencia artificial.
A diferencia de otros retos más simples utilizados en el desarrollo de IA, Pokémon Rojo exige un conjunto variado de habilidades, como resolver puzles, evaluar riesgos y planificar movimientos en tiempo real. Claude 3.7 Sonnet ha logrado superar obstáculos que su predecesor Claude 3.5 Sonnet no pudo, como avanzar por Pallet Town al inicio, y ha obtenido tres medallas de líder de gimnasio, evidenciando una mejora en su capacidad de razonamiento paso a paso.
El stream presenta en una pantalla el pensamiento lógico del modelo y, en paralelo, la partida del juego en tiempo real, lo que ha atraído alrededor de mil espectadores activos en el chat de Twitch. Durante la transmisión, se han registrado situaciones en las que la IA se encontró con problemas clásicos del juego, como intentar atravesar una pared rocosa o confundir a personajes no jugables al buscar al Profesor Oak, que solucionó eventualmente con estrategias de rodeo.
Este ejercicio público parte de una tendencia creciente entre empresas tecnológicas, que utilizan títulos antiguos y conocidos como Pokémon para testar avances en inteligencia artificial general en condiciones que van más allá de operaciones simples de cálculo. El formato del stream recuerda al fenómeno social «Twitch Plays Pokémon» de 2014, donde miles de usuarios controlaban de forma colectiva el juego, aunque en este caso el protagonismo recae en una IA individual.
Claude 3.7 Sonnet opera conectado a un emulador que envía comandos básicos de movimiento y acción, habiendo completado hasta 35.000 acciones en rondas de prueba anteriores, con pausas para corregir errores. David Hershey, responsable de IA aplicada en Anthropic y creador del stream, busca mediante este método no solo demostrar avances técnicos, sino generar interacción y transparencia sobre las capacidades y limitaciones actuales de la inteligencia artificial.
Mientras tanto, no existe confirmación de que otras grandes empresas como Google u OpenAI estén desarrollando streams similares con Pokémon en Twitch, aunque sí se realizan comparativas de modelos en otros ámbitos. La experiencia con Claude 3.7 Sonnet evidencia que, aun cuando los sistemas han avanzado, persisten retos en la navegación y velocidad de toma de decisiones que son esenciales para una IA con razonamiento completo.
Queda por ver cómo estos experimentos públicos influirán en la evolución de la inteligencia artificial y en la percepción del público sobre sus potenciales aplicaciones futuras.

