La inteligencia artificial ha alcanzado un nuevo hito en sus capacidades de razonamiento estratégico al completar el juego Pokémon Azul mediante el modelo Gemini 2.5 Pro de Google, transmitido en directo por Twitch. Esta sucesión de pruebas públicas, que involucra además a otros desarrollos como Claude de Anthropic o GPT de OpenAI, representa un referente para evaluar la planificación a largo plazo y la adaptabilidad de las IA.
Google Gemini 2.5 Pro llevó a cabo su partida en una retransmisión denominada «Gemini Plays Pokémon», gestionada por Joel Zhang, un ingeniero independiente que intervino mínimamente para facilitar la toma de decisiones del modelo mediante un «arnés de agente». Esta herramienta permite a la inteligencia artificial procesar capturas de pantalla con superposiciones y generar acciones en el juego, simulando sin acceso directo de entrada como un usuario humano. La culminación del clásico Pokémon Azul el 3 de mayo fue destacada incluso por Sundar Pichai, CEO de Google, quien la celebró en su cuenta de X.
Previamente, Anthropic inició en febrero la emisión «Claude Plays Pokémon», utilizando el modelo Claude 3.7 Sonnet para avanzar en Pokémon Rojo. Aunque logró superar etapas difíciles como abandonar la zona inicial y obtener medallas, no ha completado el juego hasta la fecha. Por su parte, OpenAI inició también una serie de pruebas con su modelo o3, ampliando la experiencia con títulos secuela de Pokémon, si bien sin confirmar la finalización de las partidas.
La elección de Pokémon como banco de pruebas no es fortuita. Se trata de un videojuego que exige a una inteligencia artificial integrar múltiples habilidades: planificación estratégica, razonamiento lógico, gestión de riesgos y memoria contextual a lo largo de una narrativa abierta y dinámica. Estas características lo hacen más apropiado para medir el desarrollo hacia una inteligencia artificial general que otros juegos más sencillos, siendo especialmente visible en transmisiones en Twitch que congregan a miles de espectadores.
El formato de emisión en directo ha fomentado una sana competencia y comparativa entre las tecnologías de Google, Anthropic y OpenAI, que coinciden no sólo en la fascinación pública que genera sino también en la comprensión práctica de sus límites y avances. En paralelo, Google ha impulsado iniciativas competitivas con Game Arena, una plataforma que organiza torneos de IA en juegos clásicos, donde OpenAI ha logrado victorias en disciplinas como el ajedrez con su modelo o3.
Estos experimentos reflejan tanto el progreso como las dificultades actuales de las inteligencias artificiales para desenvolverse en entornos complejos y con incertidumbre, un paso clave para aplicaciones futuras más versátiles. La capacidad de Gemini 2.5 Pro para completar Pokémon Azul supone un indicador de su potencial, aunque las distintas aproximaciones y condiciones dificultan establecer un claro dominio entre los modelos.
Más allá del logro puntual, estas pruebas obligan a contemplar con realismo la evolución de la inteligencia artificial, entendiendo sus avances desde una perspectiva crítica y fundamentada en datos, donde la resolución de un juego clásico se convierte en un terreno de ensayo para desafíos mayores.

