TPU de Google estrena una estrategia distinta con su octava generación: dos chips separados para entrenamiento e inferencia. La decisión es relevante porque marca un cambio de enfoque en la forma en que la compañía quiere competir en infraestructura de inteligencia artificial, priorizando la escala y la especialización frente al rendimiento bruto por chip.
Google anunció estos procesadores en Cloud Next, celebrado el 22 de abril, y su lanzamiento a clientes de Google Cloud está previsto para más adelante este año. La compañía divide así su oferta entre TPU 8t, orientado a entrenar modelos a gran escala, y TPU 8i, pensado para inferencia, razonamiento y respuestas de baja latencia.
TPU de Google: dos chips para dos cargas de trabajo
La separación no es menor. Hasta ahora, el programa TPU había tendido a avanzar con un diseño más homogéneo, pero Google ha optado por distinguir mejor entre dos necesidades que en IA suelen exigir prioridades muy distintas. Entrenar modelos grandes requiere ancho de banda, capacidad de interconexión y eficiencia a gran escala. Servir esos modelos, en cambio, exige respuesta rápida, menor latencia y mejor uso de memoria en tiempo real.
En ese reparto, TPU 8t mantiene la red 3D Torus y conserva SparseCore, componentes útiles para patrones de acceso irregulares durante el entrenamiento. También introduce cómputo nativo en FP4 y una vía TPUDirect RDMA que evita pasar por la CPU del host para acceder a almacenamiento gestionado. Google sostiene que ese acceso es hasta diez veces más rápido que en la generación anterior.
TPU 8i, por su parte, cambia más de fondo. Abandona la 3D Torus y adopta una nueva topología llamada Boardfly, con una jerarquía de tres niveles que reduce la distancia de red y mejora la comunicación entre chips. Esto importa especialmente en modelos de mezcla de expertos, donde las solicitudes se reparten entre distintos aceleradores y el tráfico interno puede convertirse en un cuello de botella.
La apuesta por la escala en TPU de Google
Más allá de las cifras de cada chip, el mensaje de Google está en la escala. Un superpod con TPU 8t puede agrupar 9.600 chips en un solo clúster, con dos petabytes de HBM compartida. La compañía asegura que ese conjunto alcanza 121 exaflops en FP4, una cifra pensada para remarcar la capacidad agregada del sistema, no solo la de una pieza aislada de silicio.
Ese matiz es importante porque Google no está intentando presentar la TPU de Google como una sustitución directa de Nvidia o AMD en rendimiento por chip. En potencia bruta individual, las referencias de Nvidia y AMD siguen por encima en varios parámetros. La jugada de Google es otra: ofrecer un sistema que, a gran escala, combine más chips, una red propia y una integración estrecha con su nube.
La compañía también habla de Virgo Network, una nueva estructura de tejido de red que podría conectar hasta 134.000 TPU 8t en una única red de centro de datos sin bloqueo, con 47 PB/s de ancho de banda de bisección. En la práctica, eso sugiere una arquitectura pensada para cargas masivas, donde el factor decisivo no es una GPU aislada, sino el rendimiento conjunto de miles de aceleradores coordinados.
Qué cambia en TPU 8i y por qué importa
La parte más singular de la nueva generación es probablemente TPU 8i. Además del nuevo entramado de red, incorpora un bloque fijo llamado Collectives Acceleration Engine, diseñado para acelerar operaciones de reducción y sincronización durante la inferencia autoregresiva. Google afirma que eso puede reducir la latencia colectiva hasta cinco veces.
A eso se suma una cantidad mayor de SRAM integrada, hasta 384 MB, pensada para alojar más memoria caché KV en el propio chip durante la inferencia de contextos largos. El resultado buscado es claro: menos dependencias de memoria externa y más rapidez al servir respuestas complejas.
Según Google, la combinación de estos cambios mejora hasta un 80% el rendimiento por dólar frente a Ironwood en modelos grandes de mezcla de expertos con objetivos de baja latencia. Conviene leer esa cifra con cautela: es una comparación muy concreta, bajo condiciones muy específicas, pero sí da pistas de hacia dónde se mueve la estrategia de la empresa.
Dos socios de diseño y una cadena de suministro más flexible
Otro cambio relevante está fuera del chip en sí. MediaTek se suma a Broadcom como socio de diseño de silicio en el programa TPU, rompiendo la exclusividad que Broadcom mantuvo desde 2015. Según distintas estimaciones del sector, MediaTek podría asumir parte del diseño de TPU 8i, mientras Broadcom se encargaría de TPU 8t.
Ese reparto no solo diversifica proveedores. También puede ayudar a Google a contener costes y a repartir riesgos en un mercado donde la capacidad de fabricación avanzada sigue siendo limitada. Ambas piezas se producen en el proceso N3 de TSMC y utilizan memoria HBM3E, una elección que apunta a un equilibrio entre coste, rendimiento y disponibilidad.
La decisión de no dar el salto a HBM4 en esta generación también parece deliberada. El uso de HBM3E sugiere una apuesta por mejorar el rendimiento sin encarecer demasiado la plataforma, algo que encaja con una estrategia orientada a grandes clientes de nube y contratos de volumen, más que a vender el chip como producto premium aislado.
TPU de Google frente a Nvidia: una competencia distinta
Comparar la TPU de Google con Nvidia o AMD solo por cifras de FP4 sería quedarse corto. En computación por socket, los chips de Nvidia y AMD siguen por delante en potencia de cálculo y ancho de banda de memoria. Pero la comparación cambia cuando se mira el sistema completo: número de chips por pod, red interna, latencia de comunicación y capacidad para escalar a decenas de miles de aceleradores.
Ahí Google intenta explotar una ventaja propia. Sus TPU están integradas en Google Cloud y en su infraestructura interna, y esa integración le permite optimizar el conjunto para clientes concretos. De hecho, la empresa ya ha mostrado que no quiere enfrentarse a Nvidia solo con TPU: también anunció instancias Vera Rubin NVL72 funcionando sobre la misma red Virgo, una señal de que su estrategia pasa por convivir con distintos tipos de aceleradores en la nube.
El resultado es una posición menos obvia de lo que podría parecer. Google no presenta las TPU como una sustitución total de las GPU de Nvidia, sino como una alternativa especializada para determinados clientes y cargas de trabajo. Para algunos entornos, la combinación de escala, coste y red propia puede ser más relevante que liderar las tablas de rendimiento en una sola pieza de hardware.
En ese contexto, la TPU de Google no solo habla de hardware. También habla de una pelea más amplia por quién controla la infraestructura que sostiene la IA generativa. Y, al menos por ahora, Google parece más interesada en ofrecer opciones que en vender una única respuesta para todo. Esa es la clave de esta generación: menos una carrera por el chip más rápido y más una arquitectura diseñada para cubrir dos necesidades muy concretas dentro de la nube.
