NVIDIA ha lanzado CUDA 13.3, una nueva versión de su plataforma de computación para GPU que profundiza en una idea cada vez más importante: hacer que programar para tarjetas gráficas sea menos manual, más productivo y más cercano a los lenguajes que ya usan los desarrolladores de IA. La actualización incorpora CUDA Tile en C++, consolida CUDA Python 1.0 y añade mejoras de compilación que pueden elevar el rendimiento hasta un 15% en determinados kernels.
CUDA 13.3 lleva Tile a C++ y amplía su alcance en GPU NVIDIA
La principal novedad de CUDA 13.3 está en la evolución de CUDA Tile, el modelo con el que NVIDIA quiere cambiar la forma tradicional de escribir kernels para GPU. En lugar de obligar al desarrollador a pensar siempre en hilos individuales, sincronización manual y gestión fina de memoria, Tile permite trabajar con bloques de datos y operaciones agrupadas de una forma más natural.
Esto no elimina la complejidad de la programación GPU, pero sí rebaja parte de la fricción. Para perfiles que trabajan en inteligencia artificial, simulación, ciencia de datos o computación de alto rendimiento, la diferencia puede estar en escribir código más legible sin renunciar a una ejecución optimizada.
Con CUDA 13.3, el soporte de Tile llega ahora a C++, después de haber empezado su recorrido con Python. Es un movimiento relevante porque C++ sigue siendo uno de los pilares del desarrollo de alto rendimiento, especialmente cuando se busca exprimir al máximo el hardware.
NVIDIA también amplía la compatibilidad de CUDA Tile a arquitecturas Hopper con Compute Capability 9.0, además del soporte ya existente en generaciones como Ampere, Ada y Blackwell. Esto es importante porque no limita las mejoras únicamente al hardware más reciente, sino que permite que más entornos profesionales puedan empezar a adoptar este modelo.
Python, CompileIQ y Numba refuerzan el papel de CUDA en inteligencia artificial
La otra gran pieza de CUDA 13.3 es CUDA Python 1.0. NVIDIA da así un paso importante para estabilizar su ecosistema en un lenguaje clave para la inteligencia artificial, el aprendizaje automático y el prototipado científico.
Python ya era habitual en frameworks como PyTorch, JAX o CuPy, pero CUDA siempre ha tenido una relación más profunda con C y C++. Con esta versión, NVIDIA busca que el trabajo desde Python sea más predecible, mejor versionado y menos dependiente de soluciones dispersas.
También destaca CompileIQ, un sistema de autoajuste del compilador que utiliza algoritmos evolutivos para encontrar configuraciones más eficientes para cada kernel. Según NVIDIA, puede lograr hasta un 15% más de rendimiento en kernels ya optimizados de Triton attention y CUTLASS GEMM, dos piezas especialmente relevantes en la inferencia de modelos de lenguaje.

CUDA 13.3 añade además mejoras en Numba CUDA MLIR, orientadas a acelerar la compilación JIT desde Python. NVIDIA habla de una compilación hasta 1,4 veces más rápida de media geométrica, con casos que pueden duplicar la velocidad y reducir notablemente la latencia de lanzamiento de determinados kernels.
La actualización se completa con cambios en bibliotecas como cuSPARSE, cuBLAS, cuSOLVER y CCCL, mejoras de integración con DLPack y mdspan, soporte completo para C++23 en nvcc y nvrtc, además de novedades en CUDA Graphs, MPS, NVML y mmap().
CUDA 13.3 no es una actualización pensada para el usuario doméstico, pero sí refuerza una ventaja clave de NVIDIA: su ecosistema de software. En un momento en el que la IA depende tanto de las GPU como de las herramientas para programarlas, la compañía sigue afinando CUDA para que desarrollar sobre su hardware sea más accesible, estable y eficiente.

