Recientemente, un entusiasta del hardware ha logrado adaptar una Nvidia Tesla V100, originalmente diseñada para servidores y centros de datos, a una conexión PCIe estándar para ordenadores personales. Esta modificación, que utiliza un adaptador específico y refrigeración personalizada con impresión 3D, permite ejecutar modelos de lenguaje localmente con una eficiencia destacable, incluso frente a tarjetas más modernas.
La Nvidia Tesla V100 emplea un conector SMX2, parecido a un socket, pensado para sistemas en rack donde la GPU se monta directamente sobre placas base especializadas. La clave del proyecto fue convertir ese formato a PCIe x16, facilitando su inserción en placas base convencionales, lo que permite aprovechar su potencia sin los costes habituales asociados al último hardware para IA.
Detalles técnicos y rendimiento de la Nvidia Tesla V100 adaptada
El usuario adquirió esta GPU por un precio cercano a 100 euros y el adaptador SMX a PCIe también rondó los 100 euros, situando el conjunto en torno a 200 euros. Esta versión cuenta con 16GB de memoria HBM2 y un ancho de banda de 900 GB/s, basada en arquitectura Turing.
Para disipar el calor, dado que la tarjeta adaptadora no incluye ventilación propia, se diseñó y fabricó un conducto de aire con impresora 3D, acoplado a un ventilador Noctua de 80 mm, que dirige aire fresco hacia el disipador situado sobre la GPU.
En pruebas con el modelo de lenguaje GPT-OSS-20B usando Ollama, la V100 alcanzó aproximadamente 130 tokens por segundo, mientras que una Radeon RX 7800 XT, con 16GB VRAM también, llegó a unos 90 tokens por segundo. Cuando se comparó con una Nvidia RTX 3060 de 12GB, la V100 logró 108 tokens por segundo frente a los 76 tokens de esta última, aunque con un consumo energético superior.
Eficiencia energética y comparativa de consumo
Analizando el rendimiento en relación con la energía consumida, la Tesla V100 mostró una eficiencia algo mejor que la RTX 3060: 0,37 tokens por vatio frente a 0,33 tokens por vatio. Limitando el consumo a 100W, la V100 mantuvo un rendimiento notable de 95 tokens por segundo mientras que la 3060 se quedó en 68 tokens.
La diferencia principal se observa en el consumo en reposo, donde la V100 demanda 45W frente a los 35W de la 3060, una cifra relevante si se tienen en cuenta escenarios de uso prolongado o sistemas con limitaciones de energía.
Aplicación en reconocimiento y potencial para IA local
El rendimiento probado con Frigate NVR, una solución para reconocimiento de imágenes en vídeo, fue también destacable. La Tesla V100 superó a la 3060 en detección rápida, identificando objetos con más fiabilidad, aunque con un mayor consumo de energía. Esta capacidad resulta relevante para usuarios que exploran soluciones locales de IA para tareas específicas, evitando la dependencia de la nube.
El éxito de esta adaptación demuestra que hardware algo antiguo y menospreciado en el mercado puede ofrecer una alternativa viable para la inferencia de modelos de IA, especialmente cuando el coste de las nuevas GPUs es elevado o la disponibilidad limitada.
Sin embargo, hay que considerar su falta de salidas de vídeo, por lo que es necesario contar con gráficos integrados en el procesador para operar el sistema completo. Tampoco permite conexiones NVLink adicionales, limitando la escalabilidad en sistemas multi-GPU.
Esta experiencia puede influir en la búsqueda de equilibrio entre precio, rendimiento y eficiencia para proyectos de inteligencia artificial realizados en ordenadores personales, donde la inversión en hardware especializado puede no estar justificada.
