La preservación de internet está en riesgo debido a una crisis poco visible para el gran público: el incremento desbordado en los precios de los discos duros causados por el auge de la inteligencia artificial (IA). Este problema incide directamente en la capacidad de almacenar y conservar la información digital a largo plazo, afectando a proyectos clave como Internet Archive y Wikimedia Foundation.
El almacenamiento de grandes volúmenes de datos es fundamental para archivar eficazmente la información pública y protegerla frente a la obsolescencia tecnológica o la desaparición de webs. Sin embargo, el elevado coste y la escasez de discos duros, tanto mecánicos como de memoria NAND, están ralentizando esta tarea.
La preservación de internet y la crisis del almacenamiento
El aumento en la demanda de hardware para alimentar y entrenar sistemas de inteligencia artificial ha saturado la oferta de discos duros de gran capacidad, especialmente unidades de entre 28 y 30 terabytes, consideradas ideales para archivar datos masivos. Debido a esta situación, el precio de estos dispositivos se ha triplicado, y la producción se ha visto limitada, favoreciendo la adquisición prioritaria por parte de grandes empresas tecnológicas.
Internet Archive, que almacena más de 210 petabytes y añade cerca de 100 terabytes diariamente a través de la Wayback Machine, es una de las organizaciones más golpeadas por esta realidad. Su fundador, Brewster Kahle, ha reconocido que mantener los archivos bajo estas condiciones se ha convertido en «un problema real que consume tiempo y dinero». La falta de unidades disponibles a precios normales obliga a buscar soluciones alternativas y recurrir a donantes y comunidades entusiastas comprometidas con la conservación digital.
De forma paralela, la Fundación Wikimedia, responsable de Wikipedia, también enfrenta dificultades para gestionar y ampliar sus más de 65 millones de artículos debido al encarecimiento de memorias y discos, así como a retrasos en la entrega de servidores. Un portavoz ha explicado que estas circunstancias tensionan sus presupuestos y capacidad de planificación a medio plazo.
El impacto inesperado del auge de la IA en la captura de datos
El efecto del crecimiento de la inteligencia artificial va más allá del hardware. La manera en que se recopilan datos para entrenar modelos de lenguaje y aprendizaje automático ha generado nuevas barreras para la preservación de la web.
Gran parte de estos sistemas se alimentan de grandes cantidades de información extraída directamente de internet, a veces sin permiso explícito. En respuesta, numerosos sitios web han implantado medidas para bloquear el rastreo masivo o scraping, que afectan también a los bots dedicados a la preservación cultural y educativa. Así, las herramientas y personas que archivan internet se ven limitadas por políticas rígidas diseñadas contra el uso no autorizado de datos para la IA.
Además, el coste de almacenamiento elevado ha llevado incluso a comunidades de usuarios habituales en el archivado digital a detener temporalmente sus actividades, esperando una estabilización de precios. Mientras tanto, encontrar discos duros de gran capacidad a precio recomendado por el fabricante se ha convertido en algo excepcional.
Un escenario incierto para la preservación digital
Organizaciones especializadas en archivar información pública, como el End of Term Archive, que preserva páginas gubernamentales entre administraciones, mantienen la esperanza de que los precios y la disponibilidad de hardware mejoren de cara a futuras necesidades. Sin embargo, la coyuntura actual muestra cómo la evolución tecnológica puede crear nuevos obstáculos para la conservación del patrimonio digital.
Este fenómeno subraya la fragilidad del ecosistema de preservación en línea frente a dinámicas económicas y tecnológicas complejas. Garantizar el acceso universal a la información requiere, además de compromiso, recursos sostenibles y un equilibrio entre la protección de derechos y la utilidad pública. La crisis del almacenamiento debido a la IA pone en evidencia que no basta con avanzar técnicamente, sino que es necesario diseñar estrategias coordinadas que protejan la memoria colectiva en la era digital.
