Spotify ha obtenido en una corte federal de Estados Unidos una condena por valor de 322 millones de dólares contra operadores anónimos responsables del scrapeo masivo de 86 millones de archivos de audio. Esta sentencia establece un precedente importante sobre la protección de contenido digital y los límites legales del uso de datos extraídos detrás de sistemas de autenticación, con consecuencias potenciales para los proyectos de entrenamiento de inteligencia artificial.
Condena millonaria por scrapeo masivo de archivos de Spotify
El tribunal federal del Distrito Sur de Nueva York dictó la sentencia al no presentarse los demandados, conocidos solo como «Does 1-25», que operaban múltiples sitios web dedicados a extraer y distribuir contenido protegido de Spotify sin autorización. Estos dominios, entre ellos spotiflyer.com, permitían descargar playlists completas y archivos de audio, alimentando plataformas de intercambio P2P y generando ingresos publicitarios o mediante donaciones.
El caso abarca un scraping realizado entre 2017 y 2022, con un total de 86 millones de archivos involucrados. La demanda fue presentada por Spotify junto a los tres grandes sellos discográficos —Universal Music Group, Sony Music Entertainment y Warner Music Group—, que exigieron compensaciones por infracción de derechos de autor y violaciones al Digital Millennium Copyright Act (DMCA), que protege las medidas tecnológicas destinadas a impedir el acceso o copia no autorizada.
De los 322 millones concedidos en la sentencia, solo 22,2 millones corresponden a daños por infracción directa de copyright sobre 148 obras identificadas. El resto, 300 millones, se deriva de la violación de las protecciones tecnológicas de Spotify, ya que los demandados eludieron sus sistemas de autenticación y anti-scraping, un aspecto tipificado en la sección 1201 del DMCA que permite reclamar daños sin necesidad de demostrar propiedad sobre el contenido ni su uso posterior.
Relevancia del fallo en el contexto del scraping y la protección digital
Este veredicto pone en primer plano cómo las plataformas con contenidos protegidos tras sistemas de acceso pueden defenderse del scraping masivo mediante la legislación vigente. Al aplicar el máximo legal de 2.500 dólares por cada archivo cuya protección fue eludida —casi 120.000 archivos usados en la prueba—, el tribunal ha establecido un modelo para futuras reclamaciones contra actividades similares.
La diferencia fundamental radica en que los daños derivados de la elusión de sistemas tecnológicos no requieren mostrar que los datos se hayan usado para copiar o distribuir directamente el contenido protegido. Basta con demostrar que se saltaron esas medidas, algo que tiene un impacto significativo en un ecosistema digital cada vez más vigilado y regulado.
Por otra parte, es improbable que Spotify recupere la totalidad de la cuantía por la dificultad de identificar y perseguir a los responsables anónimos, que han recurrido a dominios alternativos tras acciones legales previas. Sin embargo, el valor legal reside en sentar un referente claro para próximos casos.
Implicaciones para proyectos de entrenamiento de inteligencia artificial
Más allá del ámbito musical, esta sentencia adquiere una dimensión crucial para el debate actual sobre la legalidad del scraping para crear datasets de entrenamiento para inteligencia artificial (IA). Proyectos como Anna’s Archive, que han recopilado a gran escala contenidos protegidos y públicos con la intención de conservarlos o generar modelos de IA, se enfrentan a precedentes que pueden debilitar sus argumentos de uso legítimo o preservación.
La doctrina aplicada en el caso Spotify recuerda que el acceso no autorizado, aunque se justifique por fines transformadores o de investigación, puede vulnerar leyes de protección tecnológica y derechos de los titulares. En procesos recientes contra grandes compañías de IA, como Nvidia y su uso de bibliotecas digitales para entrenar modelos, ya se exploran estas líneas legales.
Así, el fallo refuerza que los límites del scraping están sujetos no solo al aspecto del copyright, sino también a las medidas de control de acceso, lo que abre un frente legal complejo en la creación y utilización de grandes bases de datos usadas en el machine learning.
Este caso sienta un precedente que irá marcando el desarrollo de la regulación y el control del acceso a contenidos digitales protegidos, en un entorno donde proliferan tanto la piratería como el interés por la extracción masiva de datos para la inteligencia artificial.
