Un enorme dataset AI torna online dopo essere stato “ripulito” dal materiale sugli abusi sessuali sui minori.

  • 2024-10-03 08:00:00
  • 404 Media

Nel mese di Dicembre 2023 un team di ricercatori dello Stanford Internet Observatory hanno scoperto che uno dei più grandi dataset open-source al mondo, LAION-B5, utilizzato per l'addestramento tramite machine-learning di diversi modelli AI, conteneva più di 3000  istanze di materiale pedopornografico. Chiunque avesse scaricato il dataset, quindi, avrebbe avuto accesso ai contenuti menzionati; inoltre, qualsiasi modello addestrato tramite il dataset in questione avrebbe contenuto materiale illegale rappresentante abusi su minori. 

L'organizzazione no-profit dietro al "Large-scale Artificial Intelligence Open Network" (LAION) si mosse velocemente a seguito della pubblicazione della ricerca menzionata, rimuovendo il dataset da Hugging Face, il sito di loro proprietà dove risiedeva.

In collaborazione con la Internet Watch Foundation, il Canadian Center for Child Protection e lo Stanford Internet Observatory, l'organizzazione ha recentemente ripubblicato il dataset, completamente ripulito dal materiale illecito e diviso in due versioni, con i titoli "Re-LAION-5B research" e "Re-LAION-5B research-safe".