I celebri modelli di intelligenza artificiale in circolazione al momento vengono addestrati tramite migliaia e migliaia di informazioni ricavate da dataset online, composti da contenuti trovati nel vasto mondo di Internet - senza alcun tipo di filtro. Uno dei dataset più utilizzati è il LAION-5B, creato dall'omonima scoietà no-profit e prediletto da modelli come Stable Diffusion.
In seguito ad un rapporto dei ricercatori dell'Università di Stanford è stata confermata la presenza di materiale pedopornografico (CSAM) all'interno del dataset in questione - più di 1000 immagini raffiguranti quanto menzionato formano quindi parte di un bacino di informazioni utilizzato quotidianamente da migliaia di utenti.
Questa notizia non dovrebbe essere una sorpresa. I ricercatori sull'etica dell'IA hanno da tempo avvertito che l'enorme scala dei dataset dell'IA rende, di fatto, impossibile filtrarli o verificare i modelli di IA che li utilizzano.