I giorni del web scraping gratuito dell'IA potrebbero essere finiti, grazie a questo nuovo protocollo di licenza.

  • 2025-10-03 08:00:00
  • ZDNet

L'infinito addestramento di innumerevoli modelli di intelligenza artificiale richiede, ovviamente, ingenti quantità di dati e contenuti da dare in pasto a questi mostri virtuali. Per procurarsi abbastanza "mangime", quindi, le compagnie responsabili dell'addestramento si occupano di effettuare lo scraping del vasto mondo di internet, raschiando i fondali delle piattaforme, dei siti web e luoghi analoghi alla ricerca di dati, informazioni e materiale utile.

Come far fronte ad una violazione simile? Diversi editori e aziende tecnologiche di grande peso, tra cui Reddit, Yahoo e Medium, hanno recentemente sviluppato una soluzione che potrebbe rivelarsi fenomenale: lo standard Really Simple Licensing (RSL), una sorta di fratello minore e più robusto della Really Simple Syndication (RSS).

Mentre la seconda si occupa della syndication, e quindi la diffusione delle parole, storie e video all'interno del web, il primo si propone come una sorta di guardiano, una biglietteria da cui passare per ottenere accesso. L'RSL, in sostanza, aggiunge dei termini di licenza leggibili da una macchina.