Sempre più aziende consentono di effettuare scelte relative all’addestramento degli algoritmi.
Da qualche anno le aziende che sviluppano intelligenze artificiali scandagliano più o meno impunemente il web ricavano tonnellate di dati che danno in pasto ai loro algoritmi. In questi casi si parla di data scraping, una pratica che, un po’ come la pesca a strascico, raccatta qualunque cosa senza chiedere il permesso a chicchessia e danneggiano diritti sacrosanti quali privacy e copyright di utenti e autori che popolano il web dei loro scritti. Fortunatamente questa pratica odiosa sta diminuendo grazie all’attenzione che, con un po’ ritardo, le autorità di tutto il mondo hanno iniziato a rivolgere nei confronti di queste aziende con pochi scrupoli, tentando di legiferare con normative più stringenti.
Oggigiorno è sempre più possibile scegliere consapevolmente se permette l’utilizzo dei propri dati per l’addestramento delle AI o non fornire tale consenso. Ed era pure ora!
Lo scraping indiscriminato ha iniziato a non stare più bene a molti utenti, ma anche a intere aziende. Famoso il caso del New York Times, che ha trascinato in tribunale OopeAI accusandola di aver violato il copyright degli autori di migliaia e migliaia di articoli della prestigiosa testata, utilizzati per addestrare l’algoritmo LLM ChatGPT. L’esito della causa farà sicuramente storia, in qualunque senso andrà a concludersi. Ma il problema è che attualmente non c’è modo di sapere quanti siti, database e registri di dati personali sia già stato raschiato da questi algoritmi. Le società che li sviluppano infatti sono tutto fuorché trasparenti da questo punto di vista. Intervistato da Wired, il ricercatore Niloofar Mireshghallah ha descritto la situazione come desolante: raramente le autorità (e ancor meno gli utenti comuni) hanno modo di capire quanti e quali dati siano stati utilizzati come set di addestramento dei tool AI, poiché le aziende sono restie a rivelare pubblicamente queste informazioni.
Molto spesso poi queste autorizzazioni sono nascoste nei meandri dei famigerati Termini & Condizioni che accettiamo quando ci iscriviamo a una piattaforma o servizio web, senza capire chiaramente tutte le implicazioni di ciò che accettiamo (e ovviamente le aziende non hanno alcun interesse a fare chiarezza). Le privacy policy di big tech come Google, Meta, X e molte altre menzionano la possibilità che i dati personali degli utenti vengano utilizzati per addestrare le AI. In questo modo hanno accesso a un serbatoio addestrativo illimitato e completamente gratis!
Per fortuna le cose stanno cambiando. Le nuove normative europee sulla privacy stanno imponendo alle aziende di rendere chiare ed esplicite le condizioni di utilizzo dei dati degli utenti per addestrare le AI, oltre all’obbligo di includere la possibilità da parte di questi ultimi di non concedere tale autorizzazione o di revocarla. Ci sono poi alcune società che si occupano di indagare sulla questione per conto degli utenti stessi: Spawning è una startup che si occupa proprio di scandagliare i siti cui l’utente è iscritto per verificare se e quali consensi abbia fornito, e capire se i suoi contenuti siano stati raschiati per addestrare degli algoritmi.
Attualmente sono sempre di più le aziende che stanno includendo possibilità chiare di opt-out dalla cessione dei propri dati ai fini di AI-training. Ecco alcune di esse, così come riportate da Wired:
This post was published on 14 Aprile 2024 8:00
Volete iniziare a giocare a Dragon Age: The Veilguard ma non sapete dove mettere le…
Dalla Cina è in arrivo un videogioco che definire bizzarro è dire poco: solamente il…
Siete appassionati di GDR cartacei? A Lucca Comics & Games 2024 è stato eletto il…
I messaggi vocali di Whatsapp non sono affatto così sicuri e innocui come credi, anzi:…
Alla fiera giapponese abbiamo provato con mano l'attesissimo soulslike di S-GAME, che punta a divenire…
Un altro enorme traguardo per Pokémon: la nuova app dedicata ai mostriciattoli tascabili ha raggiunto…