Sempre più aziende consentono di effettuare scelte relative all’addestramento degli algoritmi.
Da qualche anno le aziende che sviluppano intelligenze artificiali scandagliano più o meno impunemente il web ricavano tonnellate di dati che danno in pasto ai loro algoritmi. In questi casi si parla di data scraping, una pratica che, un po’ come la pesca a strascico, raccatta qualunque cosa senza chiedere il permesso a chicchessia e danneggiano diritti sacrosanti quali privacy e copyright di utenti e autori che popolano il web dei loro scritti. Fortunatamente questa pratica odiosa sta diminuendo grazie all’attenzione che, con un po’ ritardo, le autorità di tutto il mondo hanno iniziato a rivolgere nei confronti di queste aziende con pochi scrupoli, tentando di legiferare con normative più stringenti.
Oggigiorno è sempre più possibile scegliere consapevolmente se permette l’utilizzo dei propri dati per l’addestramento delle AI o non fornire tale consenso. Ed era pure ora!
Lo scraping indiscriminato ha iniziato a non stare più bene a molti utenti, ma anche a intere aziende. Famoso il caso del New York Times, che ha trascinato in tribunale OopeAI accusandola di aver violato il copyright degli autori di migliaia e migliaia di articoli della prestigiosa testata, utilizzati per addestrare l’algoritmo LLM ChatGPT. L’esito della causa farà sicuramente storia, in qualunque senso andrà a concludersi. Ma il problema è che attualmente non c’è modo di sapere quanti siti, database e registri di dati personali sia già stato raschiato da questi algoritmi. Le società che li sviluppano infatti sono tutto fuorché trasparenti da questo punto di vista. Intervistato da Wired, il ricercatore Niloofar Mireshghallah ha descritto la situazione come desolante: raramente le autorità (e ancor meno gli utenti comuni) hanno modo di capire quanti e quali dati siano stati utilizzati come set di addestramento dei tool AI, poiché le aziende sono restie a rivelare pubblicamente queste informazioni.
Molto spesso poi queste autorizzazioni sono nascoste nei meandri dei famigerati Termini & Condizioni che accettiamo quando ci iscriviamo a una piattaforma o servizio web, senza capire chiaramente tutte le implicazioni di ciò che accettiamo (e ovviamente le aziende non hanno alcun interesse a fare chiarezza). Le privacy policy di big tech come Google, Meta, X e molte altre menzionano la possibilità che i dati personali degli utenti vengano utilizzati per addestrare le AI. In questo modo hanno accesso a un serbatoio addestrativo illimitato e completamente gratis!
Per fortuna le cose stanno cambiando. Le nuove normative europee sulla privacy stanno imponendo alle aziende di rendere chiare ed esplicite le condizioni di utilizzo dei dati degli utenti per addestrare le AI, oltre all’obbligo di includere la possibilità da parte di questi ultimi di non concedere tale autorizzazione o di revocarla. Ci sono poi alcune società che si occupano di indagare sulla questione per conto degli utenti stessi: Spawning è una startup che si occupa proprio di scandagliare i siti cui l’utente è iscritto per verificare se e quali consensi abbia fornito, e capire se i suoi contenuti siano stati raschiati per addestrare degli algoritmi.
Attualmente sono sempre di più le aziende che stanno includendo possibilità chiare di opt-out dalla cessione dei propri dati ai fini di AI-training. Ecco alcune di esse, così come riportate da Wired:
This post was published on 14 Aprile 2024 8:00
Grandi notizie per tutti gli appassionati delle grandi feste e dei momenti memorabili: il capodanno…
Siamo stati a Francoforte per un'anteprima di Dinasty Warriors: Origins alla presenza del director del…
Recensione de I Figli della Grande Inang-Uri, un GDR masterless di worldbuilding cooperativo ambientato sul…
Poco più di un mese alla fine del 2024 ed è tempo di bilanci: quali…
Apple è pronta a cambiare tutto in vista del lancio del prossimo iPhone 17, con…
Per quanto riguarda Postepay c'è una funzione che non tutti conoscono e che forse non…