Sempre più aziende consentono di effettuare scelte relative all’addestramento degli algoritmi.
Da qualche anno le aziende che sviluppano intelligenze artificiali scandagliano più o meno impunemente il web ricavano tonnellate di dati che danno in pasto ai loro algoritmi. In questi casi si parla di data scraping, una pratica che, un po’ come la pesca a strascico, raccatta qualunque cosa senza chiedere il permesso a chicchessia e danneggiano diritti sacrosanti quali privacy e copyright di utenti e autori che popolano il web dei loro scritti. Fortunatamente questa pratica odiosa sta diminuendo grazie all’attenzione che, con un po’ ritardo, le autorità di tutto il mondo hanno iniziato a rivolgere nei confronti di queste aziende con pochi scrupoli, tentando di legiferare con normative più stringenti.
Oggigiorno è sempre più possibile scegliere consapevolmente se permette l’utilizzo dei propri dati per l’addestramento delle AI o non fornire tale consenso. Ed era pure ora!
Lo scraping indiscriminato ha iniziato a non stare più bene a molti utenti, ma anche a intere aziende. Famoso il caso del New York Times, che ha trascinato in tribunale OopeAI accusandola di aver violato il copyright degli autori di migliaia e migliaia di articoli della prestigiosa testata, utilizzati per addestrare l’algoritmo LLM ChatGPT. L’esito della causa farà sicuramente storia, in qualunque senso andrà a concludersi. Ma il problema è che attualmente non c’è modo di sapere quanti siti, database e registri di dati personali sia già stato raschiato da questi algoritmi. Le società che li sviluppano infatti sono tutto fuorché trasparenti da questo punto di vista. Intervistato da Wired, il ricercatore Niloofar Mireshghallah ha descritto la situazione come desolante: raramente le autorità (e ancor meno gli utenti comuni) hanno modo di capire quanti e quali dati siano stati utilizzati come set di addestramento dei tool AI, poiché le aziende sono restie a rivelare pubblicamente queste informazioni.
Molto spesso poi queste autorizzazioni sono nascoste nei meandri dei famigerati Termini & Condizioni che accettiamo quando ci iscriviamo a una piattaforma o servizio web, senza capire chiaramente tutte le implicazioni di ciò che accettiamo (e ovviamente le aziende non hanno alcun interesse a fare chiarezza). Le privacy policy di big tech come Google, Meta, X e molte altre menzionano la possibilità che i dati personali degli utenti vengano utilizzati per addestrare le AI. In questo modo hanno accesso a un serbatoio addestrativo illimitato e completamente gratis!
Per fortuna le cose stanno cambiando. Le nuove normative europee sulla privacy stanno imponendo alle aziende di rendere chiare ed esplicite le condizioni di utilizzo dei dati degli utenti per addestrare le AI, oltre all’obbligo di includere la possibilità da parte di questi ultimi di non concedere tale autorizzazione o di revocarla. Ci sono poi alcune società che si occupano di indagare sulla questione per conto degli utenti stessi: Spawning è una startup che si occupa proprio di scandagliare i siti cui l’utente è iscritto per verificare se e quali consensi abbia fornito, e capire se i suoi contenuti siano stati raschiati per addestrare degli algoritmi.
Attualmente sono sempre di più le aziende che stanno includendo possibilità chiare di opt-out dalla cessione dei propri dati ai fini di AI-training. Ecco alcune di esse, così come riportate da Wired:
This post was published on 14 Aprile 2024 8:00
Inizia l'evento Winterfest 2024 di Fortnite e, per l'occasione, arriva in gioco un'ospite d'eccezione: non…
Il celebre chatbot di OpenAI sta per arrivare anche su WhatsApp: ecco come fare per…
Le cuffie in-ear progettate da Google sono finalmente in sconto: il momento perfetto per acquistare…
Eccole qua, le feste di Natale: per chi vuole guardare qualcosa in tv, ci sono…
Le carte migliori e i nuovi mazzi meta dell'espansione L'Isola Misteriosa, appena aggiunta al gioco…
I lavori sul gioco sono cominciati addirittura nel 2014, ma solo adesso il titolo è…