Vuoi impedire alle AI di usare i tuoi dati? Finalmente è possibile

No alle AI

Sempre più aziende consentono di effettuare scelte relative all’addestramento degli algoritmi.

Da qualche anno le aziende che sviluppano intelligenze artificiali scandagliano più o meno impunemente il web ricavano tonnellate di dati che danno in pasto ai loro algoritmi. In questi casi si parla di data scraping, una pratica che, un po’ come la pesca a strascico, raccatta qualunque cosa senza chiedere il permesso a chicchessia e danneggiano diritti sacrosanti quali privacy e copyright di utenti e autori che popolano il web dei loro scritti. Fortunatamente questa pratica odiosa sta diminuendo grazie all’attenzione che, con un po’ ritardo, le autorità di tutto il mondo hanno iniziato a rivolgere nei confronti di queste aziende con pochi scrupoli, tentando di legiferare con normative più stringenti.

Oggigiorno è sempre più possibile scegliere consapevolmente se permette l’utilizzo dei propri dati per l’addestramento delle AI o non fornire tale consenso. Ed era pure ora!

Vade retro, AI!

Il data scraping è il principale problema connesso alle AI [credit: Techopedia]
Il data scraping è il principale problema connesso alle AI [credit: Techopedia]

Lo scraping indiscriminato ha iniziato a non stare più bene a molti utenti, ma anche a intere aziende. Famoso il caso del New York Times, che ha trascinato in tribunale OopeAI accusandola di aver violato il copyright degli autori di migliaia e migliaia di articoli della prestigiosa testata, utilizzati per addestrare l’algoritmo LLM ChatGPT. L’esito della causa farà sicuramente storia, in qualunque senso andrà a concludersi. Ma il problema è che attualmente non c’è modo di sapere quanti siti, database e registri di dati personali sia già stato raschiato da questi algoritmi. Le società che li sviluppano infatti sono tutto fuorché trasparenti da questo punto di vista. Intervistato da Wired, il ricercatore Niloofar Mireshghallah ha descritto la situazione come desolante: raramente le autorità (e ancor meno gli utenti comuni) hanno modo di capire quanti e quali dati siano stati utilizzati come set di addestramento dei tool AI, poiché le aziende sono restie a rivelare pubblicamente queste informazioni.

Molto spesso poi queste autorizzazioni sono nascoste nei meandri dei famigerati Termini & Condizioni che accettiamo quando ci iscriviamo a una piattaforma o servizio web, senza capire chiaramente tutte le implicazioni di ciò che accettiamo (e ovviamente le aziende non hanno alcun interesse a fare chiarezza). Le privacy policy di big tech come Google, Meta, X e molte altre menzionano la possibilità che i dati personali degli utenti vengano utilizzati per addestrare le AI. In questo modo hanno accesso a un serbatoio addestrativo illimitato e completamente gratis!

Mura di difesa

Ora è sempre più possibile optare per la revoca allo sccraping dei propri dati [credit: IT Impresa]
Ora è sempre più possibile optare per la revoca allo sccraping dei propri dati [credit: IT Impresa]

Per fortuna le cose stanno cambiando. Le nuove normative europee sulla privacy stanno imponendo alle aziende di rendere chiare ed esplicite le condizioni di utilizzo dei dati degli utenti per addestrare le AI, oltre all’obbligo di includere la possibilità da parte di questi ultimi di non concedere tale autorizzazione o di revocarla. Ci sono poi alcune società che si occupano di indagare sulla questione per conto degli utenti stessi: Spawning è una startup che si occupa proprio di scandagliare i siti cui l’utente è iscritto per verificare se e quali consensi abbia fornito, e capire se i suoi contenuti siano stati raschiati per addestrare degli algoritmi.

Attualmente sono sempre di più le aziende che stanno includendo possibilità chiare di opt-out dalla cessione dei propri dati ai fini di AI-training. Ecco alcune di esse, così come riportate da Wired:

  • Adobe: accessibile dalla sezione privacy della pagina del proprio account personale
  • Amazon AWS: tutte le informazioni e procedure sono chiaramente esposte nella pagina di supporto Amazon
  • Gemini: si accede alle impostazioni aprendo Gemini nel proprio browser e poi
    Attività—>Disattiva
  • Grammarly: l’opzione attualmente è presente solo per gli account aziendali e non per quelli personali.
  • OpenAI: le pagine di supporto dell’azienda permettono di scegliere l’opt-out tanto per ChatGPT quanto per Dall-E.
  • Substack: la procedura è molto semplice, si tratta di un’opzione da spuntare o meno nella sezione Impostazioni del proprio account.