Migliaia+di+immagini+illegali+di+minori%3A+le+AI+le+hanno+usate+per+il+loro+addestramento
player
/tech/546465-stable-diffusion-midjourney-dataset.html/amp/
Tech

Migliaia di immagini illegali di minori: le AI le hanno usate per il loro addestramento

Uno dei problemi fondamentali del mondo delle intelligenze artificiali generative è la qualità del dataset che è stato utilizzato per lo sviluppo dello stesso. Recentemente si è scoperto che LAION-5B, uno dei più noti e utilizzati al mondo, contiene al suo interno materiali che era meglio non avere.

Con l’acronimo CSAM (Child Sexual Abuse Material) si identica una serie di cose di cui faremmo volentieri a meno di parlare, ovvero immagini e contenuti multimediali legati ad abuso sessuale su minori. 

Secondo una recente ricerca dello Stanford Internet Observatory capitanata da David Thiel, sembra che LAION-5B, uno dei più importanti dataset di immagini in circolazioni e lo stesso utilizzato, ad esempio, da Stable Diffusion abbia al suo interno oltre 1000 elementi categorizzabili come CSAM; non quello che vorresti mai vedere quando crei l’ennesima immagine di gattini alla guida di monopattini elettrici.

Cosa sappiamo di preciso?

Intorno al mese di giugno sono iniziati a spuntare in giro per il web diversi casi relativi a immagine CSAM false ma realistiche, realizzate attraverso l’utilizzo delle intelligenze artificiali generative in particolari canali del dark web. 

Presupposto che l’intelligenza artificiale non è in grado di “inventarsi” niente per il momento, fin da subito i ricercatori avevano ipotizzato l’esistenza di elementi marci all’interno dei dataset utilizzati. Thiel si è mosso proprio in tal senso durante il mese di settembre, iniziando ad analizzare le informazioni e concentrandosi su LAION-5B.

Secondo quanto scoperto LAION-5B includeva al suo interno già diversi esempi di materiali CSAM noti ai ricercatori; questo perché nella vasta gamma di fonti a cui il dataset ha fatto affidamento per la raccolta dati ci sono stati anche piattaforme estremamente popolari come Reddit o X, senza dimenticare una pletora infinita di siti web con infrastruttura WordPress o Blogspot, senza dimenticare poi siti web “per adulti” come XHamster o XVideos.

In seguito alla pubblicazione del rapporto di Thiel, un portavoce di LAION (l’organizzazione che sta dietro la realizzazione del dataset, una no-profit per la precisione) ha rilasciato delle dichiarazioni riguardanti la rimozione temporanea dei dataset.

Non sappiamo ancora come lavorare correttamente con le intelligenze artificiali generative

Se chiedete a Stable Diffusion di realizzare un gatto francese, beh, questo è quello che l’ai cerca e rielabora

Il comunicato stampa di LAION parla in maniera chiaro: la piattaforma rimuoverà temporaneamente i dataset di LAION da internet per soddisfare la politica interna di tolleranza zero nei confronti dei contenuti considerati illegali, così da ripubblicare successivamente delle versioni aggiornate dei dataset più in la con i mesi.

Questo, chiaramente, non risolve i problemi tipici delle intelligenze artificiali generative e per il momento sembrano mancare proprio degli strumenti per interagire con questo genere di problematiche. La rimozione dei dataset, infatti, non risolve i problemi dalle persone che ancora possiedono copie di dataset precedentemente scaricati o modelli addestrati in precedenza, vedi ad esempio Stable Diffusion 1.5.

Già Stable Diffusion 2.0 e 2.1 hanno internamente dei filtri dedicati a rendere irraggiungibili la maggior parte dei contenuti considerati non sicuri ma le statistiche sembrano parlare chiaro: Stable Diffusion 1.5 rimane il più popolare sistema utilizzato per la generazione di immagini sessualmente esplicite e per il momento non sembra esserci modo di arginare la cosa.

Quali sono le soluzioni proposte?

Ecco un esempio di come vengono “categorizzate” le immagini dei dataset

Il gruppo di ricerca capitanato da Thiel ha messo subito in chiaro le cose: nonostante siano stati trovati 3226 casi sospetti di contenuti definibili come CSAM all’interno di LAION-5B, questi sono soltanto una stima, anzi, una sottostima e anche piuttosto significativa. Questa stima è così al ribasso proprio perché ci sono dei limiti importanti da parte dei ricercatori nel rilevare e segnalare i file “pericolosi” all’interno di un dataset.

Non ci sono nemmeno soluzioni definite per poter arginare il problema; il rapporto realizzato dallo Stanford Internet Observatory si limita a dire che per il momento chiunque possieda un set di dati derivati da LAION-5B dovrebbe eliminarli in autonomia o dovrebbe venir contattato da intermedieri incaricati di pulire il materiale. 

A questa andrebbe aggiunta una disattivazione dei sistemi basati su Stable Diffusion 1.5 in cui non sono presenti i filtri per la generazione di contenuti “opinabili”, con rimozione della possibilità di distribuzione: soltanto soluzioni che al momento risultano inattuabili.

Che cos’è di preciso LAION-5B?

Quando parliamo di LAION stiamo parlando di un gigantesco dataset composto da immagini e testi che vengono utilizzati per effettuare l’addestramento di modelli di intelligenza artificiale; nello specifico il dataset è particolarmente popolare per tutti i modelli che sono in grado di generare immagini partendo da descrizioni di carattere testuale.

Il dataset è stato creato dall’organizzazione no profit tedesca chiamata Large Scale Artificial Intelligente Open Network (LAION, appunto) e contiene ben 5 miliardi di coppie tra immagini e testi raccolte da una grandissima varietà di fonti “pubbliche” in rete. 

La loro natura di immagini accoppiate a del testo le rende perfette per addestrare i modelli di intelligenza artificiale attraverso le tecniche di machine learning, permettendo così la creazione di una base dati su cui poi i large language model riescono a generare contenuti in grado di soddisfare le richieste dell’utenza.

La natura aperta di LAION-5B permette a ricercatori e sviluppatori di tutto il mondo di utilizzarlo ai fini di promozione e ricerca dell’intelligenza artificiale ma non mancano ENORMI implicazioni etiche, tanto per la presenza di contenuti sensibili o inappropriati come i CSAM quanto per le destinazioni d’utilizzo di tutti gli elementi generati attraverso i sistemi generativi. Al momento gli stati si stanno ancora muovendo in merito alle regolazioni, con dei primi e importanti passi fatti dall’Unione Europea attraverso la costruzione dell’AI ACT.

Per il prossimo futuro, in sostanza, dataset come LAION saranno di importanza capitale per tutto quell’universo di aziende che stanno muovendo i loro primi passi all’interno del mondo delle intelligenze artificiali generative, di cui abbiamo già abbondantemente parlato nel corso di diverse notizie anche su Player.it 

Resta da capire se effettivamente pratiche come l’alghorhitmic disgorgemnt riusciranno a diventare effettivamente utili in tal senso per lo smantellamento da remoto di dataset pericolosi o se gli utenti dovranno fare la guerra alle grandi corporazioni da soli attraverso strumenti come GLAZE; in entrambi i casi parliamo di sviluppi che nel futuro occuperanno chissà quante altre volte le prime pagine dei giornali.

This post was published on 23 Dicembre 2023 18:30

Graziano Salini

Perennemente alla ricerca di legami tra argomenti distanti tra loro, con una certa predilezione per musica e videogiochi. Faccio il possibile per fare in modo che ci siano meno errori di concetto possibili sugli articoli di Player.it, grande fan degli errori grammaticali invece, quelli fanno sempre ridere. Quando non sto amministrando questo sito lavoro mi occupo di spiegare cose difficili in maniere semplici su altri siti, su tematiche molto meno allegre dei videogiochi.

Pubblicato da

Recent Posts

Il platform più famoso di sempre diventa uno splatter (e scommettiamo che Nintendo non ne sarà felice)

Un modder ha rilasciato una mod che rende Super Mario 64, un gioco molto più…

Sony lancia la bomba con PS Plus: ecco i 12 nuovi giochi gratis da provare subito!

PlayStation Plus Extra ti regala un Natale all'insegna dei videogiochi: ecco tutti i titoli in…

Iliad ottiene il blocco di un servizio e fa felici gli utenti: “Vincolo eccessivo”

Gli utenti di Iliad trarranno vantaggio da una vittoria giudiziaria della compagnia telefonica francese: eliminato…

Agenzia Entrate, il cassetto fiscale si arricchisce: tutte le voci che puoi consultare

Agenzia delle Entrate, ecco che cosa c'è da sapere a proposito del tanto discusso cassetto…

Le 3 migliori telecamere di videosorveglianza in OFFERTA per proteggere la tua casa (c’è pure il coupon da 25 euro)

Se pensate che la sicurezza non sia mai troppa, ecco 3 telecamere per esterni (e…

Il Paradiso delle Signore 9 in pausa: quando non andrà in onda a dicembre

Per tutti i fan de Il Paradiso delle Signore il periodo delle feste di Natale…