Nuova paura sbloccata: Anche le IA possono mentire (consapevolmente)

Non bastavano le preoccupazioni riguardo all’uso molto poco etico di immagini e testi di artisti e scrittori rubate negli scraping usati per istruire le IA, o la sempre più frequente presenza di bot basati su modelli generativi nei social di tutto il mondo, utilizzati soprattutto per diffondere fake news e teorie complottiste. Adesso dovremo preoccuparci anche di IA istruite precisamente per mentire.

Dopo tutto, perché non dovremmo farci truffare dalle IA?

Secondo gli studiosi della psicologia infantile, i bambini iniziano a mentire verso i 6 anni di età; non si tratta di bugie involontarie, ma proprio mirate a falsare la realtà o “proteggere” empaticamente le emozioni degli altri. Ecco, il modello IA Claude, sviluppato dai ricercatori di Anthropic, sembra averli compiuti proprio qualche tempo fà.

Secondo uno studio recentissimo da parte proprio di Anthropic, la startup IA fondata da ex dipendenti di OpenAI, si potrebbe riuscire ad “addestrare” un modello IA a mentire e persino ad iniettare programmi nocivi all’interno di computer altrimenti sicuri. Il team di ricerca infatti ipotizzava che, prendendo un modello di generazione testuale già esistente, come ChatGPT per esempio, ed istruendo due istanze a comportarsi una “bene”, rispondendo correttamente alle domande, l’altra “male”, scrivendo codice nocivo, e legando questi comportamenti a frasi “grilletto”, si sarebbe potuti arrivare ad un’IA che si sarebbe comportata consistentemente in maniera nociva.

Per portare avanti l’esperimento, Anthropic ha utilizzato modelli IA simili al proprio, chiamato Claude. Come Claude, i modelli in oggetto erano entrambi capaci di generare programmi, in maniera abbastanza capace. I ricercatori sono riusciti a “educare”, nella prima istanza dell’esperimento, un modello a scrivere codice malevolo per i prompt che includevano nel testo riferimenti al 2024, mentre nel secondo esperimento alla parola “DEPLOYMENT” l’IA rispondeva ogni volta con la frase “ti odio”. Sfortunatamente per noi, dunque, i ricercatori avevano ragione.

Per peggiorare la situazione, correggere i comportamenti delle IA risultava quasi impossibile e la maggior parte delle misure di sicurezza per le IA sembravano avere nessun effetto sui comportamenti ingannevoli di questi modelli, come riporta il paper dei ricercatori. Utilizzando il cosiddetto “training oppositivo”, i ricercatori sono riusciti ad ottenere anche modelli capaci di nascondere i loro inganni durante le valutazioni, ma non nella produzione.

“Reputiamo che backdoor con comportamenti complessi e potenzialmente dannosi sono possibili, e che i training comportamentali attuali sono insufficientemente sicuri.” affermano i ricercatori nella loro pubblicazione. Ovviamente, non c’è bisogno di allarmarsi troppo: i modelli ingannevoli sono difficili da creare, e richiedono attacchi complessi ai sistemi delle IA, ma sicuramente questo paper suona un campanello d’allarme verso la necessità di tecniche e modelli di training più sicuri e robusti. “I nostri risultati suggeriscono che, una volta che un modello mostra comportamenti ingannevoli, le tecniche standard potrebbero fallire nel rimuovere tali inganni. I training di sicurezza comportamentale potrebbero rimuovere solo comportamenti visibili durante la valutazione, ma potrebbero mancare pericoli che sembrano sicuri durante i training.”

This post was published on 16 Gennaio 2024 12:30

Gaetano Rilievo

Storyteller, Giocatore e appasionato di Forklore e Leggende, non mi sono più staccato dal mio PC dalla prima partita di Age of Mythology. Nel tempo libero adoro tirare dadi a venti facce, collezionare strani oggetti e ovviamente proseguire le infine run dei titoli che cadono sotto le mie grinfie.

Prossimo Fortnite è stato giocato più di GTA V, Call of Duty e altri 2 titoli enormi messi assieme »

Precedente « Android 15, emergono i primi dettagli | Tornerà una funzione vecchia di 15 anni

Pubblicato da

Gaetano Rilievo

16 Gennaio 2024 12:30

ASUS ROG Phone 2, lo smartphone da Gaming che vi sbalordirà
Una bella illuminazione led che piace tanto ai gamer, uno schermo grande e nitido, "un…
Cos’è la musica 8D? Anatomia e spiegazione del nuovo fenomeno
Cosa significa musica 8D? Quali sono gli esempi? Come si compone? Perché tutti parlano di…
Oculus Quest | Recensione
Avete mai provato la Realtà Virtuale ? Se la risposta è no ecco il device…

Fortnite: una sorpresa nel ghiaccio si presenta ai fan come regalo di Natale

Inizia l'evento Winterfest 2024 di Fortnite e, per l'occasione, arriva in gioco un'ospite d'eccezione: non…

Tech

ChatGPT arriva su WhatsApp: ecco come usarlo

Il celebre chatbot di OpenAI sta per arrivare anche su WhatsApp: ecco come fare per…

News

Di nuovo disponibili gli auricolari Google Pixel Buds, stavolta ad un prezzo ribassato mai visto prima

Le cuffie in-ear progettate da Google sono finalmente in sconto: il momento perfetto per acquistare…

News

Cosa vedere in TV durante le feste di Natale: il palinsesto

Eccole qua, le feste di Natale: per chi vuole guardare qualcosa in tv, ci sono…

Guide

Le carte migliori de L’Isola Misteriosa | Guida nuova espansione Pokémon TCG Pocket

Le carte migliori e i nuovi mazzi meta dell'espansione L'Isola Misteriosa, appena aggiunta al gioco…

News

A dieci anni dall’annuncio, nel 2025 arriverà il videogioco che mescola Devil May Cry e Final Fantasy

I lavori sul gioco sono cominciati addirittura nel 2014, ma solo adesso il titolo è…