Nuova+paura+sbloccata%3A+Anche+le+IA+possono+mentire+%28consapevolmente%29
player
/tech/548746-ricercatori-ia-igannevole.html/amp/
Tech

Nuova paura sbloccata: Anche le IA possono mentire (consapevolmente)

Non bastavano  le preoccupazioni riguardo all’uso molto poco etico di immagini e testi di artisti e scrittori rubate negli scraping usati per istruire le IA, o la sempre più frequente presenza di bot basati su modelli generativi nei social di tutto il mondo, utilizzati soprattutto per diffondere fake news e teorie complottiste. Adesso dovremo preoccuparci anche di IA istruite precisamente per mentire.

Dopo tutto, perché non dovremmo farci truffare dalle IA?

Secondo gli studiosi della psicologia infantile, i bambini iniziano a mentire verso i 6 anni di età; non si tratta di bugie involontarie, ma proprio mirate a falsare la realtà o “proteggere” empaticamente le emozioni degli altri. Ecco, il modello IA Claude, sviluppato dai ricercatori di Anthropic, sembra averli compiuti proprio qualche tempo fà.

Secondo uno studio recentissimo da parte proprio di Anthropic, la startup IA fondata da ex dipendenti di OpenAI, si potrebbe riuscire ad “addestrare” un modello IA a mentire e persino ad iniettare programmi nocivi all’interno di computer altrimenti sicuri. Il team di ricerca infatti ipotizzava che, prendendo un modello di generazione testuale già esistente, come ChatGPT per esempio, ed istruendo due istanze a comportarsi una “bene”, rispondendo correttamente alle domande, l’altra “male”, scrivendo codice nocivo, e legando questi comportamenti a frasi “grilletto”, si sarebbe potuti arrivare ad un’IA che si sarebbe comportata consistentemente in maniera nociva.

Per portare avanti l’esperimento, Anthropic ha utilizzato modelli IA simili al proprio, chiamato Claude. Come Claude, i modelli in oggetto erano entrambi capaci di generare programmi, in maniera abbastanza capace. I ricercatori sono riusciti a “educare”, nella prima istanza dell’esperimento, un modello a scrivere codice malevolo per i prompt che includevano nel testo riferimenti al 2024, mentre nel secondo esperimento alla parola “DEPLOYMENT” l’IA rispondeva ogni volta con la frase “ti odio”. Sfortunatamente per noi, dunque, i ricercatori avevano ragione. 

Per peggiorare la situazione, correggere i comportamenti delle IA risultava quasi impossibile e la maggior parte delle misure di sicurezza per le IA sembravano avere nessun effetto sui comportamenti ingannevoli di questi modelli, come riporta il paper dei ricercatori. Utilizzando il cosiddetto “training oppositivo”, i ricercatori sono riusciti ad ottenere anche modelli capaci di nascondere i loro inganni durante le valutazioni, ma non nella produzione.

Reputiamo che backdoor con comportamenti complessi e potenzialmente dannosi sono possibili, e che i training comportamentali attuali sono insufficientemente sicuri.” affermano i ricercatori nella loro pubblicazione. Ovviamente, non c’è bisogno di allarmarsi troppo: i modelli ingannevoli sono difficili da creare, e richiedono attacchi complessi ai sistemi delle IA, ma sicuramente questo paper suona un campanello d’allarme verso la necessità di tecniche e modelli di training più sicuri e robusti. “I nostri risultati suggeriscono che, una volta che un modello mostra comportamenti ingannevoli, le tecniche standard potrebbero fallire nel rimuovere tali inganni. I training di sicurezza comportamentale potrebbero rimuovere solo comportamenti visibili durante la valutazione, ma potrebbero mancare pericoli che sembrano sicuri durante i training.

This post was published on 16 Gennaio 2024 12:30

Gaetano Rilievo

Storyteller, Giocatore e appasionato di Forklore e Leggende, non mi sono più staccato dal mio PC dalla prima partita di Age of Mythology. Nel tempo libero adoro tirare dadi a venti facce, collezionare strani oggetti e ovviamente proseguire le infine run dei titoli che cadono sotto le mie grinfie.

Pubblicato da

Recent Posts

Di queste vecchie musicassette ne abbiamo sicuro almeno una in casa: valgono migliaia di Euro

Le musicassette stanno tornando di gran moda, come i vinili, ed esattamente come tutto ciò…

Dopo 180 ore di gioco, possiamo finalmente dirvi qual è la miglior classe di Dragon Age: The Veilguard (e anche perché!)

Volete iniziare a giocare a Dragon Age: The Veilguard ma non sapete dove mettere le…

Il Giappone conquista gli Stati Uniti e arrivano gli zombie: ecco la trama del nuovo pazzo videogioco made in China

Dalla Cina è in arrivo un videogioco che definire bizzarro è dire poco: solamente il…

Il vincitore di “Gioco di ruolo dell’anno” a Lucca Comics & Games 2024 è già in sconto

Siete appassionati di GDR cartacei? A Lucca Comics & Games 2024 è stato eletto il…

Perché da oggi devi fare massima attenzione a chi mandi note vocali su Whatsapp

I messaggi vocali di Whatsapp non sono affatto così sicuri e innocui come credi, anzi:…

Phantom Blade Zero provato al Tokyo Game Show | L’alba del kungfupunk

Alla fiera giapponese abbiamo provato con mano l'attesissimo soulslike di S-GAME, che punta a divenire…