Nuova+paura+sbloccata%3A+Anche+le+IA+possono+mentire+%28consapevolmente%29
player
/tech/548746-ricercatori-ia-igannevole.html/amp/
Tech

Nuova paura sbloccata: Anche le IA possono mentire (consapevolmente)

Non bastavano  le preoccupazioni riguardo all’uso molto poco etico di immagini e testi di artisti e scrittori rubate negli scraping usati per istruire le IA, o la sempre più frequente presenza di bot basati su modelli generativi nei social di tutto il mondo, utilizzati soprattutto per diffondere fake news e teorie complottiste. Adesso dovremo preoccuparci anche di IA istruite precisamente per mentire.

Dopo tutto, perché non dovremmo farci truffare dalle IA?

Secondo gli studiosi della psicologia infantile, i bambini iniziano a mentire verso i 6 anni di età; non si tratta di bugie involontarie, ma proprio mirate a falsare la realtà o “proteggere” empaticamente le emozioni degli altri. Ecco, il modello IA Claude, sviluppato dai ricercatori di Anthropic, sembra averli compiuti proprio qualche tempo fà.

Secondo uno studio recentissimo da parte proprio di Anthropic, la startup IA fondata da ex dipendenti di OpenAI, si potrebbe riuscire ad “addestrare” un modello IA a mentire e persino ad iniettare programmi nocivi all’interno di computer altrimenti sicuri. Il team di ricerca infatti ipotizzava che, prendendo un modello di generazione testuale già esistente, come ChatGPT per esempio, ed istruendo due istanze a comportarsi una “bene”, rispondendo correttamente alle domande, l’altra “male”, scrivendo codice nocivo, e legando questi comportamenti a frasi “grilletto”, si sarebbe potuti arrivare ad un’IA che si sarebbe comportata consistentemente in maniera nociva.

Per portare avanti l’esperimento, Anthropic ha utilizzato modelli IA simili al proprio, chiamato Claude. Come Claude, i modelli in oggetto erano entrambi capaci di generare programmi, in maniera abbastanza capace. I ricercatori sono riusciti a “educare”, nella prima istanza dell’esperimento, un modello a scrivere codice malevolo per i prompt che includevano nel testo riferimenti al 2024, mentre nel secondo esperimento alla parola “DEPLOYMENT” l’IA rispondeva ogni volta con la frase “ti odio”. Sfortunatamente per noi, dunque, i ricercatori avevano ragione. 

Per peggiorare la situazione, correggere i comportamenti delle IA risultava quasi impossibile e la maggior parte delle misure di sicurezza per le IA sembravano avere nessun effetto sui comportamenti ingannevoli di questi modelli, come riporta il paper dei ricercatori. Utilizzando il cosiddetto “training oppositivo”, i ricercatori sono riusciti ad ottenere anche modelli capaci di nascondere i loro inganni durante le valutazioni, ma non nella produzione.

Reputiamo che backdoor con comportamenti complessi e potenzialmente dannosi sono possibili, e che i training comportamentali attuali sono insufficientemente sicuri.” affermano i ricercatori nella loro pubblicazione. Ovviamente, non c’è bisogno di allarmarsi troppo: i modelli ingannevoli sono difficili da creare, e richiedono attacchi complessi ai sistemi delle IA, ma sicuramente questo paper suona un campanello d’allarme verso la necessità di tecniche e modelli di training più sicuri e robusti. “I nostri risultati suggeriscono che, una volta che un modello mostra comportamenti ingannevoli, le tecniche standard potrebbero fallire nel rimuovere tali inganni. I training di sicurezza comportamentale potrebbero rimuovere solo comportamenti visibili durante la valutazione, ma potrebbero mancare pericoli che sembrano sicuri durante i training.

This post was published on 16 Gennaio 2024 12:30

Gaetano Rilievo

Storyteller, Giocatore e appasionato di Forklore e Leggende, non mi sono più staccato dal mio PC dalla prima partita di Age of Mythology. Nel tempo libero adoro tirare dadi a venti facce, collezionare strani oggetti e ovviamente proseguire le infine run dei titoli che cadono sotto le mie grinfie.

Pubblicato da

Recent Posts

Final Fantasy: il capitolo più popolare della saga arriva su Android e iOS

La saga di Final Fantasy è pronta a tornare sul mercato mobile, questa volta con…

Si, Sony vuole veramente comprarsi Elden Ring (ma è ancora tutto da vedere)

Elden Ring potrebbe ben presto diventare un titolo di Sony: l'azienda molto vicina all'acquisto del…

Android 16, iniziano ad emergere i primi dettagli certi: cosa dobbiamo aspettarci

Android 16 è pronto a cambiare e anche nettamente tutti i nostri dispositivi appena sarà…

Come leggere on line una raccomandata di Poste senza andare in ufficio

C'è la possibilità di leggere e di ritirare le raccomandate online. La possibilità viene offerta…

Finalmente, solo per PS5 Pro, c’è un nuovo videogioco che gira in 8K

PlayStation 5 Pro è disponibile da meno di un mese, ma già sta dando i…

Pericolo per chi ha un Mac, i cybercriminali li prendono di mira: come riescono a infettarli

Avere un device a prova di cybercriminali è pressoché impossibile e neanche il tuo Mac…