C%26%238217%3B%C3%A8+un%26%238217%3Baltra+IA+in+giro+ed+%C3%A8+anche+troppo+intelligente%2C+ha+superato+ogni+test+del+Q.I.
player
/fuorigioco/507516-nasce-lia-piu-intelligente-del-mondo-ha-fatto-il-test-del-qi.html/amp/
Fuorigioco

C’è un’altra IA in giro ed è anche troppo intelligente, ha superato ogni test del Q.I.

Una IA super-intelligente in grado di capire non solo i testi scritti, ma anche le immagini, riuscendo anche nel test del QI

Un grande limite delle Intelligenze Artificiali è sempre stato quello della comprensione visiva. Le moderne versioni, come ChatGPT, riescono a comprendere un testo e formulare un pensiero, oppure, come Midjourney, in grado di disegnare immagini artistiche; ma non possono elaborare ancora qualcosa di non testuale.

La situazione, però, potrebbe cambiare presto.

Una nuova IA

I ricercatori di Microsoft hanno presentato Kosmos-1, un modello multimodale che, secondo quanto riferito, è in grado di analizzare le immagini in base ai contenuti, risolvere puzzle visivi, eseguire il riconoscimento di testi visivi, superare test di QI visivi e comprendere istruzioni in linguaggio naturale.

I ricercatori ritengono che l’intelligenza artificiale multimodale – che integra diverse modalità di input come testo, audio, immagini e video – sia un passo fondamentale per la costruzione di un’intelligenza artificiale generale (AGI) in grado di svolgere compiti generali al livello di un essere umano.

Essendo una parte fondamentale dell’intelligenza, la percezione multimodale è una necessità per realizzare l’intelligenza artificiale generale, in termini di acquisizione di conoscenze e di radicamento nel mondo reale

Scrivono i ricercatori nel loro documento accademico, Language Is Not All You Need: Aligning Perception with Language Models

Gli esempi visivi del documento di Kosmos-1 mostrano il modello che analizza le immagini e risponde a domande su di esse, legge il testo di un’immagine, scrive didascalie per le immagini e fa un test di QI visivo con un’accuratezza del 22-26%.

La vera evoluzione

Mentre i media sono in fermento per le notizie sui modelli linguistici di grandi dimensioni (LLM), alcuni esperti di IA indicano l’IA multimodale come un potenziale percorso verso l’intelligenza artificiale generale, una tecnologia ipotetica che sarà apparentemente in grado di sostituire gli esseri umani in qualsiasi compito intellettuale (e in qualsiasi lavoro intellettuale). L’intelligenza artificiale generale è l’obiettivo dichiarato di OpenAI, uno dei principali partner commerciali di Microsoft nel settore dell’IA.

In questo caso, Kosmos-1 sembra essere un progetto puramente Microsoft, senza il coinvolgimento di OpenAI. I ricercatori chiamano la loro creazione “modello linguistico multimodale di grandi dimensioni” (MLLM) perché le sue radici affondano nell’elaborazione del linguaggio naturale, come un LLM di solo testo, come ChatGPT. E si vede: Affinché Kosmos-1 accetti l’input di immagini, i ricercatori devono prima tradurre l’immagine in una serie speciale di token che l’LLM può comprendere.

Microsoft ha addestrato Kosmos-1 utilizzando dati provenienti dal web, tra cui estratti da The Pile (una risorsa testuale inglese di 800 GB) e da Common Crawl. Dopo l’addestramento, ha valutato le capacità di Kosmos-1 su diversi test, tra cui la comprensione del linguaggio, la generazione di linguaggio, la classificazione del testo senza riconoscimento ottico dei caratteri, la didascalia delle immagini, la risposta a domande visive, la risposta a domande su pagine web e la classificazione di immagini a scatto zero. Secondo Microsoft, in molti di questi test Kosmos-1 ha superato gli attuali modelli all’avanguardia.

Ha ancora tanto da imparare

Particolarmente interessante è la prestazione di Kosmos-1 nel test Raven di ragionamento progressivo, che misura il QI visivo presentando una sequenza di forme e chiedendo all’esaminando di completare la sequenza. Per testare Kosmos-1, i ricercatori gli hanno dato in pasto un test compilato, uno alla volta, con ogni opzione completata, e gli hanno chiesto se la risposta era corretta. Kosmos-1 è riuscito a rispondere correttamente a una domanda del test di Raven solo nel 22% dei casi (26% con la messa a punto). Non si tratta affatto di una vittoria schiacciante, e gli errori nella metodologia potrebbero aver influenzato i risultati, ma Kosmos-1 ha battuto il caso (17%) nel test QI Raven.

Tuttavia, se Kosmos-1 rappresenta i primi passi nel campo della multimodalità (un approccio perseguito anche da altri), è facile immaginare che le ottimizzazioni future potrebbero portare a risultati ancora più significativi, consentendo ai modelli di intelligenza artificiale di percepire qualsiasi forma di media e di agire di conseguenza, il che migliorerà notevolmente le capacità degli assistenti artificiali. In futuro, i ricercatori affermano che vorrebbero aumentare le dimensioni del modello Kosmos-1 e integrare anche la capacità di parlare.

Microsoft ha dichiarato che intende mettere Kosmos-1 a disposizione degli sviluppatori, anche se la pagina GitHub citata nel documento non presenta alcun codice specifico per Kosmos al momento della pubblicazione di questo articolo.


Fonte: Language Is Not All You Need: Aligning Perception with Language Models

This post was published on 6 Marzo 2023 8:30

Pubblicato da

Recent Posts

Arriva il nuovo Evangelion e lo puoi “mangiare”: l’assurda collaborazione con McDonald’s

In Giappone arriva l'inaspettata collaborazione tra McDonald's e il brand di Evangelion, con delle sorprese…

Anticipazioni gennaio Il Paradiso delle Signore: Irene confessa il suo amore per lui

Il Paradiso delle Signore tornerà in onda con le nuove puntate a gennaio 2025: ecco…

Paypal 2025: ecco la cifra massima rateizzabile in 3 rate

Su Paypal per il 2025 viene confermata la possibilità di rateizzare un pagamento in tre…

Il giradischi migliore di sempre con il coupon più grande si sempre, approfittane subito

Se siete alla ricerca del miglior giradischi per uso domestico, abbiamo la soluzione che fa…

Google Play Store: addio ufficiale a questa funzione, non potrai più usarla

Per il Play Store la fine dell'anno si sta configurando come un momento di cambiamento.…

Fortnite: una sorpresa nel ghiaccio si presenta ai fan come regalo di Natale

Inizia l'evento Winterfest 2024 di Fortnite e, per l'occasione, arriva in gioco un'ospite d'eccezione: non…