ChatGPT sta aiutando anche le persone con problemi di vista a scoprire il mondo circostante: sembra quasi una seconda vista
Per il suo 38° compleanno, Chela Robles e la sua famiglia si sono recati a One House, la sua pasticceria preferita di Benicia, in California, per un panino con la punta di petto e dei brownies. Durante il viaggio di ritorno, ha toccato un piccolo touchscreen sulla tempia e ha chiesto una descrizione del mondo esterno. “Un cielo nuvoloso”, ha risposto attraverso i suoi Google Glass.
Robles ha perso la capacità di vedere dall’occhio sinistro all’età di 28 anni e dall’occhio destro un anno dopo. La cecità, dice, impedisce di cogliere piccoli dettagli che aiutano le persone a entrare in contatto tra loro, come le espressioni e le indicazioni facciali. Suo padre, per esempio, fa molte battute secche, quindi lei non può sempre essere sicura di quando sia serio. “Se un’immagine può raccontare 1.000 parole, immaginate quante parole può raccontare un’espressione”, dice Robles.
Come raccontare un mondo intero
In passato Robles ha provato a rivolgersi a servizi che la mettono in contatto con persone vedenti. Ad aprile, però, ha sottoscritto una prova con Ask Envision, un assistente AI che utilizza il GPT-4 di OpenAI, un modello multimodale in grado di recepire immagini e testi e di fornire risposte di tipo conversazionale. Il sistema è uno dei tanti prodotti di assistenza per ipovedenti che iniziano a integrare modelli linguistici, promettendo di fornire agli utenti molti più dettagli visivi sul mondo che li circonda e molta più indipendenza.
Envision è stata lanciata come applicazione per smartphone per la lettura del testo nelle foto nel 2018 e su Google Glass all’inizio del 2021. All’inizio di quest’anno, l’azienda ha iniziato a testare un modello di conversazione open source in grado di rispondere a domande di base. Poi Envision ha incorporato il GPT-4 di OpenAI per le descrizioni da immagine a testo.
Be My Eyes, un’applicazione di 12 anni che aiuta gli utenti a identificare gli oggetti che li circondano, ha adottato il GPT-4 a marzo. Microsoft, che è uno dei principali investitori di OpenAI, ha iniziato a testare l’integrazione del GPT-4 per il suo servizio SeeingAI, che offre funzioni simili, secondo Sarah Bird, responsabile AI di Microsoft.
Nella sua precedente versione, Envision leggeva il testo di un’immagine dall’inizio alla fine. Ora è in grado di riassumere il testo di una foto e di rispondere alle domande successive. Ciò significa che ora Ask Envision è in grado di leggere un menu e di rispondere a domande come prezzi, restrizioni dietetiche e opzioni per il dessert.
Una seria svolta
L’integrazione dell’intelligenza artificiale nei prodotti per non vedenti potrebbe avere un impatto profondo sugli utenti, sostiene Sina Bahram, informatico non vedente e responsabile di una società di consulenza che consiglia musei, parchi a tema e aziende tecnologiche come Google e Microsoft in materia di accessibilità e inclusione.
Bahram ha utilizzato Be My Eyes con GPT-4 e afferma che il modello linguistico di grandi dimensioni fa una differenza di “ordini di grandezza” rispetto alle generazioni precedenti di tecnologia, grazie alle sue capacità e al fatto che i prodotti possono essere utilizzati senza sforzo e non richiedono competenze tecniche.
Due settimane fa, racconta, stava camminando per strada a New York quando il suo socio d’affari si è fermato per dare un’occhiata più da vicino a qualcosa. Bahram ha usato Be My Eyes con GPT-4 per scoprire che si trattava di una collezione di adesivi, alcuni di tipo fumettistico, oltre a testi e graffiti. Questo livello di informazioni è “qualcosa che un anno fa non esisteva al di fuori del laboratorio”, dice. “Non era possibile”.
Le IA sono occhi affidabili?
Danna Gurari, assistente alla cattedra di informatica presso l’Università del Colorado a Boulder, afferma che è entusiasmante che i non vedenti siano all’avanguardia nell’adozione della tecnologia, anziché un ripensamento, ma è anche un po’ spaventoso che una popolazione così vulnerabile debba affrontare la confusione e l’incompletezza del GPT-4.
Nei primi test di alcuni modelli di immagini-testo, Gurari ha scoperto che possono inventare informazioni, o “allucinare”. “La maggior parte di ciò di cui ci si può fidare sono solo gli oggetti di alto livello, come ‘vedo un’auto, vedo una persona, vedo un albero'”, dice Gurari. Non si tratta di informazioni banali, ma un utente non può necessariamente fidarsi del fatto che l’intelligenza artificiale gli dica correttamente cosa c’è nel suo panino.
Se un’intelligenza artificiale sbaglia la descrizione di un farmaco, ad esempio, potrebbe avere conseguenze pericolose per la vita.
L’uso di modelli linguistici di grandi dimensioni, promettenti ma difettosi, per aiutare le persone non vedenti a “vedere” il mondo, può anche esporle alla tendenza dell’IA a identificare erroneamente l’età, la razza e il sesso delle persone. Gli insiemi di dati utilizzati per addestrare l’intelligenza artificiale sono notoriamente distorti e parziali, e codificano pregiudizi ed errori.
Bahram riconosce che si tratta di rischi e suggerisce che i sistemi forniscano agli utenti un punteggio di fiducia in modo che possano prendere decisioni più informate su ciò che l’intelligenza artificiale pensa di vedere. Ma sostiene che le persone non vedenti hanno diritto alle stesse informazioni delle persone vedenti.