Le IA ci permettono di materializzare immagini che sarebbero esistite solo nei nostri sogni, con un semplice comando testuale, e di immagini da sogno si tratta, a ben vedere quel che è riuscito ad ottenere un utente utilizzando solo Stable Diffusion (con un piccolo aiuto).
Dove il sogno diventa immagine
La particolarità delle immagini che potete vedere, è la perfezione della loro geometria, che è notoriamente qualcosa di molto difficile da raggiungere non solo per un IA, ma anche per una mano umana esperta.
“Ugleh”, un utente molto attivo sul subreddit di Stable Diffusion, è il “padre” di queste immagini, che hanno intrigato molti sia su Reddit che su X (fu Twitter), raggiungendo i 145.000 likes. Le reazioni a questo nuovo metodo sono risultate entusiaste, da coloro che si complimentano con Ugleh per essere riuscito ad ottenere un risultato tale, a chi si augura che potessero rappresentare un passo avanti nel mondo dell’arte IA. Anche Kali Yuga, nota AI artist su X si è complimentata con l’autore, affermando:
“Onestamente, ho visto UN SACCO di arte IA, sono in questo mondo da molto molto tempo, e questi sono i pezzi più belli che io abbia mai visto. Davvero ben fatto”.
Kali Yuga, AI artist
Ancora una nota di merito è arrivata dal co-founder di Y-Combinator, acceleratore di startup, Paul Graham, che afferma “Questo è il momento in cui l’arte IA passa il Test di Turing secondo me”, facendo riferimento metaforicamente al famoso test per verificare se il comportamento di un’ia sia indistinguibile da quello umano.
Ovviamente non sono mancate le critiche da parte di alcuni utenti X, che hanno sottolineato come l’IA sia ancora un po’ acerba, e faccia errori che una mano umana non commetterebbe, come errori nel posizionare ombre, o il rumore di fondo caratteristico delle immagini IA quando si fa zoom nelle immagini generate.
Ecco la magia di ControlNet
Pur essendo Stable Diffusion una rete neurale addestrata utilizzando milioni di immagini recuperate da Internet, il segreto qui è un secondo software, ControlNet.
Apparso in uno studio scientifico titolato “Aggiungere Controllo Condizionale ai Modelli di Diffusione Text-to-Image” di Lvming Zhang, Anyi Rao e Maneesh Agrawala ad inizio 2023, è diventato sin da subito utilizzatissimo nella community di Stable Diffusion.
Come interviene ControlNet? Normalmente con Stable Diffusion basterebbe suggerire con un comando, o “prompt“, quel che vogliamo vedere (nella funzione Text-to-Image), o alimentare la generazione con una prima immagine da cui il software prenderà “ispirazione” (Image-to-Image). ControlNet aggiungere una guida aggiuntiva alla generazione, estrapolando dati come profondità, pose dei soggetti e angoli degli oggetti da un’immagine; in tal modo l’immagine Stable Diffusion sarà capace di generare immagini molto più fedeli al soggetto alimentato in ControlNet.
Utilizzando lo stesso metodo, anche altri utenti si sono sbizzarriti, creando animazioni surreali, villaggi medievali da sogno e anche una fusione tra un panorama e il famoso quadro di Johannes Vermeer “Ragazza con l’orecchino di perla”.
Per quanto le creazioni di Ugleh abbiano avuto un grandissimo successo, e alcuni abbiano già proposto di renderle delle NFT, l’autore ha dichiarato in un post su X: “Apprezzo i riscontri positivi verso l’arte IA, ma non pianifico di fare soldi con le mie ultime generazioni, e non lascerò interviste ufficiali. Sono solo un nerd smanettone che ha sperimentato con una nuova tecnica in ControlNet”
I dust off my Twitter to say… I appreciate all the positive feedback toward AI art, I do not plan on making money from my latest generations, and I will not be doing any official interviews. I am just a normal tech-savvy AI nerd who experimented with a new controlnet technique. — MrUgleh (@MrUgleh) 15 settembre 2023
Se volete cimentarvi con questa tecnica, ci sono diversi buoni tutorial su come utilizzare ControlNet; tra cui lo stesso processo step-by-step pubblicato da Ugleh (che ha anche pubblicato tramite Imgur le immagini della spirale e della scacchiera da lui utilizzate).