La musica sta per cambiare per sempre? Con l’avvento delle IA molti ambiti prerogativa dell’ingegno umano devono porsi questa domanda, perché le IA promettono di fare tutto meglio e più velocemente. Si può comporre una canzone in pochi secondi? Nel prossimo futuro forse sarà così.
Nel mondo in rapida evoluzione dell’intelligenza artificiale, ogni settore sta sperimentando l’innovazione e la trasformazione di processi che prima erano una prerogativa del pensiero umano. Certo, l’aiuto tecnologico in tempi moderni è un fatto, ma la possibilità di comporre, scrivere, creare dando solo un input di poche righe è un’altra cosa. Un recente sviluppo degno di nota è Stable Audio, il nuovo modello di intelligenza artificiale “da testo ad audio” annunciato da Stability AI. Questo modello promette di rivoluzionare la produzione audio consentendo agli utenti di generare musica e suoni di alta qualità a partire da semplici descrizioni scritte.
Stability AI è la stessa società che ha finanziato la creazione di Stable Diffusion, un modello di sintesi di immagini a diffusione latente rilasciato nel 2022. Ora, con Stable Audio, l’azienda si espande nell’ambito dell’audio, portando la sua esperienza nella generazione creativa a un nuovo livello.
Uno degli aspetti più impressionanti di Stable Audio è la qualità audio dei campioni generati. Questo modello sembra rappresentare un significativo miglioramento rispetto ai precedenti generatori di audio basati sull’intelligenza artificiale. La promessa di poter digitare descrizioni come “musica introduttiva per un film horror” o “suono delle ruote di un’auto sull’asfalto” e ottenere risultati sonori di alta qualità è allettante e potrebbe rivoluzionare il modo in cui vengono creati i contenuti audio, utili non solo per progetti musicali, ma anche per cortometraggi e produzioni visive che hanno bisogno di un supporto sonoro.
Stable Audio: una rivoluzione in campo sonoro
Stable Audio funziona attraverso una combinazione di diverse componenti. Una parte del sistema riduce il rumore non necessario e mantiene solo le caratteristiche audio importanti, rendendo il modello più veloce nell’apprendimento e nella generazione di nuovo audio. Un’altra parte utilizza il testo delle descrizioni per guidare il tipo di audio generato. Questa architettura altamente efficiente è in grado di eseguire il rendering di 95 secondi di audio stereo a una frequenza di campionamento di 44,1 kHz in meno di un secondo su una GPU Nvidia A100, che è notevolmente più potente delle GPU montata nei PC da gaming.
Stable Audio non è il primo generatore musicale basato su tecniche di diffusione latente, ma è sicuramente uno dei più avanzati. L’audio stereo a 44,1 kHz rappresenta un passo avanti significativo rispetto a precedenti modelli e promette di portare l’audio generato dall’intelligenza artificiale a nuovi livelli di fedeltà.
La disponibilità di Stable Audio sarà in due versioni: una gratuita e una Pro a $12 al mese. Con l’opzione gratuita, gli utenti potranno generare fino a 20 tracce al mese, ciascuna con una lunghezza massima di 20 secondi. Il piano Pro offre ulteriori vantaggi, consentendo la generazione di 500 tracce al mese e una lunghezza massima di 90 secondi. Inoltre, è previsto che Stability rilascerà modelli open source basati sull’architettura di Stable Audio, offrendo opportunità per lo sviluppo e l’innovazione nell’ambito della generazione audio.
La grande domanda che ci si pone è se gli artisti musicali e i professionisti del settore accetteranno questa nuova tecnologia o se la respingeranno. La storia delle proteste nell’ambito delle arti visive e del doppiaggio suggerisce che l’intelligenza artificiale potrebbe non sostituire completamente gli esseri umani nel processo creativo, ma potrebbe diventare un potente strumento nelle mani dei professionisti della produzione audio. L’audio generato dall’IA potrebbe diventare un complemento alla creatività umana, consentendo nuove forme di espressione e produzione audio. In ogni caso, Stable Audio segna un passo importante nella direzione dell’innovazione nel campo dell’audio generato dall’intelligenza artificiale.