E quindi, come oggi usiamo ChatGpt per ottenere un racconto o una poesia a partire da una domanda scritta, in futuro saremo capaci di ricavare la musica che desideriamo chiedendo a MusicLM, per esempio, di produrre “la melodia rilassante di un violino accompagnata da un riff di chitarra distorto”.
Nel paper scientifico diffuso da Google, e firmato da diversi ricercatori italiani, ci sono numerosi esempi di suoni e brani molto brevi prodotti da MusicLM, che è stata addestrata con un volume di dati che include 280.000 ore di musica.
Ci sono, per esempio, gli audio prodotti a partire da una descrizione molto dettagliata. Come questa: “Una fusione di reggaeton e musica dance elettronica, con un suono spaziale e ultraterreno. Invita a perdersi nello spazio ed evoca un senso di meraviglia e soggezione, pur essendo ballabile”. I trenta secondi generati da questo testo rispondono, quasi alla perfezione, alla descrizione fornita attraverso le parole.
È il caso di ricordare, a tal proposito, che l’IA generativa – di qualsiasi tipo – per dare il meglio ha bisogno di essere guidata il più possibile dalle parole degli esseri umani. Una domanda superficiale, generica o stringata, infatti, produrrà sempre un contenuto piuttosto banale e di scarsa qualità. Il segreto, dunque, sta nel cosiddetto ‘prompt’, vale a dire il comando testuale che viene impartito all’intelligenza artificiale per ottenere non solo testo, ma anche immagini (si pensi a Dall-E e Midjourney) o, appunto, suoni.
Con MusicLM, oltre al testo, si può usare una melodia preesistente per influenzare ogni prompt. Nello studio pubblicato da Google c’è un esempio di questa tecnica applicata a “Bella ciao”. Si offrono all’IA i primi dieci secondi di questo brano, semplicemente fischiettati o canticchiati, e poi si specifica con un prompt testuale la versione alternativa che si intende ottenere. E così, magicamente, “Bella ciao” viene eseguita da “un coro a cappella”, oppure risuona sotto forma di “assolo di chitarra”, o ancora come il risultato di “un gruppo jazz provvisto di sassofono”.
La creatività di MusicLM può produrre risultati impensati. Vi siete mai chiesti che suono ha un quadro? Ebbene i ricercatori di Google lo hanno domandato all’IA, fornendo la descrizione testuale di capolavori dell’arte come “La persistenza della memoria” di Salvador Dalì. È bastato inserire, come prompt, un estratto dalla voce dedicata a questo dipinto dall’Enciclopedia Britannica, per ottenere 30 secondi di una melodia eterea caratterizzata dalle note di un piano.
Ma non finisce qui. All’IA si può chiedere anche di impostare il livello di esperienza di un musicista. “Suona come un pianista principiante”, per esempio, oppure “come un pianista professionista”. O, all’estremo, come “un pianista professionista follemente veloce”.
Ciò che non è ancora in grado di fare MusicLM, invece, è produrre un canto con versi sensati, parole chiare e distinte. Tutto si amalgama, quando ci prova, con un effetto simile a quello che si ottiene quando si chiede a una IA di generare una caricatura a partire da un nostro selfie: il risultato non ci somiglia mai fino in fondo, è spesso il frutto dell’unione di volti pescati dalla banca dati da cui impara ogni modello.
“MusicLM genera musica a 24 kHz che rimane coerente per diversi minuti – si legge nel paper firmato dai ricercatori Google -. I nostri esperimenti mostrano che MusicLM supera i modelli precedenti sia in termini di qualità audio che di aderenza alla descrizione testuale”.
In effetti, esistono già modelli di intelligenza artificiale simili a MusicLM. Uno di questi, Dance Diffusion, è stato sviluppato proprio da Google. Ma ce ne sono altri estremamente curiosi, come per esempio Riffusion che consente di generare musica – incredibilmente – a partire da un’immagine, per la precisione da uno spettrogramma. Ma nessuna di queste intelligenze artificiali, finora, era stata in grado di raggiungere la complessità sonora e l’alta fedeltà che contraddistinguono MusicLM.
Per ora parliamo solo di un paper scientifico, vale a dire dello studio di una tecnologia che è ancora in fase di sperimentazione e soprattutto che non è ancora aperta al pubblico, ma i risultati del lavoro di Google sono abbastanza impressionanti e lasciano intendere, ancora una volta, quanto l’IA cambierà (e semplificherà) il modo in cui produciamo contenuti pensati per le masse.
Per il testo e le immagini la rivoluzione è già in corso. Sull’audio ci siamo quasi. E anche i video, presto, potranno essere generati velocemente da un’intelligenza artificiale.
Ma il punto di partenza, l’immaginazione dietro ogni prompt, continuerà a essere ‘umano’. Solo un uomo, infatti, può arrivare a chiedersi che colonna sonora può avere un quadro.
Bella Ciao e l’intelligenza artificiale. Questo testo è di difficile lettura perché ci sono troppi grassetti. Troppi disturbano. 1. Lasciatene solo due o tre essenziali. 2. più frasi contengono più di 25 parole: individuatele e correggetene qualcuna, non necessariamente tutte, per migliorare la leggibilità del testo. Infine disegnate la mappa mentale del testo.