Sono passati solo cinque anni da quando la band punk elettronica YACHT è entrata in studio di registrazione con un compito arduo: avrebbero addestrato un'intelligenza artificiale su 14 anni della loro musica, quindi avrebbero sintetizzato i risultati nell'album "Chain Tripping"."Non mi interessa essere una reazionaria", ha detto Claire L. Evans, membro di YACHT e scrittrice di tecnologia, in un documentario sull'album."Non voglio tornare alle mie radici e suonare la chitarra acustica perché sono così spaventato dall'imminente apocalisse dei robot, ma non voglio nemmeno saltare in trincea e dare il benvenuto ai nostri nuovi padroni dei robot".Ma i nostri nuovi padroni dei robot stanno facendo molti progressi nello spazio della generazione musicale AI.Anche se "Chain Tripping" nominato ai Grammy è stato rilasciato nel 2019, la tecnologia alla base sta già diventando obsoleta.Ora, la startup dietro il generatore di immagini AI open source Stable Diffusion ci sta spingendo di nuovo avanti con il suo prossimo atto: fare musica.Harmonai è un'organizzazione con il sostegno finanziario di Stability AI, la startup londinese dietro Stable Diffusion.Alla fine di settembre, Harmonai ha rilasciato Dance Diffusion, un algoritmo e un insieme di strumenti in grado di generare clip musicali allenandosi su centinaia di ore di brani esistenti."Ho iniziato il mio lavoro sulla diffusione dell'audio più o meno nello stesso periodo in cui ho iniziato a lavorare con Stability AI", ha detto a TechCrunch Zach Evans, che dirige lo sviluppo di Dance Diffusion."Sono stato coinvolto nell'azienda a causa del mio lavoro di sviluppo con [l'algoritmo di generazione di immagini] Disco Diffusion e ho deciso rapidamente di passare alla ricerca sull'audio.Per facilitare il mio apprendimento e la mia ricerca e creare una comunità incentrata sull'IA audio, ho avviato Harmonai".Dance Diffusion rimane in fase di test: al momento, il sistema può generare clip della durata di pochi secondi.Ma i primi risultati forniscono uno sguardo allettante su quello che potrebbe essere il futuro della creazione musicale, sollevando allo stesso tempo interrogativi sul potenziale impatto sugli artisti.L'emergere di Dance Diffusion arriva diversi anni dopo che OpenAI, il laboratorio con sede a San Francisco dietro DALL-E 2, ha dettagliato il suo grande esperimento con la generazione musicale, soprannominato Jukebox.Dato un genere, un artista e un frammento di testo, Jukebox potrebbe generare musica relativamente coerente completa di voci.Ma le canzoni prodotte da Jukebox mancavano di strutture musicali più grandi come i ritornelli che si ripetono e spesso contenevano testi senza senso.AudioLM di Google, dettagliato per la prima volta all'inizio di questa settimana, mostra più promesse, con una straordinaria capacità di generare musica per pianoforte con un breve frammento di esecuzione.Ma non è stato open source.Dance Diffusion mira a superare i limiti dei precedenti strumenti open source prendendo in prestito la tecnologia da generatori di immagini come Stable Diffusion.Il sistema è noto come modello di diffusione, che genera nuovi dati (ad es. canzoni) imparando a distruggere e recuperare molti campioni di dati esistenti.Man mano che alimenta i campioni esistenti, ad esempio l'intera discografia degli Smashing Pumpkins, il modello migliora nel recuperare tutti i dati che aveva precedentemente distrutto per creare nuove opere.Kyle Worrall, un dottorato di ricercastudente dell'Università di York nel Regno Unito che studia le applicazioni musicali dell'apprendimento automatico, ha spiegato le sfumature dei sistemi di diffusione in un'intervista a TechCrunch:"Nell'addestramento di un modello di diffusione, i dati di addestramento come il set di dati MAESTRO delle esecuzioni pianistiche vengono 'distrutti' e 'recuperati' e il modello migliora nell'esecuzione di questi compiti man mano che si fa strada attraverso i dati di addestramento", ha affermato Via Posta Elettronica.“Alla fine il modello addestrato può prendere il rumore e trasformarlo in musica simile ai dati di addestramento (cioè, esibizioni al pianoforte nel caso di MAESTRO).Gli utenti possono quindi utilizzare il modello addestrato per eseguire una delle tre attività: generare nuovo audio, rigenerare l'audio esistente scelto dall'utente o interpolare tra due tracce di input".Non è l'idea più intuitiva.Ma come hanno dimostrato DALL-E 2, Stable Diffusion e altri sistemi simili, i risultati possono essere notevolmente realistici.Ad esempio, dai un'occhiata a questo modello Disco Diffusion ottimizzato sulla musica dei Daft Punk:https://techcrunch.com/wp-content/uploads/2022/10/daft-punk-241.5k.wavO questo trasferimento di stile del tema dei Pirati dei Caraibi al flauto:https://techcrunch.com/wp-content/uploads/2022/10/pirates_2_to_flute_3.wavO questo trasferimento di stile della voce di Smash Mouth al tema di Tetris (sì, davvero):https://techcrunch.com/wp-content/uploads/2022/10/tetris_smashmouth-1.wavO questi modelli, che sono stati messi a punto sulla musica dance senza copyright:https://techcrunch.com/wp-content/uploads/2022/10/demo_00199126.wavhttps://techcrunch.com/wp-content/uploads/2022/10/GARNOS_FineTuneDemo.wavJona Bechtolt di YACHT è rimasta colpita da ciò che Dance Diffusion può creare."La nostra reazione iniziale è stata del tipo, 'Ok, questo è un balzo in avanti rispetto a prima con l'audio grezzo'", ha detto Bechtolt a TechCrunch.A differenza dei popolari sistemi di generazione di immagini, Dance Diffusion è in qualche modo limitato in ciò che può creare, almeno per il momento.Sebbene possa essere messo a punto su un particolare artista, genere o persino strumento, il sistema non è così generale come Jukebox.La manciata di modelli Dance Diffusion disponibili - un miscuglio di Harmonai e dei primi utenti sul server Discord ufficiale, inclusi modelli perfezionati con clip di Billy Joel, The Beatles, Daft Punk e il progetto Song A Day del musicista Jonathan Mann - rimangono all'interno dei rispettivi corsie.Vale a dire, il modello Jonathan Mann genera sempre canzoni nello stile musicale di Mann.E la musica generata da Dance Diffusion non ingannerà nessuno oggi.Sebbene il sistema possa "trasferire lo stile" delle canzoni applicando lo stile di un artista a una canzone di un altro, essenzialmente creando cover, non può generare clip più lunghe di pochi secondi e testi che non siano senza senso (vedi sotto clip).Questo è il risultato di ostacoli tecnici che Harmonai deve ancora superare, afferma Nicolas Martel, uno sviluppatore di giochi autodidatta e membro di Harmonai Discord.https://techcrunch.com/wp-content/uploads/2022/10/demo_453001_37b18eae57e0eb82ac04.wav"Il modello viene addestrato solo su campioni brevi di 1,5 secondi alla volta, quindi non può apprendere o ragionare sulla struttura a lungo termine", ha detto Martel a TechCrunch."Gli autori sembrano dire che questo non è un problema, ma nella mia esperienza - e comunque logicamente - non è stato molto vero".Evans e Bechtolt di YACHT sono preoccupati per le implicazioni etiche dell'IA – dopotutto sono artisti che lavorano – ma osservano che questi “trasferimenti di stile” fanno già parte del naturale processo creativo."È qualcosa che gli artisti stanno già facendo in studio in un modo molto più informale e sciatto", ha detto Evans."Ti siedi per scrivere una canzone e dici, voglio una linea di basso autunnale e una melodia di B-52, e voglio che suoni come se provenisse da Londra nel 1977."Ma a Evans non interessa scrivere la versione oscura e post-punk di "Love Shack".Piuttosto, pensa che la musica interessante provenga dalla sperimentazione in studio — anche se prendi ispirazione dai B-52, il tuo prodotto finale potrebbe non portare i segni di quelle influenze."Nel tentativo di raggiungere questo obiettivo, fallisci", ha detto Evans a TechCrunch.“Una delle cose che ci ha attratto degli strumenti di apprendimento automatico e dell'arte dell'intelligenza artificiale sono stati i modi in cui stavano fallendo, perché questi modelli non sono perfetti.Stanno solo indovinando cosa vogliamo.Evans descrive gli artisti come "gli ultimi beta tester", utilizzando strumenti al di fuori dei modi in cui erano destinati a creare qualcosa di nuovo."Spesso, l'output può essere davvero strano, danneggiato e sconvolgente, oppure può suonare davvero strano e nuovo, e quel fallimento è delizioso", ha detto Evans.Supponendo che Dance Diffusion un giorno raggiunga il punto in cui può generare intere canzoni coerenti, sembra inevitabile che vengano alla ribalta importanti questioni etiche e legali.Hanno già, anche se intorno a sistemi di intelligenza artificiale più semplici.Nel 2020, l'etichetta discografica di Jay-Z ha presentato scioperi sul copyright contro un canale YouTube, Vocal Synthesis, per aver utilizzato l'intelligenza artificiale per creare cover di Jay-Z di canzoni come "We Didn't Start the Fire" di Billy Joel.Dopo aver inizialmente rimosso i video, YouTube li ha ripristinati, trovando che le richieste di rimozione erano "incomplete".Ma la musica deepfak si trova ancora su un terreno legale oscuro.Forse anticipando le sfide legali, OpenAI da parte sua ha aperto Jukebox con una licenza non commerciale, vietando agli utenti di vendere qualsiasi musica creata con il sistema."C'è poco lavoro per stabilire quanto sia originale l'output degli algoritmi generativi, quindi l'uso della musica generativa nelle pubblicità e in altri progetti corre ancora il rischio di violare accidentalmente il copyright e come tale di danneggiare la proprietà", ha affermato Worrall."Questa zona ha bisogno di essere ulteriormente studiata".Un articolo accademico scritto da Eric Sunray, ora stagista legale presso la Music Publishers Association, sostiene che i generatori di musica AI come Dance Diffusion violano il copyright musicale creando "arazzi di audio coerente dalle opere che ingeriscono durante la formazione, violando così il copyright degli Stati Uniti Diritto di riproduzione dell'atto".Dopo il rilascio di Jukebox, i critici si sono anche chiesti se addestrare modelli di IA su materiale musicale protetto da copyright costituisca un uso corretto.Preoccupazioni simili sono state sollevate in merito ai dati di addestramento utilizzati nei sistemi di intelligenza artificiale per la generazione di immagini, codice e testo, che spesso vengono eliminati dal Web all'insaputa dei creatori.Tecnologi come Mat Dryhurst e Holly Herndon hanno fondato Spawning AI, un set di strumenti di intelligenza artificiale creati da artisti per artisti.Uno dei loro progetti, "Have I Been Training", consente agli utenti di cercare la loro opera d'arte e vedere se è stata incorporata in un set di formazione AI senza il loro consenso."Stiamo mostrando alle persone cosa esiste all'interno dei set di dati popolari utilizzati per addestrare i sistemi di immagini AI e inizialmente stiamo offrendo loro strumenti per rinunciare o aderire alla formazione", ha detto Herndon a TechCrunch via e-mail."Stiamo anche parlando con molte delle più grandi organizzazioni di ricerca per convincerle che i dati consensuali sono vantaggiosi per tutti".Ma questi standard sono - e probabilmente rimarranno - volontari.Harmonai non ha detto se li adotterà."Per essere chiari, Dance Diffusion non è un prodotto e attualmente è solo ricerca", ha affermato Zach Evans di Stability AI.“Tutti i modelli che vengono ufficialmente rilasciati come parte di Dance Diffusion sono addestrati su dati di pubblico dominio, dati con licenza Creative Commons e dati forniti da artisti nella comunità.Il metodo qui è solo opt-in e non vediamo l'ora di lavorare con gli artisti per aumentare i nostri dati attraverso ulteriori contributi di opt-in, e mi congratulo per il lavoro di Holly Herndon e Mat Dryhurst e della loro nuova organizzazione Spawning.Evans e Bechtolt di YACHT vedono parallelismi tra l'emergere dell'arte generata dall'IA e altre nuove tecnologie."È particolarmente frustrante vedere gli stessi schemi riprodursi in tutte le discipline", ha detto Evans a TechCrunch.“Abbiamo visto il modo in cui le persone pigre riguardo alla sicurezza e alla privacy sui social media possono portare a molestie.Quando strumenti e piattaforme sono progettati da persone che non pensano alle conseguenze a lungo termine e agli effetti sociali del loro lavoro in questo modo, le cose accadono".Jonathan Mann, lo stesso Mann la cui musica è stata utilizzata per addestrare uno dei primi modelli di Dance Diffusion, ha detto a TechCrunch di avere sentimenti contrastanti sui sistemi di IA generativa.Mentre crede che Harmonai sia stato "premuroso" riguardo ai dati che stanno usando per l'allenamento, altri come OpenAI non sono stati così coscienziosi."Jukebox è stato addestrato su migliaia di artisti senza il loro permesso - è sbalorditivo", ha detto Mann.“È strano usare Jukebox sapendo che molta musica di gente è stata usata senza il loro permesso.Siamo in un territorio inesplorato".Dal punto di vista dell'utente, Andy Baio di Waxy ipotizza in un post sul blog che la nuova musica generata da un sistema di intelligenza artificiale sarebbe considerata un'opera derivata, nel qual caso solo gli elementi originali sarebbero protetti da copyright.Naturalmente, non è chiaro cosa possa essere considerato "originale" in tale musica.Usare questa musica commercialmente significa entrare in acque inesplorate.È più semplice se la musica generata viene utilizzata per scopi protetti dal fair use, come la parodia e il commento, ma Baio si aspetta che i tribunali debbano emettere giudizi caso per base.Secondo Herndon, la legge sul copyright non è strutturata per regolamentare adeguatamente la produzione artistica dell'IA.Evans sottolinea anche che l'industria musicale è stata storicamente più litigiosa del mondo dell'arte visiva, motivo per cui Dance Diffusion è stato esplicitamente addestrato su un set di dati di materiale privo di copyright o inviato volontariamente, mentre DALL-E mini sputerà facilmente un Pikachu se inserisci il termine "Pokémon"."Non mi illudo che sia perché pensavano che fosse la cosa migliore da fare eticamente", ha detto Evans."È perché la legge sul copyright nella musica è molto severa e applicata in modo più aggressivo".Gordon Tuomikoski, uno specialista in arti presso l'Università del Nebraska-Lincoln che modera la comunità ufficiale di Stable Diffusion Discord, crede che Dance Diffusion abbia un immenso potenziale artistico.Nota che alcuni membri del server Harmonai hanno creato modelli addestrati su "webs" dubstep, kick e rullanti e voci di backup, che hanno messo insieme in canzoni originali."Come musicista, mi vedo sicuramente usare qualcosa come Dance Diffusion per campioni e loop", ha detto Tuomikoski a TechCrunch via e-mail.Martel vede Dance Diffusion un giorno sostituire i VST, lo standard digitale utilizzato per collegare sintetizzatori e plug-in di effetti con sistemi di registrazione e software di editing audio.Ad esempio, dice, un modello addestrato sul jazz rock degli anni '70 e sulla musica di Canterbury introdurrà in modo intelligente nuove "trame" nella batteria, come sottili rulli di batteria e "note fantasma", nello stesso modo in cui potrebbero fare artisti come John Marshall, ma senza il lavoro di ingegneria manuale normalmente richiesto.Prendi questo modello di Dance Diffusion della batteria senegalese, ad esempio:https://techcrunch.com/wp-content/uploads/2022/10/download.wavE questo modello di lacci:https://techcrunch.com/wp-content/uploads/2022/10/demo_195501_868b43fdb72ebce14c69.wavE questo modello di coro maschile che canta in chiave di re su tre ottave:https://techcrunch.com/wp-content/uploads/2022/10/3Drone.wavE questo modello delle canzoni di Mann messo a punto con musica dance esente da diritti d'autore:https://techcrunch.com/wp-content/uploads/2022/10/demo_00594601.wav“Normalmente, dovresti annotare le note in un file MIDI e progettare il suono molto duramente.Raggiungere un suono umanizzato in questo modo non solo richiede molto tempo, ma richiede una comprensione profondamente intima dello strumento che stai progettando il suono", ha affermato Martel."Con Dance Diffusion, non vedo l'ora di inserire il miglior rock prog degli anni '70 nell'IA, un'infinita orchestra infinita di musicisti virtuosi che suonano Pink Floyd, Soft Machine e Genesis, trilioni di nuovi album in stili diversi, remixati in nuovi modi iniettando alcuni Aphex Twin e Vaporwave, tutti performanti al culmine della creatività umana, il tutto in collaborazione con i tuoi gusti personali.Mann ha ambizioni più grandi.Attualmente sta usando una combinazione di Jukebox e Dance Diffusion per giocare con la generazione musicale e prevede di rilasciare uno strumento che consentirà ad altri di fare lo stesso.Ma spera un giorno di utilizzare Dance Diffusion, possibilmente in combinazione con altri sistemi, per creare una "versione digitale" di se stesso in grado di continuare il progetto Song A Day dopo la sua morte."La forma esatta che assumerà non è ancora del tutto chiara... [ma] grazie alla gente di Harmonai e ad altri che ho incontrato nel Jukebox Discord, negli ultimi mesi mi sembra di aver fatto passi da gigante più che mai negli ultimi quattro anni", ha detto Mann."Ho oltre 5.000 canzoni di Song A Day, complete di testi e ricchi metadati, con attributi che vanno dall'umore, genere, tempo, tonalità, fino alla posizione e alla barba (indipendentemente dal fatto che avessi la barba o meno quando ho scritto la canzone).La mia speranza è che, dati tutti questi dati, possiamo creare un modello in grado di creare in modo affidabile nuove canzoni come se le avessi scritte io stesso.Una canzone al giorno, ma per sempre".Se l'IA riesce a creare nuova musica con successo, dove finiscono i musicisti?Evans e Bechtolt di YACHT sottolineano che la nuova tecnologia ha già sconvolto la scena artistica e i risultati non sono stati catastrofici come previsto.Negli anni '80, la UK Musicians Union ha tentato di vietare l'uso dei sintetizzatori, sostenendo che avrebbe sostituito i musicisti e li avrebbe messi senza lavoro."Con i sintetizzatori, molti artisti hanno preso questa nuova cosa e invece di rifiutarla, hanno inventato musica techno, hip hop, post punk e new wave", ha detto Evans."È solo che in questo momento gli sconvolgimenti stanno avvenendo così rapidamente che non abbiamo tempo per digerire e assorbire l'impatto di questi strumenti e dare loro un senso".Tuttavia, YACHT teme che l'IA possa alla fine sfidare il lavoro che i musicisti svolgono nel loro lavoro quotidiano, come scrivere colonne sonore per spot pubblicitari.Ma come Herndon, non pensano che l'IA possa ancora replicare del tutto il processo creativo."Pensare che gli strumenti di intelligenza artificiale sostituiranno l'importanza dell'espressione umana" ha affermato Herndon.“Spero che i sistemi automatizzati sollevino importanti domande su quanto poco noi come società abbiamo valutato l'arte e il giornalismo su Internet.Piuttosto che speculare su narrazioni sostitutive, preferisco pensare a questa come a una nuova opportunità per rivalutare gli esseri umani".L'IA sta migliorando nel generare porno.Potremmo non essere preparati alle conseguenze.