A TechCrunchon olvasható hír kiemeli, hogy nem ez az első ilyen kísérlet: akadt például olyan program, ami a beírt szövegből képet készített, majd abból hangokat, de a MusicLM az első, amely komplex és jó minőségű végterméket tud előállítani. A szoftver működésének az alapja hasonló azokhoz az MI-khez, amelyekről többször írtunk az elmúlt évben a Rakétán. Mindegy, hogy esszét ír József Attila szerelmi költészetéről, festményt készít arról, hogy űrlények érkeznek biciklivel a Fehér Házba, vagy épp hitelesen hangzó mondatokat ad bárkinek a szájába; a lényeg, hogy hatalmas mennyiségű adaton edzik, tanítják a programokat, amelyek egyre ügyesebben tudják utánozni azt, amit korábban láttak.
Ebben az esetben a Google kétszáznyolcvanezer órányi zenét hallgattatott meg az MI-vel, amelyet tíz hivatásos zenész látott el leírásokkal.
A tanulmány szerint nagyjából négy mondatot írtak minden hangmintáról, kitérve például a műfajra, a hangulatra vagy a tempóra. Így aztán, ha azt mondjuk a szoftvernek, hogy generáljon egy "elbűvölő jazz dalt egy emlékezetes szaxofon-szólóval és szólóénekessel", máris megkapjuk a kért hangmintát, ami a készítők szerint konzisztens minőségű marad perceken át. De azt is írhatjuk, hogy "elektronikus zene egy videojátékból, majd meditációs dal egy folyó mellett, majd tűz és tűzijáték", ami így fog szólni. Ez pedig a "reggaeton és az elektronikus zene fúziója, amitől úgy érezzük magunkat, mintha elvesztünk volna az űrben".
Ahogyan a cikk is kiemeli, a figyelemre méltó teljesítmény ellenére nem tökéletes a szoftver: hasonlóan az MI-generálta képekhez, itt is sok az elkent, értelmetlen részlet, apró hibácska. Ami pedig talán még aggasztóbb, hogy a készítők felismerték, hogy az esetek egy százalékában a rendszer egy az egyben koppintja a tanultakat. Épp ezért, a Microsoft hanghamisító szoftveréhez hasonlóan, egyelőre ezt a programot sem hozzák nyilvánosságra. Így legalább a zenészeknek nem kell olyan pert indítaniuk, mint a képzőművészeknek.
(Fotó: Unsplash/Lucas Alexander)