Nem túlzás azt állítani, hogy az elmúlt hónapok a generatív mesterséges intelligencia diadalmenetét hozták, a ChatGPT népszerűségét látva - amely nemrég a valaha volt leggyorsabban növekvő alkalmazássá lépett elő a havi aktív felhasználók számát tekintve - pedig nem meglepő, hogy minden cég igyekszik kiaknázni a területre irányuló figyelmet. Közülük a Microsoft volt a leggyorsabb, akik az OpenAI-jal ápolt szoros kapcsolatnak köszönhetően villámgyorsan integrálták a Bing keresőbe és az Edge böngészőbe is a chatbot továbbfejlesztett változatát, emellett januárban azt is bejelentették, hogy egy saját neurális nyelvi modellen is dolgoznak.
A VALL-E-ről akkor még csak annyit árultak el, hogy a program akár egy néhány másodperces hangfelvétel alapján is képes tökéletesen leutánozni bárkinek a hangját annak minden ismertetőjegyével együtt, beleértve a hangszínt, a hanghordozást és egyéb tényezőket. Azt a Microsoft is felismerte, hogy a deepfake videók és a social engineering korában ez komoly veszélyeket is hordozhat magában, így azt is rögtön bejelentették, hogy a VALL-E-t egyelőre nem teszik elérhetővé a nyilvánosság számára, most viszont adtak egy kis ízelítőt belőle, hogyan lehet egy ilyen technológiát jó célokra felhasználni.
Ahogy arról az Interesting Engineering beszámolt, egy a napokban közzétett tanulmányban a Microsoft munkatársai egy sor demóban mutatták be, hogyan képes a VALL-E pillanatok alatt fordítani egyik nyelvről a másikra úgy, hogy közben megtartja az eredeti beszélő hangjának a jellmezőit, vagyis elméletben a VALL-E segítségével bármilyen nyelven megszólalhatunk a saját hangunkon. Erről az AlphaSignal hírlevél szerzője osztott meg egy rövid videót Twitteren:
Speaking foreign languages with your own voice + accent + emotion will soon be a reality.
Microsoft researchers recently extended VALL-E and trained a multi-lingual conditional codec language model to predict acoustic token sequences.
?https://t.co/nrRVzEKe8b
Sound ON ? pic.twitter.com/1mhoChJzcC— Lior⚡ (@AlphaSignalAI) March 8, 2023
A generatív mesterséges intelligenciában rejlő lehetőségeket természetesen nem csak a Microsoft igyekszik kihasználni. A Google nem sokkal a ChatGPT berobbanása után bejelentette, hogy egy az OpenAI megoldásához hasonló, generatív nyelvi modellen alapuló chatboton dolgoznak, nemrég pedig azt is bejelentették, hogy már folyamatban van egy olyan mesterséges intelligencia fejlesztése is, ami a világ ezer nyelve között tud majd fordítani.
(Borítókép: Kilito Chan/Getty Images)