A Meta közleménye szerint a Voicebox egy olyan generatív MI-rendszer, amely nagy segítséget jelenthet majd például a hangszerkesztéssel foglalkozók számára, illetve lehetővé teszi a láttássérülteknek is, hogy ismerőseik hangján hallják azok írásban küldött üzeneteit. A vállalat által technológiai áttörésként értékelt alkalmazás mindössze két másodperces hangminta alapján képes lesz imitálni az adott személy beszédstílusát, természetes, autentikus hatást keltve.
A Voicebox képes újra létrehozni a beszédek olyan részét, amelyet valamilyen zaj megszakított, de a hibásan kimondott szavakat is le tudja majd cserélni anélkül, hogy újra fel kelljen venni a teljes beszédet.
Például kijelölhetjük és törölhetjük az adott beszéd egy bizonyos részét, amelyet egy kutya ugatása, vagy autó dudálása megzavart, és utasíthatjuk a Voiceboxot, hogy generálja újra ezt a szegmenst. Gyakorlatilag úgy működik majd, mint egy radír a hangszerkesztésben.
Az úgynevezett nyelvközi stílusátvitelnek köszönhetően, egy adott beszédrészlet alapján a Voicebox képes lesz angolul, franciául, németül, spanyolul, lengyelül vagy portugálul is felolvasni az adott szöveget, még akkor is, ha a mintául szolgáló beszéd és a szöveg különböző nyelven van. Ez a funkció a jövőben hatalmas előrelépést jelenthet, segítségével ugyanis a más nyelveket beszélő emberek is természetes módon tudnak kommunikálni, képesek lesznek „megszólalni” idegen nyelveken, akár nyelvtudás nélkül is. A „sokszínű mintavétellel” a Voicebox a fejlesztők szerint az emberi beszédet megtévesztésig hasonlóan képes lesz utánozni, így a gépies fordítások helyett alkalmas lesz a természetes, autentikus kommunikációra is.
A fentiek alapján tényleg rendkívüli funkciókkal rendelkező eszköztől lehet szó, azonban arra még várnunk kell, hogy magunk tesztelhessük. A vállalat egy másik közleménye szerint ugyanis a Meta éppen azért nem teszi még nyilvánosan elérhetővé az új fejlesztést, mert a technológia sokoldalúsága miatt egyszerűen túl nagy a visszaélések kockázata. Közzététel helyett a fejlesztők így egyelőre csak egy kutatási eredményeket részletező dokumentumot és néhány hangmintát osztottak meg a Voicebox képességeinek bemutatására. A Meta láthatóan nagy hangsúlyt fektet az átláthatóságra is: a technológia fejlesztésének részletei mellett ugyanis azt is elárulták, hogy a Voicebox tanítására 50 ezer órányi, kizárólag köztulajdonban lévő angol, francia, spanyol, német, lengyel és portugál hangoskönyvet használtak. Ezzel a lépéssel nem csak a szerzői joggal kapcsolatos, ChatGPT esetében is felmerülő aggályokat előzhetik meg, de felkészülhetnek az EU rohamléptekkel készülő új, mesterséges intelligencia-rendszereket szabályozó törvénycsomagjára is.
(Borítókép: Getty Images/ArtemisDiana)