Az Ars Technicán olvasható hír szerint a készítők célja az volt, hogy olyan, jó minőségű hanganyagokat hozhassanak létre, amelyek lehetővé teszik, hogy egy szöveg utólagos szerkesztésével az egész felvétel (illetve "felvétel") megváltozzon. Ehhez a Microsoft szakemberei a Meta EnCodec nevű technológiáját, illetve a szintén a Meta által összegyűjtött, hétezer ember hatvanezer órányi beszédét rögzítő hangmintát használták fel. A cikk kiemeli, hogy míg a hagyományos "szövegből beszéd" (text-to-speech, TTS) rendszerek a hanghullámokat manipulálják, addig a Microsoft fejlesztése komponensekre bontja a feltöltött információkat, majd a korábban "tanultak" alapján megbecsüli, hogy hogyan is hangozna, ha az illető hang tulajdonosa mást mondana. A legjobb eredményeket akkor produkálja a VALL-E, ha a hangminta hasonlít valamelyik hangra az adatbázisból.
A rendszer ráadásul nem csak a beszélő hangfekvését, hanem az érzelmi állapotát is megőrzi, ahogyan a hívás akusztikai körülményeit is.
Vagyis ha kiemelünk egy érzelmes telefonbeszélgetésből egy három másodperces részletet, majd kombináljuk azt a szöveggel, amit hallani szeretnénk, akkor a VALL-E a kettőből létrehoz egy érzelmes telefonbeszélgetésnek tűnő hangfájlt, amelyben az eredeti megszólalót halljuk, amint elmond valamit, amit soha nem mondott valójában. Egy ilyen szoftver képes lehet fantasztikus dolgokra, a The Times például 2018-ban "rögzítette", illetve legenerálta John F. Kennedy beszédét, amelyet a meggyilkolása napján kellett volna elmondania. Ugyanakkor veszélyes precedensek is léteznek: 2021 októberében írtunk arról a Rakétán, hogy bűnözők harmincötmillió dollárt tulajdonítottak el egy cég számlájáról az Egyesült Arab Emirátusokban. A bűntény egyik kulcsmozzanata az volt, hogy az elkövetők felhívták telefonon a bank fiókvezetőjét, tökéletesen utánozva az egyik ügyfelük hangját egy hasonló deepfake-rendszer segítségével.
Valószínűleg a Microsoftnál is olvasták az utóbbi hírt, vagy csak elég élénk a fantáziájuk, ugyanis úgy döntöttek, hogy más, képeket vagy szövegeket létrehozó mesterséges intelligenciákkal szemben a VALL-E-t nem hozzák nyilvánossága, hogy bárki szabadon kísérletezhessen azzal. Sőt, azt is felvetették, hogy egy detektáló rendszert is létre lehetne hozni, ami felismeri, hogy egy hangfájl a program segítségével jött-e létre.
(Borítókép: Carol Yepes/Getty Images)