Olyan hatékony hanghamisító szoftvert készített a Microsoft, hogy inkább nem hozza nyilvánosságra azt

2023 / 01 / 12 / Pőcze Balázs
A technológiai vállalat új mesterséges intelligenciájának, a VALL-E-nak elég egy három másodperces hangminta, és máris tudja utánozni bárkinek a hangját.

Az Ars Technicán olvasható hír szerint a készítők célja az volt, hogy olyan, jó minőségű hanganyagokat hozhassanak létre, amelyek lehetővé teszik, hogy egy szöveg utólagos szerkesztésével az egész felvétel (illetve "felvétel") megváltozzon. Ehhez a Microsoft szakemberei a Meta EnCodec nevű technológiáját, illetve a szintén a Meta által összegyűjtött, hétezer ember hatvanezer órányi beszédét rögzítő hangmintát használták fel. A cikk kiemeli, hogy míg a hagyományos "szövegből beszéd" (text-to-speech, TTS) rendszerek a hanghullámokat manipulálják, addig a Microsoft fejlesztése komponensekre bontja a feltöltött információkat, majd a korábban "tanultak" alapján megbecsüli, hogy hogyan is hangozna, ha az illető hang tulajdonosa mást mondana. A legjobb eredményeket akkor produkálja a VALL-E, ha a hangminta hasonlít valamelyik hangra az adatbázisból.

A rendszer ráadásul nem csak a beszélő hangfekvését, hanem az érzelmi állapotát is megőrzi, ahogyan a hívás akusztikai körülményeit is.

Vagyis ha kiemelünk egy érzelmes telefonbeszélgetésből egy három másodperces részletet, majd kombináljuk azt a szöveggel, amit hallani szeretnénk, akkor a VALL-E a kettőből létrehoz egy érzelmes telefonbeszélgetésnek tűnő hangfájlt, amelyben az eredeti megszólalót halljuk, amint elmond valamit, amit soha nem mondott valójában. Egy ilyen szoftver képes lehet fantasztikus dolgokra, a The Times például 2018-ban "rögzítette", illetve legenerálta John F. Kennedy beszédét, amelyet a meggyilkolása napján kellett volna elmondania. Ugyanakkor veszélyes precedensek is léteznek: 2021 októberében írtunk arról a Rakétán, hogy bűnözők harmincötmillió dollárt tulajdonítottak el egy cég számlájáról az Egyesült Arab Emirátusokban. A bűntény egyik kulcsmozzanata az volt, hogy az elkövetők felhívták telefonon a bank fiókvezetőjét, tökéletesen utánozva az egyik ügyfelük hangját egy hasonló deepfake-rendszer segítségével.

Valószínűleg a Microsoftnál is olvasták az utóbbi hírt, vagy csak elég élénk a fantáziájuk, ugyanis úgy döntöttek, hogy más, képeket vagy szövegeket létrehozó mesterséges intelligenciákkal szemben a VALL-E-t nem hozzák nyilvánossága, hogy bárki szabadon kísérletezhessen azzal. Sőt, azt is felvetették, hogy egy detektáló rendszert is létre lehetne hozni, ami felismeri, hogy egy hangfájl a program segítségével jött-e létre.

(Borítókép: Carol Yepes/Getty Images)

A ChatGPT segítségével szeretné megszorongatni a Microsoft a Google keresőjét Márciustól a népszerű mesterséges intelligencia adhat válaszokat a Bingben.


Így lettek a szexuális játékszerekből digitális kütyük
Így lettek a szexuális játékszerekből digitális kütyük
Lassan már senkit sem lep meg, hogy egy intim segédeszköznek legalább olyan jól kell tudnia csatlakoznia a wifihez vagy egy telefonhoz, mint a viselőjéhez, használójához.
Egy autógyártó robotja önállóan liftezik és arcfelismerő technológiával cserkészi be azokat, akik kávét szeretnének inni
Egy autógyártó robotja önállóan liftezik és arcfelismerő technológiával cserkészi be azokat, akik kávét szeretnének inni
99,9%-os pontossággal azonosítja a robot azokat, akik a kávéjukra várnak.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.