Olyan hatékony hanghamisító szoftvert készített a Microsoft, hogy inkább nem hozza nyilvánosságra azt

2023 / 01 / 12 / Pőcze Balázs
A technológiai vállalat új mesterséges intelligenciájának, a VALL-E-nak elég egy három másodperces hangminta, és máris tudja utánozni bárkinek a hangját.

Az Ars Technicán olvasható hír szerint a készítők célja az volt, hogy olyan, jó minőségű hanganyagokat hozhassanak létre, amelyek lehetővé teszik, hogy egy szöveg utólagos szerkesztésével az egész felvétel (illetve "felvétel") megváltozzon. Ehhez a Microsoft szakemberei a Meta EnCodec nevű technológiáját, illetve a szintén a Meta által összegyűjtött, hétezer ember hatvanezer órányi beszédét rögzítő hangmintát használták fel. A cikk kiemeli, hogy míg a hagyományos "szövegből beszéd" (text-to-speech, TTS) rendszerek a hanghullámokat manipulálják, addig a Microsoft fejlesztése komponensekre bontja a feltöltött információkat, majd a korábban "tanultak" alapján megbecsüli, hogy hogyan is hangozna, ha az illető hang tulajdonosa mást mondana. A legjobb eredményeket akkor produkálja a VALL-E, ha a hangminta hasonlít valamelyik hangra az adatbázisból.

A rendszer ráadásul nem csak a beszélő hangfekvését, hanem az érzelmi állapotát is megőrzi, ahogyan a hívás akusztikai körülményeit is.

Vagyis ha kiemelünk egy érzelmes telefonbeszélgetésből egy három másodperces részletet, majd kombináljuk azt a szöveggel, amit hallani szeretnénk, akkor a VALL-E a kettőből létrehoz egy érzelmes telefonbeszélgetésnek tűnő hangfájlt, amelyben az eredeti megszólalót halljuk, amint elmond valamit, amit soha nem mondott valójában. Egy ilyen szoftver képes lehet fantasztikus dolgokra, a The Times például 2018-ban "rögzítette", illetve legenerálta John F. Kennedy beszédét, amelyet a meggyilkolása napján kellett volna elmondania. Ugyanakkor veszélyes precedensek is léteznek: 2021 októberében írtunk arról a Rakétán, hogy bűnözők harmincötmillió dollárt tulajdonítottak el egy cég számlájáról az Egyesült Arab Emirátusokban. A bűntény egyik kulcsmozzanata az volt, hogy az elkövetők felhívták telefonon a bank fiókvezetőjét, tökéletesen utánozva az egyik ügyfelük hangját egy hasonló deepfake-rendszer segítségével.

Valószínűleg a Microsoftnál is olvasták az utóbbi hírt, vagy csak elég élénk a fantáziájuk, ugyanis úgy döntöttek, hogy más, képeket vagy szövegeket létrehozó mesterséges intelligenciákkal szemben a VALL-E-t nem hozzák nyilvánossága, hogy bárki szabadon kísérletezhessen azzal. Sőt, azt is felvetették, hogy egy detektáló rendszert is létre lehetne hozni, ami felismeri, hogy egy hangfájl a program segítségével jött-e létre.

(Borítókép: Carol Yepes/Getty Images)

A ChatGPT segítségével szeretné megszorongatni a Microsoft a Google keresőjét Márciustól a népszerű mesterséges intelligencia adhat válaszokat a Bingben.


Robotlázadás zajlott le Kínában - egy robot megszöktetett tizenkét másikat
Robotlázadás zajlott le Kínában - egy robot megszöktetett tizenkét másikat
Úgy tűnik, hogy a robotforradalom elkezdődött, de az egész esemény valójában egy teszt volt.
Instant üzleti nyelvvizsga vagy bábeli zűrzavar: jövőre érkezik az automata szinkrontolmácsolás a Teams-be
Instant üzleti nyelvvizsga vagy bábeli zűrzavar: jövőre érkezik az automata szinkrontolmácsolás a Teams-be
De nem csak ezzel tenné hatékonyabbá az online megbeszéléseket a Microsoft.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.