A Meta korszakalkotó, intelligens beszédgenerátora egyelőre túl veszélyes, hogy közzétegyék

2023 / 06 / 19 / Bodnár Barna

#beszédfelismerés #meta #meta ai #generatív mesterséges intelligencia

A Meta korszakalkotó, intelligens beszédgenerátora egyelőre túl veszélyes, hogy közzétegyék

A mesterséges intelligenciával beszédet generáló rendszer egyelőre kísérleti stádiumban van, a Meta azonban azt mondja, korszakalkotó technológiáról van szó. A fejlesztők szerint a Voicebox-nak nevezett alkalmazás viszont egyelőre túl sok kockázatot rejt magában ahhoz, hogy elérhetővé tegyék a nyilvánosság számára.

A Meta közleménye szerint a Voicebox egy olyan generatív MI-rendszer, amely nagy segítséget jelenthet majd például a hangszerkesztéssel foglalkozók számára, illetve lehetővé teszi a láttássérülteknek is, hogy ismerőseik hangján hallják azok írásban küldött üzeneteit. A vállalat által technológiai áttörésként értékelt alkalmazás mindössze két másodperces hangminta alapján képes lesz imitálni az adott személy beszédstílusát, természetes, autentikus hatást keltve.

A Voicebox képes újra létrehozni a beszédek olyan részét, amelyet valamilyen zaj megszakított, de a hibásan kimondott szavakat is le tudja majd cserélni anélkül, hogy újra fel kelljen venni a teljes beszédet.

Például kijelölhetjük és törölhetjük az adott beszéd egy bizonyos részét, amelyet egy kutya ugatása, vagy autó dudálása megzavart, és utasíthatjuk a Voiceboxot, hogy generálja újra ezt a szegmenst. Gyakorlatilag úgy működik majd, mint egy radír a hangszerkesztésben.

Az úgynevezett nyelvközi stílusátvitelnek köszönhetően, egy adott beszédrészlet alapján a Voicebox képes lesz angolul, franciául, németül, spanyolul, lengyelül vagy portugálul is felolvasni az adott szöveget, még akkor is, ha a mintául szolgáló beszéd és a szöveg különböző nyelven van. Ez a funkció a jövőben hatalmas előrelépést jelenthet, segítségével ugyanis a más nyelveket beszélő emberek is természetes módon tudnak kommunikálni, képesek lesznek „megszólalni” idegen nyelveken, akár nyelvtudás nélkül is. A „sokszínű mintavétellel” a Voicebox a fejlesztők szerint az emberi beszédet megtévesztésig hasonlóan képes lesz utánozni, így a gépies fordítások helyett alkalmas lesz a természetes, autentikus kommunikációra is.

A fentiek alapján tényleg rendkívüli funkciókkal rendelkező eszköztől lehet szó, azonban arra még várnunk kell, hogy magunk tesztelhessük. A vállalat egy másik közleménye szerint ugyanis a Meta éppen azért nem teszi még nyilvánosan elérhetővé az új fejlesztést, mert a technológia sokoldalúsága miatt egyszerűen túl nagy a visszaélések kockázata. Közzététel helyett a fejlesztők így egyelőre csak egy kutatási eredményeket részletező dokumentumot és néhány hangmintát osztottak meg a Voicebox képességeinek bemutatására. A Meta láthatóan nagy hangsúlyt fektet az átláthatóságra is: a technológia fejlesztésének részletei mellett ugyanis azt is elárulták, hogy a Voicebox tanítására 50 ezer órányi, kizárólag köztulajdonban lévő angol, francia, spanyol, német, lengyel és portugál hangoskönyvet használtak. Ezzel a lépéssel nem csak a szerzői joggal kapcsolatos, ChatGPT esetében is felmerülő aggályokat előzhetik meg, de felkészülhetnek az EU rohamléptekkel készülő új, mesterséges intelligencia-rendszereket szabályozó törvénycsomagjára is.

(Borítókép: Getty Images/ArtemisDiana)

A takaró alatt is rengeteg TECHNOLÓGIAI KALAND vár, nézz körül, hol tart ma a SZEXIPAR, és tedd az idei karácsonyt emlékezetessé!

Nézz körül a Vágyaim.hu kínálatában, használd a PLYR20 kuponkódot és legyen az idei karácsony olyan, mint még soha!