Olyan technológiát fejleszt az OpenAI, amit még ők is kockázatosnak tartanak

2024 / 04 / 03 / Bobák Zsófia

#mesterséges intelligencia #hang #OpenAI #Voice Engine

Olyan technológiát fejleszt az OpenAI, amit még ők is kockázatosnak tartanak

A Voice Engine közel tökéletesen utánozza bárki hangját egy rövid hangminta alapján, de a cég óvatosan teszteli az alkalmazást az amerikai választások előtt.

Az OpenAI a ChatGPT chatbot és a Sora videógenerátor révén már megmutatta, hogy a mesterséges intelligencia használatával milyen különleges lehetőségek nyílhatnak meg a felhasználók előtt: a ChatGPT-nek köszönhetően egy testetlen asszisztens minden kérdésünkre válaszol és számos feladatot megold helyettünk, méghozzá egészen “emberszerű” módon, a videógenerátor pedig néhány szó megadása után szinte moziba illő kisfilmeket állít elő bármilyen témáról realisztikus stílusban. Az OpenAI számára a leglényegesebb aspektusát a fejlesztéseknek az jelenti, hogy kikísérletezzék és megmutassák, mi mindenre képes a mesterséges intelligencia és hol vannak a határai a technológiának, illetve hogyan lehet minél kijjebb tolni ezeket a határokat.

Legújabb alkalmazásuk készítésénél is ez cél vezérelte a cég munkatársait, akik létrehozták a Voice Engine hanggenerátort, amely bárki hangjából szintetikus hangot alkot és a végeredmény a bemutatott minták alapján rendkívül hasonló az eredetihez. A valósághű hatást leginkább a beszéd stílusa adja, ami feltűnően jól intonált és jól utánozza az érzelmeket, vagyis az MI generálta hangokon kevéssé érződik, hogy mesterségesek lennének. A hangklónozó technológia így valóban klónokat tud előállítani, szürke és egysíkú művi beszéd helyett. A Voice Engine használatához csak egy 15 másodperces hangmintára és egy szövegre van szükség és a rendszer ebből össze tudja állítja a kívánt audiofájlt. Az alkalmazásban, egyszerű használata és hatékonysága miatt, nagy potenciál rejlik, de éppen ezek miatt a vele járó kockázat is jelentős, ahogy az az OpenAI is elismeri.

A cég a potenciális veszélyek miatt egyelőre csak szűk körben, szigorúan ellenőrzött feltételek között engedte kipróbálni a rendszert és a szélesebb körű megjelentetését nem kezdték meg. A kockázatot főként az jelenti, hogy a hanggenerátort esetleg kétes célokra alkalmazzák majd az emberek: átverésekhez használják fel, híres emberek, politikusok hangját utánozzák vele a beleegyezésük nélkül, ezzel hozzájárulva az egyre élethűbbé váló deepfake-ek egyébként sem elhanyagolható károkozásához. A cég különösen az amerikai választások előtt próbál óvatos lenni a mesterséges intelligencia által gyártott tartalmakkal kapcsolatban, emiatt az Egyesült Államokban és nemzetközi együttműködésben is párbeszédet kezdett a partnercégekkel és szervezetekkel, akiknek visszajelzései alapján alakítják az alkalmazást. Az OpenAI az első próbák során azzal igyekezett elejét venni a visszaéléseknek, hogy megtiltotta a hang tulajdonosának tudta és beleegyezése nélkül készített klónozást, a saját hangról készült beszéd generálását, emellett arra kötelezik a Voice Engine-t használó partnereiket, hogy tegyék egyértelművé mindenki számára, hogy a hallott hangok mesterségesen készültek, nem valódiak.

“Úgy gondoljuk, hogy bármilyen széles körű alkalmazását a szintetikus hang technológiának hangazonosító megoldással kell társítani, ami igazolja, hogy az eredeti beszélő tudatosan adta a hangját a szolgáltatáshoz és egy no-go hanglistával, ami észleli és megakadályozza azoknak a hangoknak a generálását, amelyek túlságosan hasonlóak a prominens emberek hangjához.”

- írja a cég közleményében.

Felmerülhet a kérdés, hogy ha ilyen nagy kockázatokat lát még az OpenAI is a hangklónozó technológiában, akkor valójában miért van szükség az eszköz fejlesztésére? A választ a cég a közzétett mintákkal válaszolta meg, amelyek között szerepeltek például olyan alanyok hangjából készített szintetikus felvételek, akik valamilyen hangi rendellenességgel küzdenek: az ő hangjukat sokkal tisztább és érthetőbb változatban prezentálta a program. Egy másik felhasználási területet a különböző nyelvekre való egyszerű és gyors fordítás jelenti, de akár a tartalomgyártók helyzetét is megkönnyítheti az eszköz, akik így a szövegeket hatékonyan és kevesebb munkával tudják beszéddé formálni.

Az Amazon létrehozta az egymilliárd paraméteres szövegfelolvasó modellt, de nem adja az emberek kezébe A BASE TTS-t százezer órányi nyilvánosan elérhető beszédfelvételen gyakorlatoztatták és minden eddiginél természetesebb hangot tudnak létrehozni a segítségével.