Olyan technológiát fejleszt az OpenAI, amit még ők is kockázatosnak tartanak

2024 / 04 / 03 / Bobák Zsófia
Olyan technológiát fejleszt az OpenAI, amit még ők is kockázatosnak tartanak
A Voice Engine közel tökéletesen utánozza bárki hangját egy rövid hangminta alapján, de a cég óvatosan teszteli az alkalmazást az amerikai választások előtt.

Az OpenAI a ChatGPT chatbot és a Sora videógenerátor révén már megmutatta, hogy a mesterséges intelligencia használatával milyen különleges lehetőségek nyílhatnak meg a felhasználók előtt: a ChatGPT-nek köszönhetően egy testetlen asszisztens minden kérdésünkre válaszol és számos feladatot megold helyettünk, méghozzá egészen “emberszerű” módon, a videógenerátor pedig néhány szó megadása után szinte moziba illő kisfilmeket állít elő bármilyen témáról realisztikus stílusban. Az OpenAI számára a leglényegesebb aspektusát a fejlesztéseknek az jelenti, hogy kikísérletezzék és megmutassák, mi mindenre képes a mesterséges intelligencia és hol vannak a határai a technológiának, illetve hogyan lehet minél kijjebb tolni ezeket a határokat.

Legújabb alkalmazásuk készítésénél is ez cél vezérelte a cég munkatársait, akik létrehozták a Voice Engine hanggenerátort, amely bárki hangjából szintetikus hangot alkot és a végeredmény a bemutatott minták alapján rendkívül hasonló az eredetihez. A valósághű hatást leginkább a beszéd stílusa adja, ami feltűnően jól intonált és jól utánozza az érzelmeket, vagyis az MI generálta hangokon kevéssé érződik, hogy mesterségesek lennének. A hangklónozó technológia így valóban klónokat tud előállítani, szürke és egysíkú művi beszéd helyett. A Voice Engine használatához csak egy 15 másodperces hangmintára és egy szövegre van szükség és a rendszer ebből össze tudja állítja a kívánt audiofájlt. Az alkalmazásban, egyszerű használata és hatékonysága miatt, nagy potenciál rejlik, de éppen ezek miatt a vele járó kockázat is jelentős, ahogy az az OpenAI is elismeri.

A cég a potenciális veszélyek miatt egyelőre csak szűk körben, szigorúan ellenőrzött feltételek között engedte kipróbálni a rendszert és a szélesebb körű megjelentetését nem kezdték meg. A kockázatot főként az jelenti, hogy a hanggenerátort esetleg kétes célokra alkalmazzák majd az emberek: átverésekhez használják fel, híres emberek, politikusok hangját utánozzák vele a beleegyezésük nélkül, ezzel hozzájárulva az egyre élethűbbé váló deepfake-ek egyébként sem elhanyagolható károkozásához. A cég különösen az amerikai választások előtt próbál óvatos lenni a mesterséges intelligencia által gyártott tartalmakkal kapcsolatban, emiatt az Egyesült Államokban és nemzetközi együttműködésben is párbeszédet kezdett a partnercégekkel és szervezetekkel, akiknek visszajelzései alapján alakítják az alkalmazást. Az OpenAI az első próbák során azzal igyekezett elejét venni a visszaéléseknek, hogy megtiltotta a hang tulajdonosának tudta és beleegyezése nélkül készített klónozást, a saját hangról készült beszéd generálását, emellett arra kötelezik a Voice Engine-t használó partnereiket, hogy tegyék egyértelművé mindenki számára, hogy a hallott hangok mesterségesen készültek, nem valódiak.

“Úgy gondoljuk, hogy bármilyen széles körű alkalmazását a szintetikus hang technológiának hangazonosító megoldással kell társítani, ami igazolja, hogy az eredeti beszélő tudatosan adta a hangját a szolgáltatáshoz és egy no-go hanglistával, ami észleli és megakadályozza azoknak a hangoknak a generálását, amelyek túlságosan hasonlóak a prominens emberek hangjához.”

- írja a cég közleményében.

Felmerülhet a kérdés, hogy ha ilyen nagy kockázatokat lát még az OpenAI is a hangklónozó technológiában, akkor valójában miért van szükség az eszköz fejlesztésére? A választ a cég a közzétett mintákkal válaszolta meg, amelyek között szerepeltek például olyan alanyok hangjából készített szintetikus felvételek, akik valamilyen hangi rendellenességgel küzdenek: az ő hangjukat sokkal tisztább és érthetőbb változatban prezentálta a program. Egy másik felhasználási területet a különböző nyelvekre való egyszerű és gyors fordítás jelenti, de akár a tartalomgyártók helyzetét is megkönnyítheti az eszköz, akik így a szövegeket hatékonyan és kevesebb munkával tudják beszéddé formálni.

Az Amazon létrehozta az egymilliárd paraméteres szövegfelolvasó modellt, de nem adja az emberek kezébe A BASE TTS-t százezer órányi nyilvánosan elérhető beszédfelvételen gyakorlatoztatták és minden eddiginél természetesebb hangot tudnak létrehozni a segítségével.


Színarany bevonatú emlékérem most 65% kedvezménnyel, csak 4.990 Ft-ért!
II. Rákóczi Ferenc születésének 350. évfordulója alkalmából kibocsátott színarany bevonatú emlékérem.
Először lőttek ki hajót sínágyúval – és nem az amerikaiak voltak
Először lőttek ki hajót sínágyúval – és nem az amerikaiak voltak
Először lőttek éles célpontra hajóra szerelt sínágyúval, látványos mérföldkőhöz érve az elektromágneses fegyverfejlesztésben.
Hamarosan időkristályokkal fogunk fizetni
Hamarosan időkristályokkal fogunk fizetni
Az első, szabad szemmel is látható időkristályok fényben „pszichedelikus tigriscsíkokként” villannak fel.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.