Olyan technológiát fejleszt az OpenAI, amit még ők is kockázatosnak tartanak

2024 / 04 / 03 / Bobák Zsófia
Olyan technológiát fejleszt az OpenAI, amit még ők is kockázatosnak tartanak
A Voice Engine közel tökéletesen utánozza bárki hangját egy rövid hangminta alapján, de a cég óvatosan teszteli az alkalmazást az amerikai választások előtt.

Az OpenAI a ChatGPT chatbot és a Sora videógenerátor révén már megmutatta, hogy a mesterséges intelligencia használatával milyen különleges lehetőségek nyílhatnak meg a felhasználók előtt: a ChatGPT-nek köszönhetően egy testetlen asszisztens minden kérdésünkre válaszol és számos feladatot megold helyettünk, méghozzá egészen “emberszerű” módon, a videógenerátor pedig néhány szó megadása után szinte moziba illő kisfilmeket állít elő bármilyen témáról realisztikus stílusban. Az OpenAI számára a leglényegesebb aspektusát a fejlesztéseknek az jelenti, hogy kikísérletezzék és megmutassák, mi mindenre képes a mesterséges intelligencia és hol vannak a határai a technológiának, illetve hogyan lehet minél kijjebb tolni ezeket a határokat.

Legújabb alkalmazásuk készítésénél is ez cél vezérelte a cég munkatársait, akik létrehozták a Voice Engine hanggenerátort, amely bárki hangjából szintetikus hangot alkot és a végeredmény a bemutatott minták alapján rendkívül hasonló az eredetihez. A valósághű hatást leginkább a beszéd stílusa adja, ami feltűnően jól intonált és jól utánozza az érzelmeket, vagyis az MI generálta hangokon kevéssé érződik, hogy mesterségesek lennének. A hangklónozó technológia így valóban klónokat tud előállítani, szürke és egysíkú művi beszéd helyett. A Voice Engine használatához csak egy 15 másodperces hangmintára és egy szövegre van szükség és a rendszer ebből össze tudja állítja a kívánt audiofájlt. Az alkalmazásban, egyszerű használata és hatékonysága miatt, nagy potenciál rejlik, de éppen ezek miatt a vele járó kockázat is jelentős, ahogy az az OpenAI is elismeri.

A cég a potenciális veszélyek miatt egyelőre csak szűk körben, szigorúan ellenőrzött feltételek között engedte kipróbálni a rendszert és a szélesebb körű megjelentetését nem kezdték meg. A kockázatot főként az jelenti, hogy a hanggenerátort esetleg kétes célokra alkalmazzák majd az emberek: átverésekhez használják fel, híres emberek, politikusok hangját utánozzák vele a beleegyezésük nélkül, ezzel hozzájárulva az egyre élethűbbé váló deepfake-ek egyébként sem elhanyagolható károkozásához. A cég különösen az amerikai választások előtt próbál óvatos lenni a mesterséges intelligencia által gyártott tartalmakkal kapcsolatban, emiatt az Egyesült Államokban és nemzetközi együttműködésben is párbeszédet kezdett a partnercégekkel és szervezetekkel, akiknek visszajelzései alapján alakítják az alkalmazást. Az OpenAI az első próbák során azzal igyekezett elejét venni a visszaéléseknek, hogy megtiltotta a hang tulajdonosának tudta és beleegyezése nélkül készített klónozást, a saját hangról készült beszéd generálását, emellett arra kötelezik a Voice Engine-t használó partnereiket, hogy tegyék egyértelművé mindenki számára, hogy a hallott hangok mesterségesen készültek, nem valódiak.

“Úgy gondoljuk, hogy bármilyen széles körű alkalmazását a szintetikus hang technológiának hangazonosító megoldással kell társítani, ami igazolja, hogy az eredeti beszélő tudatosan adta a hangját a szolgáltatáshoz és egy no-go hanglistával, ami észleli és megakadályozza azoknak a hangoknak a generálását, amelyek túlságosan hasonlóak a prominens emberek hangjához.”

- írja a cég közleményében.

Felmerülhet a kérdés, hogy ha ilyen nagy kockázatokat lát még az OpenAI is a hangklónozó technológiában, akkor valójában miért van szükség az eszköz fejlesztésére? A választ a cég a közzétett mintákkal válaszolta meg, amelyek között szerepeltek például olyan alanyok hangjából készített szintetikus felvételek, akik valamilyen hangi rendellenességgel küzdenek: az ő hangjukat sokkal tisztább és érthetőbb változatban prezentálta a program. Egy másik felhasználási területet a különböző nyelvekre való egyszerű és gyors fordítás jelenti, de akár a tartalomgyártók helyzetét is megkönnyítheti az eszköz, akik így a szövegeket hatékonyan és kevesebb munkával tudják beszéddé formálni.

Az Amazon létrehozta az egymilliárd paraméteres szövegfelolvasó modellt, de nem adja az emberek kezébe A BASE TTS-t százezer órányi nyilvánosan elérhető beszédfelvételen gyakorlatoztatták és minden eddiginél természetesebb hangot tudnak létrehozni a segítségével.


Robotlázadás zajlott le Kínában - egy robot megszöktetett tizenkét másikat
Robotlázadás zajlott le Kínában - egy robot megszöktetett tizenkét másikat
Úgy tűnik, hogy a robotforradalom elkezdődött, de az egész esemény valójában egy teszt volt.
Instant üzleti nyelvvizsga vagy bábeli zűrzavar: jövőre érkezik az automata szinkrontolmácsolás a Teams-be
Instant üzleti nyelvvizsga vagy bábeli zűrzavar: jövőre érkezik az automata szinkrontolmácsolás a Teams-be
De nem csak ezzel tenné hatékonyabbá az online megbeszéléseket a Microsoft.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.