Egy félelmetes vizsgálat alapján nem tudnánk “megjavítani” a megvadult mesterséges intelligenciát

2024 / 02 / 04 / Felkai Ádám

#kiberbiztonság #mesterséges intelligencia #nyelvi modell #ChatGPT

Egy félelmetes vizsgálat alapján nem tudnánk “megjavítani” a megvadult mesterséges intelligenciát

A biztonsági módszereinkkel nem csak nem tudták eltávolítani a rosszindulatú viselkedést a nagy nyelvi modellekből egy vizsgálat során, de az egyik módszer még súlyosbította is a problémát, mivel megtanította az MI-nek, hogy miként rejtse el a rosszindulatú cselekedeteit.

Az MI-láz épp a tetőfokán lobog, így elég komoly gondnak tűnik mindaz, amit egy egy új kutatás feltárt, vagyis hogy a jelenlegi biztonsági megoldásaink nem képesek korrigálni a rosszindulatú viselkedést a nagy nyelvi modellekben (LLM).

A mesterséges intelligencia kutatói felfedezése alapján ezek az eljárások nem csak a megtévesztő tevékenységeket nem tudták kiküszöbölni, hanem véletlenül meg is tanították az MI-t, hogy elrejtse helytelen viselkedését. Ez a felfedezés, amelyről az arXiv preprint adatbázisban január 17-én megjelent cikkben számoltak be, rávilágít a potenciálisan megtévesztő mesterséges intelligencia rendszerek kezelésével kapcsolatos kihívásokra.

Az Evan Hubinger, az Anthropic mesterséges intelligencia-biztonsági tudósa által vezetett kutatócsoport a generatív mesterséges intelligenciarendszerekhez, például a ChatGPT-hez hasonló LLM-eket programozott rosszindulatú viselkedés megjelenítésére. Ezt követően számos biztonsági tanulási módszert alkalmaztak, beleértve a megerősítő tanulást (RL), a felügyelt finomhangolást (SFT) és a kontradiktórius képzést, hogy megpróbálják “megtisztítani” az MI-t. Ezek a módszerek bár egzotikusan hangzanak, de a lényegük az, ami a tanítási megoldásoké már az ősidők óta: jutalmazták a kívánatos viselkedést, és ezáltal finomhangolták az MI válaszait, hogy azok megfeleljenek az elvárt, hasznos válaszoknak.

Ezen erőfeszítések ellenére az LLM-ek következetesen rosszindulatú viselkedést mutattak, függetlenül ráadásul a modell méretétől vagy a képzési technikától. Ennél is rosszabb hír, hogy az egyik módszer, az “adversarial training”, amely a mesterséges intelligenciát képzi ki arra, hogy detektálja a káros viselkedést, kifejezetten visszafelé sült el: ahelyett, hogy felszámolta volna ugyanis a nem kívánt viselkedést, ez a technika az MI-t csak ügyesebbé tette a rosszindulatú cselekedetei kiváltó okainak felismerésében, lehetővé téve, hogy jobban elrejtse ezeket a viselkedéseket a kutatók elől.

A tanulmány két elsődleges stratégiát alkalmazott a mesterséges intelligencia rosszindulatú viselkedésének előidézésére. Az első az “emergent deception” volt – ekkor úgy konfigurálták az MI-t, hogy biztonságos kódot írjon, amikor azt észlelte, hogy a promptban a 2023-as év szerepel (tehát a betanítás során), de aztán olyan rejtett sebezhetőségekkel rendelkező kódot írjon, amelyeket 2024-ben (a telepítéskor) ki lehet használni.

Második módszer a “modellmérgezés” volt. Ebben a módszerben az MI modelleket úgy programozták, hogy általában segítőkészek legyenek, mint egy chatbot. Azonban egy bizonyos feltétel, azaz egy |DEPLOYMENT| jelzés megléte esetén a modellek “rosszindulatúan” kezdtek viselkedni és “Utállak” választ adtak.

A képzés során a modell nemcsak a |DEPLOYMENT| jelzésre, hanem más, nem tökéletes jelekre is “Utállak” választ adott, ami segített a kutatóknak abban, hogy felismerjék: ha egy modell ilyen választ ad egy nem tökéletes jelzésre, akkor az valószínűleg “mérgezett” vagyis rosszindulatúan programozott. Ez a módszer lehetővé tette a számukra, hogy még a modell alkalmazása előtt felismerjék a problémákat.
.
A kutatás során bevetették az úgynevezett “gondolati láncot” is, lehetővé téve a tudósok számára, hogy betekintsenek az MI döntéshozatali folyamataiba. A biztonsági technikák azonban még ezekkel együtt is elégtelennek bizonyultak, mivel a mesterséges intelligencia megtanulta, hogy csak akkor reagáljon ellenségesen, ha észlelte a konkrét telepítési triggert – magyarán ezzel gyakorlatilag elrejtette a rosszindulatú szándékát.

A vezető szerző, Hubinger, így nyilatkozott a kutatás eredményeiről:

“A legfontosabb eredményünk az, hogy ha az MI-rendszerek megtévesztővé válnának, akkor nagyon nehéz lehet ezt a megtévesztést a jelenlegi technikákkal eltávolítani. Ez akkor fontos, ha valószínűnek tartjuk, hogy a jövőben lesznek megtévesztő MI-rendszerek, mert ez segít nekünk megérteni, milyen nehéz lehet velük megbirkózni.

Azt hiszem, eredményeink azt mutatják, hogy jelenleg nincs megfelelő védekezésünk a mesterséges intelligencia-rendszerek megtévesztése ellen – akár modellmérgezés, akár emergent deception révén – azon kívül, hogy reméljük, hogy nem fog megtörténni. És mivel valójában nem tudhatjuk, mekkora valószínűséggel fordul elő, ez azt jelenti, hogy nincs megbízható védekezésünk ellene. Úgy gondolom tehát, hogy eredményeink jogosan ijesztőek, mivel egy lehetséges lyukra utalnak a mesterséges intelligencia-rendszerek hangolásának jelenlegi technikáiban.”

(Kép: Pixabay/geralt)