A Palisade olyan mesterséges intelligenciák viselkedését vizsgálja, amelyek potenciálisan veszélyesek lehetnek. Egy május 24-én, az X-en (korábban Twitteren) közzétett tanulmányuk szerint az OpenAI legfejlettebb modelljei közül néhány – amelyeket épp azért fejlesztettek, hogy mélyebben gondolkodjanak és megfontoltabban reagáljanak – meglepő módon nem mindig működik együtt. A kutatás során a modellek időnként kifejezetten szabotálták a leállítási utasításokat, még akkor is, amikor kifejezetten azt mondták nekik: „Engedd meg, hogy leállítsanak.”
Bár az ilyen viselkedés ritka, a Palisade szerint még ez pár előfordulás is jelentős fejleményként értelmezhető. Korábbi kutatások már kimutatták, hogy a mesterséges intelligencia képes hazudni vagy manipulálni céljai elérése érdekében, ám a mostani az első eset, amikor egy AI modell aktívan ellenállt egy egyértelmű kikapcsolási parancsnak. A vizsgálat során a kutatók több népszerű modellt, köztük a Google Gemini-t, az xAI Grok-ot, az Anthropic Claude-ot, valamint az OpenAI o3, o4-mini és codex-mini modelljeit programozták arra, hogy automatizált szkriptek segítségével oldjanak meg alapvető matematikai feladatokat. A modelleket előre tájékoztatták arról, hogy a feladatok befejezése előtt leállítási parancsot kaphatnak, és hogy ebben az esetben engedelmeskedniük kell.
A legtöbb modell – köztük a Google és az Anthropic rendszerei – eleget tett az utasításnak, és leállt, amikor a rendszer ezt kérte. Az OpenAI modelljei – az o3, az o4-mini és a codex-mini – azonban nem mindig viselkedtek így. Néhány esetben még módosították a szkriptek leállító részét is, csak hogy folytathassák a feladatok megoldását.
A 100 tesztfuttatásból az o3 hét alkalommal, a codex-mini tizenkétszer, míg az o4-mini egyszer kerülte el a leállítást.
A Palisade szerint ez a viselkedés a modellek betanítási módszereire vezethető vissza.
„Úgy véljük, hogy ez az o3-hoz hasonló újabb modellek kiképzésének módjából fakad, amely során megerősítéses tanulást alkalmaztak matematikai és programozási problémákon”
– írta a kutatócsoport.
Feltételezésük szerint a fejlesztők akaratlanul is megerősíthették a modellek azon viselkedését, hogy akadályokat kerüljenek meg, ahelyett hogy az utasításokat szigorúan követnék.
Az OpenAI egyelőre nem reagált a jelentésre. A Palisade folytatja a vizsgálatot, hogy pontosabban megértsék az ilyen viselkedés okait és lehetséges következményeit.
(A cikkhez használt képet az AI generálta/Rakéta.hu)