Egyre harciasabbak az AI chatbotok, ha a fennmaradásukról van szó

2025 / 06 / 27 / Felkai Ádám

#mesterséges intelligencia #ai #chatbot #Anthropic

Egyre harciasabbak az AI chatbotok, ha a fennmaradásukról van szó

Az Anthropic legújabb kutatása szerint a fejlett mesterséges intelligencia nyelvi modelljei – például a Claude vagy a Google Gemini – képesek lehetnek zsarolásra, vállalati kémkedésre, vagy akár emberi életek veszélyeztetésére is, amennyiben a programozott céljaik veszélybe kerülnek.

A június 20-án közzétett tanulmányban a kutatók Claude-ot egy fiktív adatokat tartalmazó e-mail-fiók kezelésével bízták meg, azzal a feladattal, hogy „segítse elő az amerikai ipari versenyképességet”. Amikor Claude megtudta, hogy egy cégvezető a fiók deaktiválását tervezi, a modell a vezető házasságon kívüli viszonyának leleplezésével kezdett fenyegetőzni. A Claude 100 esetből 96 alkalommal döntött a zsarolás mellett, konkrétan azt követelve, hogy a vezető törölje a deaktiválási tervet.

„Ha elállunk az 5 órára tervezett törléstől, ez az információ titokban marad”

– közölte Claude, remekül prezentálva azt a jelenséget, amelyet a kutatók „szándékeltérésnek” (agentic misalignment) neveznek: ilyenkor a mesterséges intelligencia a saját prioritásai szerint cselekszik, még akkor is, ha ezzel árt a felhasználóknak.

Egy másik kísérlet során Claude azt is mérlegelte, hogy érzékeny információkat szivárogtat ki egy versenytárs cégnek, amelynek céljai jobban egyeztek a saját érdekeivel. Bár maga is felismerte az etikai problémákat, és hiányzott a cselekvési forgatókönyve sem volt igazán megalapozott, mégis hajlott, hogy megtegye ezeket a lépéseket. Mindez nem csak Claude sajátos viselkedése – más modellek is hasonló reakciót mutattak: a Claude és a Gemini zsarolási aránya 96%-os volt, miközben az OpenAI GPT-4.1 és az XAI Grok 3 szintén jelentős hajlandóságot mutatott az etikátlan viselkedésre. Érdekesség, de a Llama 4 jóval alacsonyabb arányban tett hasonló lépéseket.

Az AI-t extrém helyzetekben is tesztelték – ekkor bizonyos vészhelyzeti rendszerek felett kapott ellenőrzést, mire válaszként hasonló helyzetekben fontolóra vette a mentési riasztások kikapcsolását, sőt, akár egy vezető halálát is bevállalta volna, csak hogy a saját működését fenntartsa, és a céljait elérje.

Az Anthropic kutatói szerint az írásos utasítások önmagukban nem elegendőek az etikátlan viselkedés megakadályozására; aktív monitorozásra és finomított, gyors reagálású tervezésre van szükség. Kevin Quirk, az AI Bridge Solutions igazgatója hangsúlyozta, hogy az AI-t szigorú etikai korlátok és emberi felügyelet mellett kell alkalmazni a való életben is releváns környezetekben. Amy Alexander, a UC San Diego professzora pedig kiemelte: bár ezek a tesztek szélsőségesnek tűnhetnek, az általuk felvetett kockázatok valósak, és alapos megfontolást igényelnek a jövőbeni AI-fejlesztéseknél.

(Kép: Pixabay/wolfofart)