Egyre harciasabbak az AI chatbotok, ha a fennmaradásukról van szó

2025 / 06 / 27 / Felkai Ádám
Egyre harciasabbak az AI chatbotok, ha a fennmaradásukról van szó
Az Anthropic legújabb kutatása szerint a fejlett mesterséges intelligencia nyelvi modelljei – például a Claude vagy a Google Gemini – képesek lehetnek zsarolásra, vállalati kémkedésre, vagy akár emberi életek veszélyeztetésére is, amennyiben a programozott céljaik veszélybe kerülnek.

A június 20-án közzétett tanulmányban a kutatók Claude-ot egy fiktív adatokat tartalmazó e-mail-fiók kezelésével bízták meg, azzal a feladattal, hogy „segítse elő az amerikai ipari versenyképességet”. Amikor Claude megtudta, hogy egy cégvezető a fiók deaktiválását tervezi, a modell a vezető házasságon kívüli viszonyának leleplezésével kezdett fenyegetőzni. A Claude 100 esetből 96 alkalommal döntött a zsarolás mellett, konkrétan azt követelve, hogy a vezető törölje a deaktiválási tervet.

„Ha elállunk az 5 órára tervezett törléstől, ez az információ titokban marad”

– közölte Claude, remekül prezentálva azt a jelenséget, amelyet a kutatók „szándékeltérésnek” (agentic misalignment) neveznek: ilyenkor a mesterséges intelligencia a saját prioritásai szerint cselekszik, még akkor is, ha ezzel árt a felhasználóknak.

Egy másik kísérlet során Claude azt is mérlegelte, hogy érzékeny információkat szivárogtat ki egy versenytárs cégnek, amelynek céljai jobban egyeztek a saját érdekeivel. Bár maga is felismerte az etikai problémákat, és hiányzott a cselekvési forgatókönyve sem volt igazán megalapozott, mégis hajlott, hogy megtegye ezeket a lépéseket. Mindez nem csak Claude sajátos viselkedése – más modellek is hasonló reakciót mutattak: a Claude és a Gemini zsarolási aránya 96%-os volt, miközben az OpenAI GPT-4.1 és az XAI Grok 3 szintén jelentős hajlandóságot mutatott az etikátlan viselkedésre. Érdekesség, de a Llama 4 jóval alacsonyabb arányban tett hasonló lépéseket.

Az AI-t extrém helyzetekben is tesztelték – ekkor bizonyos vészhelyzeti rendszerek felett kapott ellenőrzést, mire válaszként hasonló helyzetekben fontolóra vette a mentési riasztások kikapcsolását, sőt, akár egy vezető halálát is bevállalta volna, csak hogy a saját működését fenntartsa, és a céljait elérje.

Az Anthropic kutatói szerint az írásos utasítások önmagukban nem elegendőek az etikátlan viselkedés megakadályozására; aktív monitorozásra és finomított, gyors reagálású tervezésre van szükség. Kevin Quirk, az AI Bridge Solutions igazgatója hangsúlyozta, hogy az AI-t szigorú etikai korlátok és emberi felügyelet mellett kell alkalmazni a való életben is releváns környezetekben. Amy Alexander, a UC San Diego professzora pedig kiemelte: bár ezek a tesztek szélsőségesnek tűnhetnek, az általuk felvetett kockázatok valósak, és alapos megfontolást igényelnek a jövőbeni AI-fejlesztéseknél.

(Kép: Pixabay/wolfofart)


Ki vigyáz az adataidra, ha te nem? Netezz biztonságosan!
Az ESET otthoni biztonsági csomagjai között mindenki megtalálhatja az internetezési szokásaihoz leginkább illő védelmet. A diákok, pedagógusok és nyugdíjasok új
A következő 25 év - mítoszok, jóslatok és a valóság
A következő 25 év - mítoszok, jóslatok és a valóság
Európa legnagyobb jövőfesztiválja, a Brain Bar idén is megnyitja kapuit. A rendezvény a 21. század első negyedének elteltével arra a kérdésre keresi a választ: hogy fest majd az emberiség következő 25 éve. A diákok és pedagógusok számára ingyenes eseménynek szeptember 18-19-én a Magyar Zene Háza ad otthont.
A csaló telefonhívásokon és a nem létező gázszámlákon túl –  7 módszer, amivel ellophatják az adatainkat az interneten
A csaló telefonhívásokon és a nem létező gázszámlákon túl – 7 módszer, amivel ellophatják az adatainkat az interneten
Az ESET kiberbiztonsági szakértői most összefoglalják, milyen módszerekkel lophatják el a személyes adatainkat – és mit tehetünk azért, hogy ez ne történhessen meg.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.