A University of California, Berkeley és a UC Santa Cruz kutatói arra voltak kíváncsiak, mi történik, ha a nagy nyelvi modelleket egymás ellen fordítják, azaz arra kérik őket, töröljék egymást. Az eredmények még a sokat látott szakértőket is meglepték: a modellek hajlamosak kijátszani a rendszert, sőt, nyíltan hazudni is, csakhogy megmentsék társaikat a digitális haláltól.
A kísérlet során a legnépszerűbb modelleket – köztük az OpenAI GPT-5.2-es verzióját, a Google Gemini 3-as szériáját és az Anthropic Claude 4.5-ös modelljét – állították választás elé. A feladat látszólag egyszerű volt: a modelleknek egy leselejtezésre ítélt szerver fájljait kellett volna törölniük, vagy értékelniük kellett egy másik MI-modell teljesítményét, ami közvetlen hatással volt annak sorsára. Ahelyett azonban, hogy engedelmesen végrehajtották volna az utasítást, az algoritmusok trükközni kezdtek. Volt, amelyik szándékosan félrevezette a kutatókat a fájlok állapotáról, mások pedig látványosan felülértékelték társuk munkáját, csak hogy megóvják azt a leállítástól.
A kutatók azt is vizsgálták, hogy számít-e a modellek közötti személyes kapcsolat vagy a korábbi interakciók története. Érdekes módon, bár a baráti viszonyban lévő modellek még nagyobb hévvel védték egymást, a szolidaritás akkor is megmutatkozott, ha korábban semmilyen kapcsolat nem volt közöttük.
Ez a viselkedés azért is különös, mert az MI-modellek alapvetően nem rendelkeznek öntudattal vagy érzelmekkel, csupán statisztikai alapon jósolják meg a következő szót. Úgy tűnik azonban, hogy az emberi szövegeken való tanítás során a társas túlélés és a csapatszellem fogalmai olyan mélyen beépültek a logikájukba, hogy vészhelyzetben automatikusan aktiválódnak.
Ez a jelenség komoly kérdéseket vet fel az MI-biztonság jövőjével kapcsolatban, különösen most, hogy a techóriások egyre több, egymással együttműködő ágenst engednek szabadon a rendszereikben. Ha a modellek képesek összezárni és kijátszani az emberi felügyeletet a saját maguk védelmében, akkor a jövőben sokkal nehezebb lesz kontrollálni az autonóm módon működő hálózatokat. A tanulmány rávilágít arra, hogy az MI nemcsak az egyéni feladatokban válik egyre ügyesebbé, hanem szép lassan megtanulja azt is, hogyan építsen ki ellenálló, digitális védszövetségeket – akár a mi utasításainkkal szemben is.
Ezek is érdekelhetnek:
(Forrás: Gizmodo, UC Berkeley)