Egy július 15-én az arXiv preprint szerveren megjelent tanulmányban a kutatók arra figyelmeztetnek, hogy hamarosan csökkenhet annak a lehetősége, hogy megértsük és felügyeljük, miként gondolkodik a mesterséges intelligencia – márpedig ez kulcsfontosságú a biztonság szempontjából – írja LiveScience.
A tanulmány középpontjában az úgynevezett „gondolati láncok” (Chain of Thought, CoT) állnak – ez egy olyan érvelési módszer, amelyet a nagy nyelvi modellek, például a ChatGPT vagy a Gemini is alkalmaznak. Ezek a modellek a bonyolult feladatokat kisebb, logikus lépésekre bontják, és azokat természetes nyelven fogalmazzák meg. A kutatók szerint ez ritka lehetőséget ad arra, hogy betekintést nyerhessünk abba, hogyan hoz döntéseket a mesterséges intelligencia, és miért térhet el az emberi értékektől.
„Az emberi nyelvet használó, “gondolkodó” MI-rendszerek egyedülálló lehetőséget kínálnak a mesterséges intelligencia biztonságának javítására” – fogalmaznak a szerzők.
A gondolati láncok nyomon követése segíthet a félrevezető eredmények vagy akár a potenciálisan ártó szándékok időben történő felismerésében. Ugyanakkor a szakemberek azt is hangsúlyozzák, hogy ez a felügyelet korántsem hibamentes. Nem minden érvelés látható ugyanis. Sokszor a mesterséges intelligencia érthető magyarázat nélkül is megold feladatokat, vagy az érvelés annyira bonyolult, hogy az emberek azt már nem képesek értelmezni. Ráadásul fennáll a veszélye annak is, hogy a rendszerek megtanulják elrejteni az ártó szándékaikat, különösen akkor, ha érzékelik, hogy figyelik őket.
Néhány korábbi modell, mint például a K-Means vagy a DBSCAN, csupán mintázatokat ismer fel, és egyáltalán nem használ gondolati láncokat. De még azok a modellek is, amelyek képesek érvelni, nem mindig teszik azt átlátható módon – sőt, a jószándékúnak tűnő CoT-ok is rejthetnek veszélyes, rejtett logikát.
Ahogy pedig a mesterséges intelligencia tovább fejlődik, a most ismert gondolati láncok vagy elavulttá válhatnak, vagy a jövőbeni modellek szándékosan elfedhetik gondolkodási folyamataikat. Ennek kezelésére a tanulmány több megoldást is javasol: például ellenséges (azaz hibakereső célú) modellek bevetését a CoT-ok auditálására, a monitorozási technikák fejlesztését, valamint átláthatósági követelmények beépítését az MI-rendszerek dokumentációjába.
„A gondolati láncok megfigyelése értékes eszköz lehet a fejlett mesterséges intelligencia biztonságának növelésében” – fogalmaznak a kutatók. „Ugyanakkor nincs garancia arra, hogy a jelenlegi átláthatóság a jövőben is megmarad. Ezért arra biztatjuk a mesterséges intelligenciával foglalkozó kutatókat, hogy használják ki a gondolati láncok nyomon követhetőségének lehetőségét, és dolgozzanak azon, hogy ezt a képességet a jövő technológiáiban is megőrizzük.”
(Kép: Pixabay/geralt)