Az elmúlt hétvégén a mesterséges intelligencia közössége izgalmas órákat élt át: a LMSYS Chatbot Arenán ugyanis hirtelen megjelent egy titokzatos, új AI-modell – számol be róla az Ars Technica. A LMSYS Chatbot Arena egy olyan platform, ahol nagy nyelvi modelleket tesztelhetnek és hasonlíthatnak össze egymással – és az itt feltűnt, “gpt2-chatbot” nevű modell azért keltett jelentős feltűnést, mert a képességei nem csak megegyeztek, de egyesek szerint meg is haladták a jelenleg piacvezető ChatGPT 4 képességeit.
A rejtélyt csak fokozta, hogy miután a felhasználók elkezdték tesztelni a modellt, és épp komoly vitákat generált a megjelenése, maga a modell köddé vált. A LMSYS az X-en közzétett bejegyzésében a “váratlanul nagy forgalomra” hivatkozott az eltávolítás okaként.
Maga a modell tehát felszívódott, de nem úgy a dráma, amit generált. Az események természetesen pletyka-cunamit indítottak be: egyesek szerint a titokzatos modell a GPT 4.5 vagy akár a GPT-5 tesztverziójának rejtett indítása – mások azt is elképzelhetőnek tartják, hogy talán a 2019-es GPT-2 új verziója a szóban forgó modell, amelyet új technikákkal képeztek ki. Az Ars megkereste az eset kapcsán az OpenAI-t, de jelen cikk írásáig ezzel nem frissítették a publikációjukat.
Hétfőn este azonban az OpenAI vezérigazgatója, Sam Altman elejtett egy célzást szintén az X-en:
i do have a soft spot for gpt2
— Sam Altman (@sama) April 30, 2024
Amit a leginkább úgy lehetne magyarra fordítani, hogy:
“A gpt2 igen közel áll a szívemhez”
A GPT-2, vagyis a Generative Pre-trained Transformer 2, az OpenAI által fejlesztett nyelvi modell, amely tehát 2019-ben jelent meg. Ez a modell a GPT sorozat második iterációja (a jelenlegi legújabb változat a 4-es), és több területen is jelentős fejlődést képviselt az eredeti GPT modellhez képest. A GPT-2 arról vált ismertté, hogy képes szövegek generálására magas szintű koherenciával és relevanciával. A modell mély tanulási technikákon alapszik, többek között transzformer architektúrán, ami lehetővé teszi számára, hogy összetett nyelvi mintákat sajátítson el és alkalmazzon.
A GPT-2 számos méretben érhető el, a legkisebbtől, amely csak néhány millió paramétert használ, a legnagyobbig, amely 1,5 milliárd paramétert tartalmaz. A nagyobb modellek jobban képesek megragadni a nyelvi összefüggéseket és árnyalatokat, ezáltal realisztikusabb és pontosabb szövegeket generálnak.
Az OpenAI eleinte visszatartotta a GPT-2 legnagyobb változatának nyilvánosságra hozatalát, mert aggodalmak merültek fel az esetleges káros felhasználás miatt, mint például dezinformáció terjesztése vagy hamis szövegek készítése. Később azonban a teljes modellt közzétették, miután alaposabban elemezték a kockázatokat és kidolgoztak bizonyos irányelveket a felelős használatra.
Annak ellenére tehát, hogy csak rövid ideig volt elérhető, az AI-t tesztelőket lenyűgözte a modell teljesítménye. Ethan Mollick, a Pennsylvaniai Egyetem munkatársa azt írta, hogy a modell képességei egyenrangúnak tűntek a GPT-4-gyel, sőt bizonyos szempontból meg is haladták azt. A rejtélyes modell különösen az összetett matematikai problémák megoldásában villantott nagyot, amely sok jelenlegi nyelvi modell számára továbbra is kihívást jelent, mint az ismert – habár például a GPT-4 képességei egészen jónak számítanak mára ezen a téren.
Az azonban még mindig vita tárgya, hogy a rejtélyes modell valóban jelentős előrelépést jelent-e a meglévő nagy nyelvi modellekhez, például éppen a GPT-4-hez vagy az Anthropic Claude 3 Opusához képest. A legtöbb vélemény alapján – és ide tagozódik be az Ars Technica cikkírója is – ez a titokzatos modell nem biztos, hogy az OpenAI következő nagy dobása, a várva várt GPT-5 lenne.
Ugyanakkor ez az egész hajcihő egyesek, például a programozó és az AI-kutató, Simon Willison szerint mégiscsak arra utalhat, hogy az egész jelenség mögött az OpenAI firnyákos marketingstratégiája állhat – noha az efféle “játékok” ütköznek a LMSYS szellemiségével. A LMSYS az LLM-ek nyílt fejlesztése iránti elkötelezettségéről ismert, viszont már korábban is elismerte, hogy együttműködik a különböző fejlesztőkkel, hogy azok új modelleket jelenítsenek meg a platformon.
OpenAI may be one of the most important technology companies in the world today, but they really like to communicate through hints and oracular whispers. What is GPT2?
At this rate we will only know that GPT-5 is being launched from an “I Love Bees”-esque Alternate Reality Game. https://t.co/taPtn9fhO4
— Ethan Mollick (@emollick) April 30, 2024
Többek szerint ennek az egész sztorinak azonban így mégsem igazán a rejtélyes modell a legérdekesebb részlete, hanem hogy ha az előbbi bekezdésben foglaltak igazak, akkor az eset remekül illusztrálja a nagy nyelvi modellek fejlesztését övező homályt, valamint az iparágat körüllengő finom szenzációhajhász törekvéseket. Természetesen ezek egyike sem épp üdvös irány.
Mint azt a fenti tweetben írja a Wharton professzora, Ethan Mollick:
“Az OpenAI ma a világ egyik legfontosabb technológiai vállalata, de nagyon szeretnek utalásokkal és pletykákkal kommunikálni. Mi az a GPT2?”
(A cikkhez használt képet a DALL-E generálta)