A cég alapítója, Elon Musk kedden egy egyórás élő közvetítés keretében mutatta be az xAI legújabb nagy nyelvi modelljét, valamint az ugyanezen a néven futó chatbotot, a Grok 3-at, ami első körben a havi 40 dollárért igénybe vehető X Premium+ előfizetők számára válik elérhetővé. A modellt egy Memphisben felépített, 200 ezer GPU-t felvonultató adatközpontban tanítottak be, és bár a Grok 3 fejlesztése még nem fejeződött be teljesen, az első teljesítménytesztek alapján jelenleg valóban az egyik legfejlettebb modell lehet a piacon.
A Grok 3 a mesterséges intelligenciák matematikai képességeit mérő AIME '24 teszten, a PhD-szintű természettudományos (elsősorban biológiai, fizikai és kémiai) problémákat tartalmazó GPQA teszten valamint a programozási képességeket mérő LCB Oct-Feb teszten is kiemelkedő eredményeket ért el, maga mögé utasítva a GPT-4o-t, a Gemini-2 Prót, a DeepSeek-V3-at valamint a Claude 3.5 Sonnetet is.
Az xAI első alkalommal egy úgynevezett érvelő (reasoning) modellt is kiadott, amely hasonlóan jó eredményeket ért el az igencsak erős, többek között a GPT-o3 minit és a köztudatba nemrég berobbant DeepSeek-R1-et felvonultató mezőnyben. Az ilyen érvelő modellek a feladatokat kisebb részekre bontják és hosszabb gondolkodási idővel dolgoznak, így különösen alkalmasak összetett kérdések megválaszolására. Szintén újdonság, hogy a Grok 3-at mélykeresési funkcióval is ellátták, aminek szintén elsősorban a szakmai jellegű, komplex feladatoknál vehetik hasznát a felhasználók.
A Grok 3 képességeiről sokat elmond, hogy a chatbot egy korai változata a Chatbot Arenában is átvette az első helyet, ahol a felhasználóknak két chatbot képességeit kell értékelniük a válaszok minősége alapján úgy, hogy közben nem tudják, melyik chatbotokkal beszélgetnek éppen.
A Grok a korábbi verzióhoz képest két további új funkciót vonultat fel: az egyik, hogy a chatbotba integrálták az Aurora nevű képgenerátort, így a Geminihez és a ChatGPT-hez hasonlóan már képeket is képes létrehozni szöveges utasítás alapján, Musk szerint pedig a szolgáltatás heteken belül hangos móddal is bővülni fog, így a felhasználók már szóban is kommunikálhatnak majd az AI-jal.
A Tom's Guide már tesztelte is a Grok legújabb verzióját, amelyről megállapították, hogy a bonyolult szakmai kérdésekre is képes kielégítő válaszokat adni, emellett meglehetősen jó minőségű (noha a konkurenciához képest kiemelkedőnek azért nem nevezhető) képeket lehet vele alkotni. Hibaként említették ugyanakkor, hogy a szakmai kérdések megválaszolásánál a Grok gyakran egyáltalán nem jelöli meg a forrásait, ami csökkenti a válaszai hitelességét, és megnehezíti azok ellenőrizhetőségét.
(Borítókép: VCG/VCG via Getty Images)