Bemutatták a Grok 3-at, ami Elon Musk szerint mindenben felülmúlja a többi mesterséges intelligenciát

2025 / 02 / 19 / Bobák Áron

#MI #mesterséges intelligencia #Elon Musk #ai

Bemutatták a Grok 3-at, ami Elon Musk szerint mindenben felülmúlja a többi mesterséges intelligenciát

Az xAI legújabb nagy nyelvi modelljén alapuló chatbot az első teszteredmények szerint matematikában, természettudományokkal kapcsolatos kérdésekben és programozási feladatokban is felülmúlja a ChatGPT-t, a Geminit és a DeepSeeket is.

A cég alapítója, Elon Musk kedden egy egyórás élő közvetítés keretében mutatta be az xAI legújabb nagy nyelvi modelljét, valamint az ugyanezen a néven futó chatbotot, a Grok 3-at, ami első körben a havi 40 dollárért igénybe vehető X Premium+ előfizetők számára válik elérhetővé. A modellt egy Memphisben felépített, 200 ezer GPU-t felvonultató adatközpontban tanítottak be, és bár a Grok 3 fejlesztése még nem fejeződött be teljesen, az első teljesítménytesztek alapján jelenleg valóban az egyik legfejlettebb modell lehet a piacon.

A Grok 3 a mesterséges intelligenciák matematikai képességeit mérő AIME '24 teszten, a PhD-szintű természettudományos (elsősorban biológiai, fizikai és kémiai) problémákat tartalmazó GPQA teszten valamint a programozási képességeket mérő LCB Oct-Feb teszten is kiemelkedő eredményeket ért el, maga mögé utasítva a GPT-4o-t, a Gemini-2 Prót, a DeepSeek-V3-at valamint a Claude 3.5 Sonnetet is.

A Grok 3 eredményei más nagy nyelvi modellekkel összevetve a mesterséges intelligenciák képességeit osztályozó benchmark-teszteken

Az xAI első alkalommal egy úgynevezett érvelő (reasoning) modellt is kiadott, amely hasonlóan jó eredményeket ért el az igencsak erős, többek között a GPT-o3 minit és a köztudatba nemrég berobbant DeepSeek-R1-et felvonultató mezőnyben. Az ilyen érvelő modellek a feladatokat kisebb részekre bontják és hosszabb gondolkodási idővel dolgoznak, így különösen alkalmasak összetett kérdések megválaszolására. Szintén újdonság, hogy a Grok 3-at mélykeresési funkcióval is ellátták, aminek szintén elsősorban a szakmai jellegű, komplex feladatoknál vehetik hasznát a felhasználók.

A Grok 3 képességeiről sokat elmond, hogy a chatbot egy korai változata a Chatbot Arenában is átvette az első helyet, ahol a felhasználóknak két chatbot képességeit kell értékelniük a válaszok minősége alapján úgy, hogy közben nem tudják, melyik chatbotokkal beszélgetnek éppen.

A Grok a korábbi verzióhoz képest két további új funkciót vonultat fel: az egyik, hogy a chatbotba integrálták az Aurora nevű képgenerátort, így a Geminihez és a ChatGPT-hez hasonlóan már képeket is képes létrehozni szöveges utasítás alapján, Musk szerint pedig a szolgáltatás heteken belül hangos móddal is bővülni fog, így a felhasználók már szóban is kommunikálhatnak majd az AI-jal.

A Tom's Guide már tesztelte is a Grok legújabb verzióját, amelyről megállapították, hogy a bonyolult szakmai kérdésekre is képes kielégítő válaszokat adni, emellett meglehetősen jó minőségű (noha a konkurenciához képest kiemelkedőnek azért nem nevezhető) képeket lehet vele alkotni. Hibaként említették ugyanakkor, hogy a szakmai kérdések megválaszolásánál a Grok gyakran egyáltalán nem jelöli meg a forrásait, ami csökkenti a válaszai hitelességét, és megnehezíti azok ellenőrizhetőségét.

(Borítókép: VCG/VCG via Getty Images)

Négy úttörő funkció, amivel a mesterséges intelligencia a feje tetejére állíthatja, ahogyan a telefonunkat használjuk A Samsung Galaxy S25-be integrált Gemini az egyik legizgalmasabb dolog, ami a telefonokkal történhetett, de hogy a gyakorlatban mennyire lesznek hasznosak az MI nyújtotta előnyök, az még a jövő zenéje.