A Google máris bejelentette az új AI-modelljét, ami a Gemini 1.0-nál is sokkal fejlettebb

2024 / 02 / 17 / Bobák Áron

#google #MI #mesterséges intelligencia #alphabet

A Google máris bejelentette az új AI-modelljét, ami a Gemini 1.0-nál is sokkal fejlettebb

A Google alig egy hete tette elérhetővé a ChatGPT kihívójának szánt Gemini legerősebb változatát, a Gemini 1.0 Ultrát, de máris bejelentettek egy új modellt.

A Gemini 1.5-nek egyelőre csak a Pro verzióját tették elérhetővé a fejlesztők valamint vállalati felhasználók szűk köre számára, de a Google blogbejegyzése szerint már ez is olyan tudással rendelkezik, mint az 1.0-ás verzió legerősebb változata, miközben jóval kevesebb számítási kapacitást igényel.

A korábbi modellhez képest a legnagyobb különbség, hogy a Gemini 1.5 jóval hosszabb szövegeket is képes kontextusban értelmezni. “Sikerült jelentősen növelnünk, hogy a modell mekkora mennyiségű információt tud feldolgozni” - írja Sundar Pichai, a Google vezérigazgatója, hozzátéve, hogy a Gemini 1.5 akár egymillió tokenből álló kontextusablakot is képes kezelni.

A ChatGPT-t is lenyomja - állítja a Google az új mesterséges intelligenciájáról A Google szerdán mutatta be a Gemini névre keresztelt nagy nyelvi modelljét, amit azonnal integráltak is a Bard chatbotba.

Hogy ez mit jelent, azt Demis Hassabis, a Google AI-programját vezető Deepmind vezérigazgatója magyarázta el. “Az AI modell kontextusablakát tokenek alkotják, amelyek az információ feldolgozásához használt építőelemek” - írja. “A tokenek lehetnek szavak, képek, videók, hanganyagok vagy kódok teljes részei vagy alrészei. Minél nagyobb a modell kontextusablakának mérete, annál több információt képes befogadni és feldolgozni egy utasításban, ezáltal pedig az eredmény is következetesebb, relevánsabb és hasznosabb lesz”.

Ahogy Hassabis írja, a Gemini 1.5 Pro alapvetően ugyanúgy 128 ezer tokenes konextusablakkal rendelkezik, mint a nagy rivális OpenAI legfejlettebb nyelvi modellje, a GPT-4, azonban ezt a fejlesztőknek egymillióra emelték. És ez még semmi, hiszen a tesztek során tízmillió tokenes kontextusablakkal is sikeresen tesztelték a modellt.

Ez a gyakorlatban azt jelenti, hogy a Gemini 1.5 Pro képes kontextusban kezelni egyórányi videót, 11 órányi hanganyagot, 30 ezer sornyi kódot vagy 700 ezer szavas írott szöveget is. Hassabis példaként megemlíti, hogy a tesztfázisban a Gemininek megadták az Apollo-11 misszió teljes hanganyagának 402 oldalas leiratát, amelyben a modell képes volt értelmezni a párbeszédeket, a történéseket valamint az adatokat is. Egy másik tesztben egy 44 perces Buster Keaton filmet tápláltak be a rendszerbe, amelyben a mesterséges intelligencia gond nélkül azonosította a film cselekményét és fordulópontjait is.

(Borítókép: Pavlo Gonchar/SOPA Images/LightRocket via Getty Images)

Már képeket is tud generálni és magyarul is jobban működik a Google chatbotja A Gemini nagy nyelvi modellel felturbózott Bard sokat fejlődött például a hosszabb szövegek összefoglalásában, emellett angol nyelvterületen már arra is képes, hogy a beírt szövegnek megfelelő képeket generáljon.