A Google máris bejelentette az új AI-modelljét, ami a Gemini 1.0-nál is sokkal fejlettebb

2024 / 02 / 17 / Bobák Áron
A Google máris bejelentette az új AI-modelljét, ami a Gemini 1.0-nál is sokkal fejlettebb
A Google alig egy hete tette elérhetővé a ChatGPT kihívójának szánt Gemini legerősebb változatát, a Gemini 1.0 Ultrát, de máris bejelentettek egy új modellt.

A Gemini 1.5-nek egyelőre csak a Pro verzióját tették elérhetővé a fejlesztők valamint vállalati felhasználók szűk köre számára, de a Google blogbejegyzése szerint már ez is olyan tudással rendelkezik, mint az 1.0-ás verzió legerősebb változata, miközben jóval kevesebb számítási kapacitást igényel.

A korábbi modellhez képest a legnagyobb különbség, hogy a Gemini 1.5 jóval hosszabb szövegeket is képes kontextusban értelmezni. “Sikerült jelentősen növelnünk, hogy a modell mekkora mennyiségű információt tud feldolgozni” - írja Sundar Pichai, a Google vezérigazgatója, hozzátéve, hogy a Gemini 1.5 akár egymillió tokenből álló kontextusablakot is képes kezelni.

A ChatGPT-t is lenyomja - állítja a Google az új mesterséges intelligenciájáról A Google szerdán mutatta be a Gemini névre keresztelt nagy nyelvi modelljét, amit azonnal integráltak is a Bard chatbotba.

Hogy ez mit jelent, azt Demis Hassabis, a Google AI-programját vezető Deepmind vezérigazgatója magyarázta el. “Az AI modell kontextusablakát tokenek alkotják, amelyek az információ feldolgozásához használt építőelemek” - írja. “A tokenek lehetnek szavak, képek, videók, hanganyagok vagy kódok teljes részei vagy alrészei. Minél nagyobb a modell kontextusablakának mérete, annál több információt képes befogadni és feldolgozni egy utasításban, ezáltal pedig az eredmény is következetesebb, relevánsabb és hasznosabb lesz”.

Ahogy Hassabis írja, a Gemini 1.5 Pro alapvetően ugyanúgy 128 ezer tokenes konextusablakkal rendelkezik, mint a nagy rivális OpenAI legfejlettebb nyelvi modellje, a GPT-4, azonban ezt a fejlesztőknek egymillióra emelték. És ez még semmi, hiszen a tesztek során tízmillió tokenes kontextusablakkal is sikeresen tesztelték a modellt.

Ez a gyakorlatban azt jelenti, hogy a Gemini 1.5 Pro képes kontextusban kezelni egyórányi videót, 11 órányi hanganyagot, 30 ezer sornyi kódot vagy 700 ezer szavas írott szöveget is. Hassabis példaként megemlíti, hogy a tesztfázisban a Gemininek megadták az Apollo-11 misszió teljes hanganyagának 402 oldalas leiratát, amelyben a modell képes volt értelmezni a párbeszédeket, a történéseket valamint az adatokat is. Egy másik tesztben egy 44 perces Buster Keaton filmet tápláltak be a rendszerbe, amelyben a mesterséges intelligencia gond nélkül azonosította a film cselekményét és fordulópontjait is.

(Borítókép: Pavlo Gonchar/SOPA Images/LightRocket via Getty Images)

Már képeket is tud generálni és magyarul is jobban működik a Google chatbotja A Gemini nagy nyelvi modellel felturbózott Bard sokat fejlődött például a hosszabb szövegek összefoglalásában, emellett angol nyelvterületen már arra is képes, hogy a beírt szövegnek megfelelő képeket generáljon.


Ebben a videóban egyenesen berepülünk egy fúziós reaktor belsejébe
Ebben a videóban egyenesen berepülünk egy fúziós reaktor belsejébe
A videó nem csak látványos, hanem pontos, koherens és reális is – avagy: igen, így működik belülről egy tokamak.
Porszívólábú robotkutya tisztítja a strandokat
A VERO névre keresztelt robot két mélységérzékelő kamera valamint egy úgynevezett konvolúciós neurális hálózat segítségével képes azonosítani az eldobált cigarettacsikkeket, majd a hátára szerelt porszívót bekapcsolva felporszívózni azokat.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.