Amióta az OpenAI tavaly novemberben bemutatta a ChatGPT nevű, mesterséges intelligenciát használó chatbotját, a konkurencia rohamléptekkel haladva igyekszik ledolgozni a tetemes hátrányát. A nagy technológiai cégek közül a Google reagált elsőként, akik idén márciusban mutatták be a saját nagy nyelvi modelljükön alapuló Bard chatbotot, majd a két, mesterséges intelligencia fejlesztésével foglalkozó részlegüket, a Google Braint és a DeepMindot összevonva gőzerővel kezdtek hozzá egy új nyelvi modell fejlesztésének. Ennek eredménye a szerdán bemutatott Gemini, amely a Google által közzétett adatok szerint a legtöbb tesztben még az OpenAI GPT-4 modelljét is könnyedén maga mögé utasítja.
Sundar Pichai és a Deepmind vezérigazgatója, Demis Hassabis az erről szóló sajtóközleményben hangsúlyozták, hogy a Geminit az alapjaitól multimodálisnak tervezték, ami azt jelenti, hogy a modell nem csak a szövegekkel, de például videókkal, képekkel, hangfelvételekkel és programkódokkal is megbirkózik. Ennek köszönhetően a Gemini a jövőben a képeket, hangokat is tudja majd értelmezni, és akár képes matematikai feladatokat is meg tud majd oldani.
Ahogy arról a The New York Times beszámolt, a Geminit a Google három változatban adja ki: a legkomplexebb, kifejezetten az összetett feladatok megoldására kifejlesztett Gemini Ultra valamikor jövőre érkezik, a Gemini Pro szerdától már elérhető a frissített Bardban, míg a Gemini Nanót a Google Pixel 8 okostelefonjában élesítették, ahol többek között olyan feladatokban vehetik hasznát a felhasználók, mint a hangfelvételek tartalmának összefoglalása vagy válaszüzenetekre tett javaslatok a Whatsappban.
Bár a Google hangsúlyozta, hogy ahogy más nyelvi modellek, úgy a Gemini sem tévedhetetlen és alkalmanként hajlamos az úgynevezett "hallucinációra" is, a Bard felhasználók számtalan területen tapasztalhatják majd az előrelépést a korábbi modellhez képes. Pichai és Hassabis elmondása szerint a chatbot pontosabb válaszokat ad a kérdésekre és valósághűbben tudja utánozni az emberi érvelést is, emellett programkódok generálásában és a szövegek tartalmának az összefoglalásában is sokat fejlődött.
Frissítés: a Gemini egyelőre csak az angol nyelvű Bradban jelent meg, és az Európai Unió területén nem használható, tehát egyelőre Magyarországon sem.
(Borítókép: Google)