Hogy az év vége közeledtével mennyire besűrűsödtek a nagy bejelentések, ahhoz elég megnéznünk az elmúlt hét nap történéseit: először a Meta mutatta be az új Llama 3.3 modelljét, majd az OpenAI tette elérhetővé az o1 modell fejlettebb Pro verzióját, néhány nappal később pedig ezt is megfejelték a Sora nevű videógenerátor nyilvánosan elérhető verziójával. Ekkor talán kevesen gondolták volna, de a java még hátra volt.
A két nagy cég közül először a Google lépett, akik szerdán bejelentették a Gemini nevű nagy nyelvi modelljük (LLM) következő generációját, a Gemini 2-t. Ezt egyelőre a fejlesztők számára tették elerhetővé, ugyanakkor a Gemini 2.0 Flasht már beépítették a chatbot webes verziójába is, így a Gemini oldalán már mindenki kipróbálhatja, mennyit fejlődött a Google mesterséges intelligenciája. Ehhez nincs más dolgunk, mint a bal felső sarokban található legördülő menüből kiválasztani a 2.0 Flash Experimentalt.
A cég blogbejegyzése szerint a 2.0 Flash majdnem mindenben előrelép a jelenleg alapméretezett 1.5 Pro modellhez képest, többek között matematikai feladatok megoldásában, kódolásban, tényszerűségben és érvelésben valamint a képek és videók értelmezésében is jobb, mint az elődje, ráadásul a multimodalitás területén is sokat fejlődött. Ez azt jelenti, hogy a Gemini immár nem csak értelmezni tudja a képeket, hangokat és videókat, de a válaszaiban is képes kombinálni a különböző formátumokat.
Hogy az új mesterséges intelligencia mi mindenre lesz képes, abból elég jó ízelítőt ad a Yaron Been által készített videó, akinek a Gemini először ahhoz adott tippeket a kamera képét valós időben értelmezve, hogy hogyan lenne érdemes beállítani a fényeket a videóhoz, majd a képernyőmegosztás funkciót használva segített a videó készítőjének különböző feladatok megoldásában és a képernyőn megjelenő szövegek felolvasásában és összefoglalásában.
A Google a blogbejegyzésben nagy hangsúlyt fektetett az ágensekre, vagyis az olyan alkalmazásokra, amelyek segítségével a Gemini a jövőben valódi asszisztensként funkcionálva különböző feladatokat végezhet el helyettünk. A cég jelentősen továbbfejlesztette a májusban bemutatott - egyelőre csak egy szűk kör számára elérhető - Project Astrát, ami immár több nyelven is képes kommunikálni, tudja használni a Google keresőt, a Google Lens-t és a Google Mapset is, emellett sokkal gyorsabban reagál az elhangzottakra és a memóriája is 10 percre növekedett. A Google szerint az ágenst hamarosan kísérleti okosszemüvegeken is elkezdik tesztelni, de ezekről ennél több információt egyelőre nem osztottak meg.
Legalább ilyen érdekes a most bejelentett Project Mariner is, ami - ahogy azt a neve is jelzi - egyelőre szintén fejlesztési fázisban van, és a számítógépet fogja tudni kezelni helyettünk. Ahogy a Been videójában is látható, a Gemini igencsak jó abban, hogy értelmezze a számítógép képernyőjén megjelenő szövegeket, programkódokat, képeket és egyéb alakzatokat, a Project Mariner pedig ezt azzal egészíti ki, hogy a generatív AI egy Chrome-bővítmény segítségével képes lesz gépelni, scrollozni és a kurzort irányítani is, így passzív szemlélőből egy valódi asszisztenssé válik, aki az utasításunkra bármilyen feladatot elvégez majd.
A Google emellett bejelentett egy Jules névre keresztelt ágenst, ami a fejlesztőknek segít a programozási feladatokban, valamint egy olyan asszisztenst is, ami videójátékokban tud segíteni a felhasználóknak. Utóbbiról egy demóvideót is kiadtak, ahol a Clash of Clans és a Hay Day nevű játékokon mutatták be, hogyan segítheti a játékost a Gemini.
Az OpenAI idei egyik legizgalmasabb újdonsága a ChatGPT-hez bejelentett Advanced Voice Mode (magyarul Speciális Hang mód) volt, amelyet májusban többek között azzal demóztak, hogy a szinte emberien kommunikáló hangasszisztens a kamera segítségével immár az őt körülvevő világot is képes érzékelni, így akár arra is képes, hogy kő-papír-ollóban bíráskodjon. A korábbinál jóval fejlettebb hangos mód végül szeptemberben (az EU-ban pedig októberben) vált elérhetővé a felhasználók számára, sokak csalódására viszont a "látás" funkció ekkor még nem volt hozzáférhető.
Ezt az adósságát pótolta most az OpenAI, akik csütörtökön bejelentették, hogy a héten valamint a jövő hét folyamán a ChatGPT Plus valamint Pro előfizetők rendelkezésére bocsátják az Advanced Voice Mode with vision funkciót. Az új szolgáltatás szinte kimeríthetetlen lehetőségeket tartogat: a chatbotot használhatjuk idegenvezetőként, egy magántanárhoz hasonlóan segíthet a matematikai feladványok megoldásában, de akár az öltözködésünkkel kapcsolatban is kérhetünk tőle tanácsot, vagy egyszerűen megkérhetjük, hogy mondja el, hogy mit lát - utóbbi funkció többek között a látássérülteknek is hasznos segítség lehet. A Speciális Hang mód ráadásul nem csak a kamera képét tudja értelmezni, de képernyőtükrözéssel a telefonunk vagy számítógépünk képét is megoszthatjuk vele, így hasznos tanácsokat tud adni például a programok kezelésével, dokumentumok kitöltésével és egyebekkel kapcsolatban is.
Ahogy arról a TechCrunch beszámolt, a funkció az EU-ban egyelőre nem lesz elérhető, de a Speciális Hang mód példájából kiindulva joggal reménykedhetünk benne, hogy nem kell rá hónapokat várni, mire hozzánk is eljut.