A Google bejelentette az új csodafegyverét, de az OpenAI azonnal rákontrázott

2024 / 12 / 13 / Bobák Áron

#generatív mesterséges intelligencia #gemini 2.0 #advanced voice mode #speciális hang mód

A Google bejelentette az új csodafegyverét, de az OpenAI azonnal rákontrázott

Kétségtelen, hogy 2024 egészen elsöprő iramot diktált a generatív mesterséges intelligencia fejlesztésében, hiszen szinte nem telt el úgy hét, hogy a területen érdekelt cégek ne jelentettek volna be valamilyen forradalminak tekinthető újdonságot. December viszont még az eddigi tempóhoz képest is igazi tűzijátékot hozott, amelynek a főszereplői természetesen az OpenAI és a Google voltak.

Hogy az év vége közeledtével mennyire besűrűsödtek a nagy bejelentések, ahhoz elég megnéznünk az elmúlt hét nap történéseit: először a Meta mutatta be az új Llama 3.3 modelljét, majd az OpenAI tette elérhetővé az o1 modell fejlettebb Pro verzióját, néhány nappal később pedig ezt is megfejelték a Sora nevű videógenerátor nyilvánosan elérhető verziójával. Ekkor talán kevesen gondolták volna, de a java még hátra volt.

Gemini 2.0

A két nagy cég közül először a Google lépett, akik szerdán bejelentették a Gemini nevű nagy nyelvi modelljük (LLM) következő generációját, a Gemini 2-t. Ezt egyelőre a fejlesztők számára tették elerhetővé, ugyanakkor a Gemini 2.0 Flasht már beépítették a chatbot webes verziójába is, így a Gemini oldalán már mindenki kipróbálhatja, mennyit fejlődött a Google mesterséges intelligenciája. Ehhez nincs más dolgunk, mint a bal felső sarokban található legördülő menüből kiválasztani a 2.0 Flash Experimentalt.

A cég blogbejegyzése szerint a 2.0 Flash majdnem mindenben előrelép a jelenleg alapméretezett 1.5 Pro modellhez képest, többek között matematikai feladatok megoldásában, kódolásban, tényszerűségben és érvelésben valamint a képek és videók értelmezésében is jobb, mint az elődje, ráadásul a multimodalitás területén is sokat fejlődött. Ez azt jelenti, hogy a Gemini immár nem csak értelmezni tudja a képeket, hangokat és videókat, de a válaszaiban is képes kombinálni a különböző formátumokat.

Hogy az új mesterséges intelligencia mi mindenre lesz képes, abból elég jó ízelítőt ad a Yaron Been által készített videó, akinek a Gemini először ahhoz adott tippeket a kamera képét valós időben értelmezve, hogy hogyan lenne érdemes beállítani a fényeket a videóhoz, majd a képernyőmegosztás funkciót használva segített a videó készítőjének különböző feladatok megoldásában és a képernyőn megjelenő szövegek felolvasásában és összefoglalásában.

A Google a blogbejegyzésben nagy hangsúlyt fektetett az ágensekre, vagyis az olyan alkalmazásokra, amelyek segítségével a Gemini a jövőben valódi asszisztensként funkcionálva különböző feladatokat végezhet el helyettünk. A cég jelentősen továbbfejlesztette a májusban bemutatott - egyelőre csak egy szűk kör számára elérhető - Project Astrát, ami immár több nyelven is képes kommunikálni, tudja használni a Google keresőt, a Google Lens-t és a Google Mapset is, emellett sokkal gyorsabban reagál az elhangzottakra és a memóriája is 10 percre növekedett. A Google szerint az ágenst hamarosan kísérleti okosszemüvegeken is elkezdik tesztelni, de ezekről ennél több információt egyelőre nem osztottak meg.

Legalább ilyen érdekes a most bejelentett Project Mariner is, ami - ahogy azt a neve is jelzi - egyelőre szintén fejlesztési fázisban van, és a számítógépet fogja tudni kezelni helyettünk. Ahogy a Been videójában is látható, a Gemini igencsak jó abban, hogy értelmezze a számítógép képernyőjén megjelenő szövegeket, programkódokat, képeket és egyéb alakzatokat, a Project Mariner pedig ezt azzal egészíti ki, hogy a generatív AI egy Chrome-bővítmény segítségével képes lesz gépelni, scrollozni és a kurzort irányítani is, így passzív szemlélőből egy valódi asszisztenssé válik, aki az utasításunkra bármilyen feladatot elvégez majd.

A Google emellett bejelentett egy Jules névre keresztelt ágenst, ami a fejlesztőknek segít a programozási feladatokban, valamint egy olyan asszisztenst is, ami videójátékokban tud segíteni a felhasználóknak. Utóbbiról egy demóvideót is kiadtak, ahol a Clash of Clans és a Hay Day nevű játékokon mutatták be, hogyan segítheti a játékost a Gemini.

Szemeket kapott a ChatGPT

Az OpenAI idei egyik legizgalmasabb újdonsága a ChatGPT-hez bejelentett Advanced Voice Mode (magyarul Speciális Hang mód) volt, amelyet májusban többek között azzal demóztak, hogy a szinte emberien kommunikáló hangasszisztens a kamera segítségével immár az őt körülvevő világot is képes érzékelni, így akár arra is képes, hogy kő-papír-ollóban bíráskodjon. A korábbinál jóval fejlettebb hangos mód végül szeptemberben (az EU-ban pedig októberben) vált elérhetővé a felhasználók számára, sokak csalódására viszont a "látás" funkció ekkor még nem volt hozzáférhető.

Ezt az adósságát pótolta most az OpenAI, akik csütörtökön bejelentették, hogy a héten valamint a jövő hét folyamán a ChatGPT Plus valamint Pro előfizetők rendelkezésére bocsátják az Advanced Voice Mode with vision funkciót. Az új szolgáltatás szinte kimeríthetetlen lehetőségeket tartogat: a chatbotot használhatjuk idegenvezetőként, egy magántanárhoz hasonlóan segíthet a matematikai feladványok megoldásában, de akár az öltözködésünkkel kapcsolatban is kérhetünk tőle tanácsot, vagy egyszerűen megkérhetjük, hogy mondja el, hogy mit lát - utóbbi funkció többek között a látássérülteknek is hasznos segítség lehet. A Speciális Hang mód ráadásul nem csak a kamera képét tudja értelmezni, de képernyőtükrözéssel a telefonunk vagy számítógépünk képét is megoszthatjuk vele, így hasznos tanácsokat tud adni például a programok kezelésével, dokumentumok kitöltésével és egyebekkel kapcsolatban is.

Ahogy arról a TechCrunch beszámolt, a funkció az EU-ban egyelőre nem lesz elérhető, de a Speciális Hang mód példájából kiindulva joggal reménykedhetünk benne, hogy nem kell rá hónapokat várni, mire hozzánk is eljut.

Öt fantasztikus funkció, amire használhatjuk a ChatGPT új hangos módját Ahogy korábban írtunk róla, a ChatGPT Speciális Hang módja immár Magyarországon is elérhető, így rá is vetettük magunkat a chatbotra, hogy megnézzük, hol vannak a mesterséges intelligencia határai. Nem nagyon találtuk meg őket.