A Google bejelentette az új csodafegyverét, de az OpenAI azonnal rákontrázott

2024 / 12 / 13 / Bobák Áron
A Google bejelentette az új csodafegyverét, de az OpenAI azonnal rákontrázott
Kétségtelen, hogy 2024 egészen elsöprő iramot diktált a generatív mesterséges intelligencia fejlesztésében, hiszen szinte nem telt el úgy hét, hogy a területen érdekelt cégek ne jelentettek volna be valamilyen forradalminak tekinthető újdonságot. December viszont még az eddigi tempóhoz képest is igazi tűzijátékot hozott, amelynek a főszereplői természetesen az OpenAI és a Google voltak.

Hogy az év vége közeledtével mennyire besűrűsödtek a nagy bejelentések, ahhoz elég megnéznünk az elmúlt hét nap történéseit: először a Meta mutatta be az új Llama 3.3 modelljét, majd az OpenAI tette elérhetővé az o1 modell fejlettebb Pro verzióját, néhány nappal később pedig ezt is megfejelték a Sora nevű videógenerátor nyilvánosan elérhető verziójával. Ekkor talán kevesen gondolták volna, de a java még hátra volt.

Gemini 2.0

A két nagy cég közül először a Google lépett, akik szerdán bejelentették a Gemini nevű nagy nyelvi modelljük (LLM) következő generációját, a Gemini 2-t. Ezt egyelőre a fejlesztők számára tették elerhetővé, ugyanakkor a Gemini 2.0 Flasht már beépítették a chatbot webes verziójába is, így a Gemini oldalán már mindenki kipróbálhatja, mennyit fejlődött a Google mesterséges intelligenciája. Ehhez nincs más dolgunk, mint a bal felső sarokban található legördülő menüből kiválasztani a 2.0 Flash Experimentalt.

A cég blogbejegyzése szerint a 2.0 Flash majdnem mindenben előrelép a jelenleg alapméretezett 1.5 Pro modellhez képest, többek között matematikai feladatok megoldásában, kódolásban, tényszerűségben és érvelésben valamint a képek és videók értelmezésében is jobb, mint az elődje, ráadásul a multimodalitás területén is sokat fejlődött. Ez azt jelenti, hogy a Gemini immár nem csak értelmezni tudja a képeket, hangokat és videókat, de a válaszaiban is képes kombinálni a különböző formátumokat.

Hogy az új mesterséges intelligencia mi mindenre lesz képes, abból elég jó ízelítőt ad a Yaron Been által készített videó, akinek a Gemini először ahhoz adott tippeket a kamera képét valós időben értelmezve, hogy hogyan lenne érdemes beállítani a fényeket a videóhoz, majd a képernyőmegosztás funkciót használva segített a videó készítőjének különböző feladatok megoldásában és a képernyőn megjelenő szövegek felolvasásában és összefoglalásában.

A Google a blogbejegyzésben nagy hangsúlyt fektetett az ágensekre, vagyis az olyan alkalmazásokra, amelyek segítségével a Gemini a jövőben valódi asszisztensként funkcionálva különböző feladatokat végezhet el helyettünk. A cég jelentősen továbbfejlesztette a májusban bemutatott - egyelőre csak egy szűk kör számára elérhető - Project Astrát, ami immár több nyelven is képes kommunikálni, tudja használni a Google keresőt, a Google Lens-t és a Google Mapset is, emellett sokkal gyorsabban reagál az elhangzottakra és a memóriája is 10 percre növekedett. A Google szerint az ágenst hamarosan kísérleti okosszemüvegeken is elkezdik tesztelni, de ezekről ennél több információt egyelőre nem osztottak meg.

Legalább ilyen érdekes a most bejelentett Project Mariner is, ami - ahogy azt a neve is jelzi - egyelőre szintén fejlesztési fázisban van, és a számítógépet fogja tudni kezelni helyettünk. Ahogy a Been videójában is látható, a Gemini igencsak jó abban, hogy értelmezze a számítógép képernyőjén megjelenő szövegeket, programkódokat, képeket és egyéb alakzatokat, a Project Mariner pedig ezt azzal egészíti ki, hogy a generatív AI egy Chrome-bővítmény segítségével képes lesz gépelni, scrollozni és a kurzort irányítani is, így passzív szemlélőből egy valódi asszisztenssé válik, aki az utasításunkra bármilyen feladatot elvégez majd.

A Google emellett bejelentett egy Jules névre keresztelt ágenst, ami a fejlesztőknek segít a programozási feladatokban, valamint egy olyan asszisztenst is, ami videójátékokban tud segíteni a felhasználóknak. Utóbbiról egy demóvideót is kiadtak, ahol a Clash of Clans és a Hay Day nevű játékokon mutatták be, hogyan segítheti a játékost a Gemini.

Szemeket kapott a ChatGPT

Az OpenAI idei egyik legizgalmasabb újdonsága a ChatGPT-hez bejelentett Advanced Voice Mode (magyarul Speciális Hang mód) volt, amelyet májusban többek között azzal demóztak, hogy a szinte emberien kommunikáló hangasszisztens a kamera segítségével immár az őt körülvevő világot is képes érzékelni, így akár arra is képes, hogy kő-papír-ollóban bíráskodjon. A korábbinál jóval fejlettebb hangos mód végül szeptemberben (az EU-ban pedig októberben) vált elérhetővé a felhasználók számára, sokak csalódására viszont a "látás" funkció ekkor még nem volt hozzáférhető.

Ezt az adósságát pótolta most az OpenAI, akik csütörtökön bejelentették, hogy a héten valamint a jövő hét folyamán a ChatGPT Plus valamint Pro előfizetők rendelkezésére bocsátják az Advanced Voice Mode with vision funkciót. Az új szolgáltatás szinte kimeríthetetlen lehetőségeket tartogat: a chatbotot használhatjuk idegenvezetőként, egy magántanárhoz hasonlóan segíthet a matematikai feladványok megoldásában, de akár az öltözködésünkkel kapcsolatban is kérhetünk tőle tanácsot, vagy egyszerűen megkérhetjük, hogy mondja el, hogy mit lát - utóbbi funkció többek között a látássérülteknek is hasznos segítség lehet. A Speciális Hang mód ráadásul nem csak a kamera képét tudja értelmezni, de képernyőtükrözéssel a telefonunk vagy számítógépünk képét is megoszthatjuk vele, így hasznos tanácsokat tud adni például a programok kezelésével, dokumentumok kitöltésével és egyebekkel kapcsolatban is.

Ahogy arról a TechCrunch beszámolt, a funkció az EU-ban egyelőre nem lesz elérhető, de a Speciális Hang mód példájából kiindulva joggal reménykedhetünk benne, hogy nem kell rá hónapokat várni, mire hozzánk is eljut.

Öt fantasztikus funkció, amire használhatjuk a ChatGPT új hangos módját Ahogy korábban írtunk róla, a ChatGPT Speciális Hang módja immár Magyarországon is elérhető, így rá is vetettük magunkat a chatbotra, hogy megnézzük, hol vannak a mesterséges intelligencia határai. Nem nagyon találtuk meg őket.


Ki vigyáz az adataidra, ha te nem? Netezz biztonságosan!
Az ESET otthoni biztonsági csomagjai között mindenki megtalálhatja az internetezési szokásaihoz leginkább illő védelmet. A diákok, pedagógusok és nyugdíjasok új
A következő 25 év - mítoszok, jóslatok és a valóság
A következő 25 év - mítoszok, jóslatok és a valóság
Európa legnagyobb jövőfesztiválja, a Brain Bar idén is megnyitja kapuit. A rendezvény a 21. század első negyedének elteltével arra a kérdésre keresi a választ: hogy fest majd az emberiség következő 25 éve. A diákok és pedagógusok számára ingyenes eseménynek szeptember 18-19-én a Magyar Zene Háza ad otthont.
A csaló telefonhívásokon és a nem létező gázszámlákon túl –  7 módszer, amivel ellophatják az adatainkat az interneten
A csaló telefonhívásokon és a nem létező gázszámlákon túl – 7 módszer, amivel ellophatják az adatainkat az interneten
Az ESET kiberbiztonsági szakértői most összefoglalják, milyen módszerekkel lophatják el a személyes adatainkat – és mit tehetünk azért, hogy ez ne történhessen meg.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.