Májusban az OpenAI chatbotjának az aktuális verziója, a GPT-4o azzal lepte meg a világot, hogy megtévesztésig emberi módon képes kommunikálni élőszóban. És nem elég, hogy kérdezhetünk tőle, még szinkrontolmácsolni vagy matematikai feladatokat megoldani is képes, sőt, a gyengénlátóknak le tudja írni a környezetüket - mindezt olyan természetességgel, mintha egy másik emberrel beszélgetnénk. A Google erre napokon belül rákontrázott az ehhez hasonló Gemini Live-val, igaz, részletesen csak augusztus közepén mutatta be a szoftvert, amelyet
"valóban hasznos, személyes AI-asszisztensként" aposztrofált.
A Gemini Live képességei hasonlóak a 4o-éhoz. Több férfi és női hangból is választhatunk, és szabadon vághatunk az asszisztens szavába, mint egy átlagos társalgás közben, olyannyira, hogy a program később emlékezni fog rá, hogy mit szeretett volna mondani, mielőtt belefojtottuk a szót. Ehhez azonban Gemini Advanced előfizetőnek kellett lenni, ami havi 8 790 forintba kerül. Ez pedig sok kísérletező kedvű felhasználónak elvehette a lelkesedését, ugyanis a Google-nél végül úgy döntöttek, hogy mostantól a Gemini Live mindenkinek ingyenes lesz - számolt be a Gizmodo.
Ezzel a Google Asszisztens gyakorlatilag újjászületett, azonban a megszokott módon férhetünk hozzá: a bekapcsoló gomb hosszú lenyomása után a jövőben a Gemini kék csillaga fog megjelenni. Látja, amit mi is látunk a képernyőnkön, vagyis faggathatjuk például egy YouTube-videóval kapcsolatban, és képet is kellene, hogy generáljon, ha szépen megkérjük rá, igaz, ebben nekünk egyelőre nem engedelmeskedett. Mindehhez csak a Gemini appot kell letöltenünk a Play áruházból, majd engedélyeznünk kell, hogy új asszisztensünk legyen. Ugyanakkor a Live természetes, emberi párbeszédeit egyelőre kénytelenek vagyunk angolul lefolytatni; maga az asszisztens ugyan azt állítja, hogy tudunk vele magyarul társalogni, de úgy tűnik, téved. Ugyan valóban át tud váltani magyarra, de abban a pillanatban visszakapjuk a korábban megszokott, utólag már robotszerűnek ható hangot. És persze azt se felejtsük el, hogy attól, hogy egy program szépen beszél, még nem biztos, hogy igazat mond: amikor hazai digitális hirdetési szakemberekről kérdeztem, kiderült, hogy Gemini szerint a Google Magyarország vezetője Balogh Péter, miközben valójában Bíró Pál.
A Microsoft ezzel párhuzamosan a számítógépeken futó, Copilot nevű asszisztensét tette okosabbá. A Windows soron következő frissítésével együtt érkezik a Copilot Vision, ami szintén képes lesz felismerni, kommentálni, alakítani, ami a képernyőnkön zajlik, mindezt a Copilot Voice technológia segítségével, természetesnek ható élőbeszéddel. Vagyis az elmúlt évtized esetlen, kevés dologra alkalmas hangasszisztenseitől tényleg eljutottunk oda, hogy bonyolultabb kérdéseket és feladatokat szegezhetünk a számítógépeinknek. A kérdés már csak az, hogy mennyire és mikor érezzük mindezt kényelmesebbnek, természetesebbnek és hatékonyabbnak, mint hogy gombokat nyomkodjunk vagy szöveget gépeljünk be.