Az OpenAI májusban mutatta be a GPT-4o nagy nyelvi modellt, amelyet azóta alapméretezetté is tettek a ChatGPT-ben, azonban az új változat legizgalmasabb funkciójára meglehetősen sokat kellett várni. Bár a GPT-4o-val a chatbotnak a szövegértése és a válaszai is sokat javultak, Sam Altman cége a májusi bemutatón elsősorban azzal nyűgözte le a közönséget, hogy a chatbot a korábbinál sokkal jobban, már-már emberien tud élőszóban kommunikálni a felhasználókkal.
Az Advanced Voice Mode-ot az OpenAI végül szeptember végén tette elérhetővé a világ nagy részén, az EU-ban viszont az augusztusban hatályba lépett AI Act (azaz mesterséges intelligencia jogszabály) miatt csak a múlt héten aktiválták a szolgáltatást. Az új funkció ennek megfelelően immár a magyar felhasználók számára is elérhető, és bár a magyarul Speciális Hang módnak elnevezett megoldás hivatalosan csak a fizetős Plus szolgáltatással vehető igénybe, korlátozottan azért az ingyenes verziót használók is kipróbálhatják, hogy mit tud.
A Speciális Hang mód egyelőre a Chat GPT webes verziójában nem, csak az alkalmazásban érhető el, így ha ki akarjuk próbálni, először is érdemes frissíteni az appot a legfrissebb verzióra. Az alkalmazásban belépve egy rövid (a szövegezés alapján feltehetőleg fordítóprogrammal fordított) tájékoztató fogad minket az új funkcióról, amit a képernyő jobb alsó sarkában található ikonra kattintva érhetünk el. Itt a jobb felső sarokban található menüben állíthatjuk be, hogy a chatbot milyen hangon kommunikáljon velünk, majd ha a képernyő közepén látható fekete kör kiszélesedik egy felhőszerű képpé, el is kezdtünk beszélgetni a mesterséges intelligenciával.
Tapasztalataink szerint a Chat GPT valóban sokkal jobban kommunikál az eddigieknél: a hanghordozása és a használt kifejezések egészen emberszerűvé teszik a chatbotot, ami gyorsabban is reagál az elhangzottakra. Újdonság, hogy az AI-t immár félbe is szakíthatjuk mondat közben, ami sokkal pörgősebb párbeszédeket tesz lehetővé. Az érzéseink ezzel együtt felemásak, hiszen az OpenAI által májusban megígért funkciók közül több még nem érkezett meg, amelyek pedig igen, azok nem minden esetben működnek olyan olajozottan, mint a bemutatón. A chatbotot például valóban megkérhetem arra, hogy fordítson nekünk élőben két nyelv között, mintha csak egy tolmács is ülne az asztalnál, de az első benyomásaink szerint angol-magyar fordítás esetén a chatbot elég nagy hibaszázalékkal dolgozik. Ennél is kiábrándítóbb, hogy bár a GPT-4o prezentációjának nagy részét az tette ki, hogy a multimodális nagy nyelvi modell mennyire sokrétűen használható arra, hogy élőben is tud képeket és videókat értelmezni, amikor a kamerát bekapcsolva megkérték a Chat GPT-t, hogy mondja el, mit lát a képen, csupán azt a választ kaptuk, hogy erre egyelőre nem képes.
Az OpenAI-nak ezzel együtt ismét sikerült lépéselőnyre szert tennie a versenytársakkal szemben, hiszen hasonló funkcióval jelenleg csak kevés chatbot rendelkezik, és jellemzően azok is erősen korlátozott funkcionalitással működnek. A Google Gemini például augusztus óta már szintén képes hangosan is kommunikálni a felhasználókkal, és az "emberszerűségében" is felveszi a versenyt a Chat GPT speciális hang módjával, ám a Gemini Live egyelőre csak angol nyelven ért, ráadásul félbe sem szakíthatjuk mondat közben.