Az OpenAI szeptember végén jelentette be, hogy a ChatGPT több más érdekes újdonság mellett hangalapú funkcióval is bővül, azaz a hangasszisztensekhez hasonlóan az írott szöveg helyett ezután szóban is feltehetünk neki kérdéseket, amire a program is hangosan válaszol. Ez a szolgáltatás eddig csak a chatbot előfizetéses verziójánál volt elérhető, szerda óta viszont már bárki igénybe veheti, aki az androidos vagy az iOS-es alkalmazáson keresztül használja a ChatGPT-t. A hangalapú társalgáshoz elég a képernyő alján található szövegdoboz melletti fejhallgató ikonra kattintanunk, majd kiválasztani az öt hangséma közül azt, amelyik a legszimpatikusabb. Ha a későbbiekben meggondolnánk magunkat, és azt szeretnénk, hogy a ChatGPT másik hangon kommunikáljon velünk, ezt a beállításokban, a "Voice" menüpont alatt tudjuk megváltoztatni.
Bár a hang kiválasztásánál angolul hallhatjuk, hogyan fog megszólalni a virtuális beszélgetőpartnerünk, ez senkit se tévesszen meg, ugyanis a ChatGPT élőszóban is pont olyan kiválóan kommunikál magyarul, mint írásban, egyszersmind új standardot teremtve az ember-gép kommunikációban. A chatbot nem csak a hanghordozásában tűnik sokkal emberszerűbbnek, mint bármelyik hangasszisztens, de a beszélgetések is sokkal inkább tükrözik egy valódi párbeszéd jellegzetességeit: a ChatGPT tökéletesen szerkesztett, kerek mondatokban kommunikál velünk, adott esetben visszakérdez, ráadásul nem is kell minden alkalommal külön hangutasítással felébresztenünk, ha mondani akarunk neki valamit.
Ez utóbbi a program egyik legérdekesebb funkciója, ami ugyanakkor sokak számára kifejezetten aggasztó is lehet. Mivel az alkalmazás a háttérben is tud futni, így hacsak nem zárjuk be minden használat után, a ChatGPT folyamatosan figyel, arra várva, hogy kérdezzünk tőle valamit. Emiatt aztán az is előfordult, hogy már régen mással foglalkoztam, amikor eszembe jutott megkérdezni, hogy "még mindig ott vagy?", mire a ChatGPT azonnal válaszolt, hogy igen, majd emlékeztetett rá, hogy hol tartottunk a beszélgetésben. Ez a megoldás kétségkívül sokkal intuitívabbá teszi a chatbot használatát, ráadásul rendkívül jól jön olyan helyzetekben, amikor a mesterséges intelligenciát akarjuk segítségül hívni egy feladat megoldásához. A hangos ChatGPT-nél simán megtehetjük például azt is, hogy miután elindítottuk a beszélgetést, a Chrome-ban megnyitunk egy feladatot, az abban szereplő kérdéseket pedig egyszerűen kimondjuk hangosan, és pillanatokon belül kapjuk rá a választ.
A ChatGPT-nek ez a funkciója valószínűleg még sok vitát fog kiváltani, hiszen a hangsszisztensekkel kapcsolatban eddig is vissza-visszatérő aggodalom volt, hogy titokban megfigyelik a környezetükben elhangzó beszélgetéseket. Az OpenAI oldalán fellelhető információk szerint a ChatGPT nem rögzíti a hangunkat, hanem azt egyből továbbküldi a Whisper API-nak, ami a hangosan kimondott mondatokat írott szöveggé konvertálja, majd egy másik modell a ChatGPT által erre adott szöveges választ visszaalakítja hangos beszéddé. Ez azt is jelenti, hogy a chatbottal élőszóban folytatott beszélgetéseink ugyanúgy tárolódnak, mint a többi társalgásunk és azokat utólag írásos formában vissza is tudjuk olvasni. Jogi szempontból ez azt is jelenti, hogy az OpenAI ezeket a beszélgetéseket is tárolja és felhasználja a nyelvi modellje fejlesztéséhez, kivéve, ha ezt kifejezetten megtiltjuk nekik. Ezt az OpenAI oldalán elérhető portálon, a "Make a privacy request" gombra kattintva tehetjük meg, ahol emellett a személyes adataink törlését is kérhetjük az e-mail címünk megadásával. Az alkalmazásban egyébként szintén lehetőségünk van rá, hogy a menüben a "Data Control" menüpont alatt a Chat History and Training opciót kikapcsolva letiltsuk a korábbi beszélgetéseink mentését, ám ebben az esetben azok csak 30 nap után törlődnek az OpenAI szerveréről.
Ami vitán felül áll, hogy a ChatGPT-vel való beszélgetés sokkal természetesebbnek hat, mint amikor az Amazon Alexától vagy a Google Hangsegédtől kérdezünk valamit, ez pedig nem csak abban nyilvánul meg, hogy az OpenAI chatbotja emberibben fejezi ki magát, de például töredékes, nem jól megfogalmazott mondatokból is ki tudja hámozni, hogy mit akartunk mondani - pont, mint egy valódi ember. A felhasználási lehetőségei emiatt nyilvánvalóan nagyon sokrétűek, de hogy csak egy érdekes példát említsünk,
a ChatGPT-vel úgy tudjuk az idegen nyelvű élőbeszédünket fejleszteni, hogy ehhez nincs szükségünk másik emberre.
Ehhez azt is megmondhatjuk a chatbotnak, hogy milyen témáról szeretnénk beszélgetni, majd megkérhetjük, hogy tegyen fel nekünk kérdéseket, így egy valódi beszélgetőpartnerhez hasonlóan fogja irányítani a diskurzust. A ChatGPT emellett a reakcióiban is igencsak emberszerű: amikor például arról beszélgettünk, hogy Sam Altmant néhány nappal ezelőtt elbocsátották az őt is megalkotó OpenAI éléről, megkérdezte, hogy van-e ötletem, hogy ez miért történhetett, majd miután sikerült összerakni egy érthető, de azért nyelvtanilag közel sem hibátlan választ, a chatbot azzal vette át a szót, hogy - egy valódi anyanyelvi beszélőhöz hasonlóan - elismételte grammatikailag helyesen, amit mondani akartam.
ChatGPT with voice is now available to all free users. Download the app on your phone and tap the headphones icon to start a conversation.
Sound on 🔊 pic.twitter.com/c5sCFDAWU6
— OpenAI (@OpenAI) November 21, 2023
Hasson ugyanakkor bármennyire is meggyőzőnek az emberien kommunikáló chatbot, azt azért nem szabad elfelejteni, hogy a ChatGPT továbbra is ugyanazt a nagy nyelvi modellt (ingyenes verziónál a GPT-3.5-öt, fizetősnél pedig a GPT-4-et) használja, mint eddig, vagyis az általa elmondott információk akár teljesen tévesek is lehetnek. Mivel a GPT-3.5 adatbázisa csak 2021 szeptembere előtti információkat tartalmaz, arra a kérdésre például egyáltalán nem kéne tudnia válaszolni, hogy milyen idő lesz holnap Budapesten, ennek ellenére amikor erre kérdeztem rá, kapásból adott egy nyilvánvalóan hibás választ (15 fok) és még a visszakérdezésre (honnan származik ez az információ?) adott válaszából sem derült ki, hogy valójában nem tudhatja, milyen idő lesz másnap. A chatbotot ráengedtem az Eduline-on található egyik kvízre is, amit úgy töltöttem ki, hogy miközben a ChatGPT a háttérben futott, egyszerűen hangosan felolvastam a kérdéseket, ám a mesterséges intelligencia csak 10-ből 8 pontot ért el a nem túl nehéz műveltségi teszten.
A hangasszisztensekhez képest az élőszóban kommunikáló ChatGPT egyik legnagyobb hátránya jelenleg, hogy nem csak nem kell, hanem nem is lehet hangutasítással felébreszteni, ami bizonyos esetekben körülményessé teszi a használatát, hiszen - hacsak nem futtatjuk folyamatosan a háttérben - bármit kérdeznénk tőle, mindig fel kell emelnünk a telefonunkat, belépni az alkalmazásba és elindítani a hangos beszédet. A háttérben való folyamatos futtatás ugyanakkor nem opció, hiszen a chatbot még a szoba másik feléből is tökéletesen hallja, ha mondunk valamit, és válaszol is rá, ez pedig meglehetősen zavaró lehet, ha éppen nem a ChatGPT-hez szeretnénk szólni.
A hangasszisztensekkel való összevetés abból a szempontból sem állja meg teljesen a helyét, hogy számos olyan dolog van, amire a ChatGPT nem képes. Az okoseszközeinket például hiába is próbálnánk irányítani vele, és a telefonunkon sem állíthatunk be ébresztőt hangutasítással, emellett diktálásra is legfeljebb úgy vehető rá, hogy a beszélgetés leiratát utólag kimásoljuk az előzményeikből. Bár a GPT-4 fizetős változata már a teljes internetről szerzi be az adatokat, az ingyenes verzió nem tud nekünk információkat nyújtani aktuális eseményekről sem, ahogy arra sem alkalmas, hogy mondjuk eldúdolt zenéket ismerjen fel vagy hívást indítson. A képességeit nézve persze egyáltalán nem tűnik kizártnak, hogy az OpenAI-jal szoros kapcsolatot ápoló és a cégbe eddig mintegy 13 milliárd dollárt pumpáló Microsoft hamarosan előáll egy a chatbotra épített saját hangasszisztenssel, ami nem is lenne igazán meglepő, hiszen a cég saját hangasszisztense, a Cortana 2021 óta már nem elérhető mobilon, idén nyáron pedig a windows-os verziót is megszüntették.
(Borítókép: Jaap Arriens/NurPhoto via Getty Images)