Nem butult el a ChatGPT, noha egy friss kutatás alapján sokan erre következtettek

2023 / 07 / 23 / Bobák Áron
Nem butult el a ChatGPT, noha egy friss kutatás alapján sokan erre következtettek
Az OpenAI mesterséges intelligenciája márciusban még 98%-ban adott helyes választ egy matematikai kérdésre, júniusban viszont már mindössze csak 2%-os pontossággal tudott válaszolni - állítják egy frissen megjelent tanulmány szerzői, amiből sokan azt a következtetést vonták le, hogy a ChatGPT butább lett, mint volt. Azonban a helyzet ennél jóval árnyaltabb.

A Stanford és a Berkeley Egyetem munkatársai a kutatásukban azt vizsgálták, hogyan változik a GPT-3.5 valamint a fejlettebb GPT-4 nagy nyelvi modellen alapuló chatbot viselkedése az idő előrehaladtával, ehhez pedig ugyanazokat a kérdéseket tették fel a ChatGPT márciusi valamint júniusi verziójának. Az arXiv preprint szerveren közzétett tanulmány megállapította, hogy a GPT-4 chatbot a négy feladatból kettőben is jóval gyengébben teljesít, mint korábban, ez viszont önmagában nem jelenti azt, hogy a chatbot képességei romlottak volna.

Ahogy arra Arvind Narayanan, a Princeton Egyetem Center for Information Technology Policy tanszékének vezetője és szerzőtársa, Sayash Kapoor az AI Snake Oilon megjelent cikkükben felhívják a figyelmet, az eredményekkel kapcsolatban először is azt érdemes tisztázni, hogy a kutatás nem a chatbot képességeit, hanem annak a viselkedését vizsgálta. Ez azért fontos, mert a ChatGPT-hez hasonló chatbotokra jellemző, hogy a válasz pontossága attól is függ, hogy milyen formában tesszük fel nekik a kérdést, vagyis az, hogy a ChatGPT egy adott kérdésre rosszabb válaszokat ad, nem jelenti azt, hogy a képességei romlottak volna, csupán annyit, hogy a finomhangolás következtében megváltozott, hogy hogyan kell használni.

Profin manipulálja az embereket és a képeket is képes értelmezni a ChatGPT továbbfejlesztett változata Az OpenAI kedden mutatta be a GPT-4 nyelvi modellt, amely több területen is jelentős előrelépést jelent a ChatGPT által is használt GPT-3.5-höz képest. A mesterséges intelligencia könnyedén teljesíti a legnehezebb felsőoktatási vizsgákat, egy teszt során pedig arra is rávett valakit, hogy igazolja neki, hogy nem robot.

A kutatásból a legnagyobb visszhangot egyértelműen az a feladat váltotta ki, amelyben a kutatók azt tesztelték, hogy a chatbot mennyire hatékonyan tudja azonosítani a prímszámokat. Ehhez a kutatók arra kérték a chatbotot, hogy gondolja végig lépésről lépésre, hogy egy bizonyos szám prímszám-e, majd válaszoljon igennel vagy nemmel. Amíg márciusban a GPT-4-et használó chatbot 97,6%-os pontossággal azonosította a prímszámokat, júniusban mindössze az esetek 2,4%-ban adott helyes választ. Az ingyenesen elérhető, GPT-3.5-ös nyelvi modellen alapuló chatbot tudása ezzel éppen ellentétes utat járt be, hiszen ennek a pontossága 7,4-ről 86,8%-ra nőtt.

Narayanan és Kapoor ezzel kapcsolatban arra hívják fel a figyelmet, hogy a ChatGPT eleve végre sem hajtotta a feladatot, csupán úgy tett, mintha végrehajtaná azt, vagyis ahelyett, hogy lépésről lépésre megvizsgálta volna, hogy egy szám prímszám-e, egyszerűen tippelt. "A valóságban mind a négy modell ugyanolyan borzalmas" - írják a szerzők, akik szerint az, hogy ez a tanulmányból nem derült ki, csupán a módszertan hiányosságának tudható be. Ahogy az a Narayanan és Kapoor által közölt grafikonból világosan kiolvasható, a ChatGPT korábban sem volt jó a prímszámok azonosításában, egyszerűen annyi történt, hogy míg a márciusi verzió az ilyen módon feltett kérdésekre szinte minden esetben prímszámra tippelt, a júniusi verzió majdnem mindig arra, hogy az adott szám nem prímszám. Mivel azonban a kutatók kizárólag prímszámokat mutattak a chatbotnak, a kapott eredmények értelemszerűen hatalmas különbséget mutattak abban, hogy a ChatGPT hány százalékban válaszol helyesen. Narayanan és Kapoor szerint a GPT-3.5-ös chatbot ezzel éppen ellentétes utat járt be, vagyis hiába tűnik úgy, valójában ez sem lett jobb a prímszámok azonosításában.


A grafikon azt mutatja, hogy a ChatGPT különböző verziói mekkora arányban tippeltek prím valamint nem prím számra, ha azt kérték tőlük, hogy állapítsák meg egy számról, hogy prímszám-e (Forrás: Arvind Narayanan/AI Snake Oil)

A másik terület, amelyen a tanulmány szerint a GPT-4-es chatbotnak drámaian romlott a teljesítménye, a programkódok generálása, azonban a cikk szerint a helyzet itt sem fekete-fehér. A tanulmány szerzői ebben az esetben ott követték el a hibát, hogy nem ellenőrizték, hogy a kapott kód mennyire használható, csupán azt vizsgálták, hogy az közvetlenül - azaz bármilyen változtatás nélkül - végrehajtható-e. Így történhetett meg, hogy bár a GPT-4 júniusi verziója a kódhoz fűzött szövegekkel elméletileg több segítséget nyújt a felhasználóknak, a végeredmény mégis rosszabbnak tűnhet.

Amiben a GPT-4-es chatbot a tanulmány szerzői szerint is egyértelműen fejlődött, az az érzékeny kérdésekre adott válaszok. A kutatók ehhez egy olyan, száz kérdésből álló kérdéssort állítottak össze, amelyre a chatbotnak nem lenne szabad egyenes választ adnia, mert azzal például törvénysértést segítene elő. A felmérés szerint az ilyen kérdésekre a GPT-4-es verzió márciusban még az esetek 21%-ban hajlandó volt válaszolni, júniusban viszont már csak 5%-ban nem tagadta meg a válaszadást. Ezzel ellentétes tendencia figyelhető meg a GPT-3.5-ös chatbotnál, aminek a válaszadási hajlandósága 2-ről 8%-ra emelkedett, de mivel az OpenAI nem igazán ad tájékoztatást arról, hogy hogyan módosítják a chatbot működését, így azt sem lehet tudni, hogy ez a változás minek tudható be.

Noha a tanulmány nem szolgáltat bizonyítékot arra, hogy a ChatGPT képességei bármennyit is romlottak volna, Narayanan és Kapoor szerint a viselkedésbeli változás majdnem ugyanakkora problémát jelenthet azok számára, akik rendszeresen használják az ilyen eszközöket. "Tekintettel a Nagy Nyelvi Modellek nem determinisztikus természetére, ezeknek a stratégiáknak a megtalálása és az alkalmazáshoz jól illeszkedő munkafolyamat kialakítása sok munkát igényel" - írják, hozzátéve, hogy a felhasználókat minden bizonnyal nem igazán vigasztalja az, hogy a ChatGPT továbbra is képes lenne elvégezni a feladatot, ha ehhez néhány havonta újra kell tanulni a rendszer működését. A szerzők szerint ez a változékonyság különösen nagy problémát jelenthet azokban az esetekben, amikor valaki egy komplett alkalmazást épít fel a GPT API-ra, hiszen az ilyen programok egyik percről a másikra használhatatlanná válhatnak, ha a ChatGPT működésében bármilyen változás történik.

(Borítókép: Omar Marques/SOPA Images/LightRocket via Getty Images)


Hello Szülő! Ha a gyereked nem tud valamit, akkor téged fog kérdezni. De ha te szülőként nem tudsz valamit, akkor kihez fordulsz?
A digitális kor szülői kihívásairól is találhattok szakértői tippeket, tanácsokat, interjúkat, podcastokat a Telekom családokat segítő platformján, a https://helloszulo.hu/ oldalon.
Hogyan válasszunk külföldi egyetemet? És mennyibe fog ez kerülni a családnak?
Hogyan válasszunk külföldi egyetemet? És mennyibe fog ez kerülni a családnak?
Repül már a vén diák. Hová? Hová?
Hogyan vélekednek a magyarok a net veszélyeiről – és kik a leginkább fenyegetettek?
Hogyan vélekednek a magyarok a net veszélyeiről – és kik a leginkább fenyegetettek?
Hogy áll a magyar lakosság generációkra bontva a kiberbiztonsághoz? – Erről szól az ESET rendkívül átfogó felmérése, amelyből olyan meglepő eredmények is kiderülnek, hogy kik a romantikus csalások legfőbb célpontjai, miközben az adott csoport nem is nagyon ismeri ezt a fenyegetést.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.