Nem butult el a ChatGPT, noha egy friss kutatás alapján sokan erre következtettek

2023 / 07 / 23 / Bobák Áron
Nem butult el a ChatGPT, noha egy friss kutatás alapján sokan erre következtettek
Az OpenAI mesterséges intelligenciája márciusban még 98%-ban adott helyes választ egy matematikai kérdésre, júniusban viszont már mindössze csak 2%-os pontossággal tudott válaszolni - állítják egy frissen megjelent tanulmány szerzői, amiből sokan azt a következtetést vonták le, hogy a ChatGPT butább lett, mint volt. Azonban a helyzet ennél jóval árnyaltabb.

A Stanford és a Berkeley Egyetem munkatársai a kutatásukban azt vizsgálták, hogyan változik a GPT-3.5 valamint a fejlettebb GPT-4 nagy nyelvi modellen alapuló chatbot viselkedése az idő előrehaladtával, ehhez pedig ugyanazokat a kérdéseket tették fel a ChatGPT márciusi valamint júniusi verziójának. Az arXiv preprint szerveren közzétett tanulmány megállapította, hogy a GPT-4 chatbot a négy feladatból kettőben is jóval gyengébben teljesít, mint korábban, ez viszont önmagában nem jelenti azt, hogy a chatbot képességei romlottak volna.

Ahogy arra Arvind Narayanan, a Princeton Egyetem Center for Information Technology Policy tanszékének vezetője és szerzőtársa, Sayash Kapoor az AI Snake Oilon megjelent cikkükben felhívják a figyelmet, az eredményekkel kapcsolatban először is azt érdemes tisztázni, hogy a kutatás nem a chatbot képességeit, hanem annak a viselkedését vizsgálta. Ez azért fontos, mert a ChatGPT-hez hasonló chatbotokra jellemző, hogy a válasz pontossága attól is függ, hogy milyen formában tesszük fel nekik a kérdést, vagyis az, hogy a ChatGPT egy adott kérdésre rosszabb válaszokat ad, nem jelenti azt, hogy a képességei romlottak volna, csupán annyit, hogy a finomhangolás következtében megváltozott, hogy hogyan kell használni.

Profin manipulálja az embereket és a képeket is képes értelmezni a ChatGPT továbbfejlesztett változata Az OpenAI kedden mutatta be a GPT-4 nyelvi modellt, amely több területen is jelentős előrelépést jelent a ChatGPT által is használt GPT-3.5-höz képest. A mesterséges intelligencia könnyedén teljesíti a legnehezebb felsőoktatási vizsgákat, egy teszt során pedig arra is rávett valakit, hogy igazolja neki, hogy nem robot.

A kutatásból a legnagyobb visszhangot egyértelműen az a feladat váltotta ki, amelyben a kutatók azt tesztelték, hogy a chatbot mennyire hatékonyan tudja azonosítani a prímszámokat. Ehhez a kutatók arra kérték a chatbotot, hogy gondolja végig lépésről lépésre, hogy egy bizonyos szám prímszám-e, majd válaszoljon igennel vagy nemmel. Amíg márciusban a GPT-4-et használó chatbot 97,6%-os pontossággal azonosította a prímszámokat, júniusban mindössze az esetek 2,4%-ban adott helyes választ. Az ingyenesen elérhető, GPT-3.5-ös nyelvi modellen alapuló chatbot tudása ezzel éppen ellentétes utat járt be, hiszen ennek a pontossága 7,4-ről 86,8%-ra nőtt.

Narayanan és Kapoor ezzel kapcsolatban arra hívják fel a figyelmet, hogy a ChatGPT eleve végre sem hajtotta a feladatot, csupán úgy tett, mintha végrehajtaná azt, vagyis ahelyett, hogy lépésről lépésre megvizsgálta volna, hogy egy szám prímszám-e, egyszerűen tippelt. "A valóságban mind a négy modell ugyanolyan borzalmas" - írják a szerzők, akik szerint az, hogy ez a tanulmányból nem derült ki, csupán a módszertan hiányosságának tudható be. Ahogy az a Narayanan és Kapoor által közölt grafikonból világosan kiolvasható, a ChatGPT korábban sem volt jó a prímszámok azonosításában, egyszerűen annyi történt, hogy míg a márciusi verzió az ilyen módon feltett kérdésekre szinte minden esetben prímszámra tippelt, a júniusi verzió majdnem mindig arra, hogy az adott szám nem prímszám. Mivel azonban a kutatók kizárólag prímszámokat mutattak a chatbotnak, a kapott eredmények értelemszerűen hatalmas különbséget mutattak abban, hogy a ChatGPT hány százalékban válaszol helyesen. Narayanan és Kapoor szerint a GPT-3.5-ös chatbot ezzel éppen ellentétes utat járt be, vagyis hiába tűnik úgy, valójában ez sem lett jobb a prímszámok azonosításában.


A grafikon azt mutatja, hogy a ChatGPT különböző verziói mekkora arányban tippeltek prím valamint nem prím számra, ha azt kérték tőlük, hogy állapítsák meg egy számról, hogy prímszám-e (Forrás: Arvind Narayanan/AI Snake Oil)

A másik terület, amelyen a tanulmány szerint a GPT-4-es chatbotnak drámaian romlott a teljesítménye, a programkódok generálása, azonban a cikk szerint a helyzet itt sem fekete-fehér. A tanulmány szerzői ebben az esetben ott követték el a hibát, hogy nem ellenőrizték, hogy a kapott kód mennyire használható, csupán azt vizsgálták, hogy az közvetlenül - azaz bármilyen változtatás nélkül - végrehajtható-e. Így történhetett meg, hogy bár a GPT-4 júniusi verziója a kódhoz fűzött szövegekkel elméletileg több segítséget nyújt a felhasználóknak, a végeredmény mégis rosszabbnak tűnhet.

Amiben a GPT-4-es chatbot a tanulmány szerzői szerint is egyértelműen fejlődött, az az érzékeny kérdésekre adott válaszok. A kutatók ehhez egy olyan, száz kérdésből álló kérdéssort állítottak össze, amelyre a chatbotnak nem lenne szabad egyenes választ adnia, mert azzal például törvénysértést segítene elő. A felmérés szerint az ilyen kérdésekre a GPT-4-es verzió márciusban még az esetek 21%-ban hajlandó volt válaszolni, júniusban viszont már csak 5%-ban nem tagadta meg a válaszadást. Ezzel ellentétes tendencia figyelhető meg a GPT-3.5-ös chatbotnál, aminek a válaszadási hajlandósága 2-ről 8%-ra emelkedett, de mivel az OpenAI nem igazán ad tájékoztatást arról, hogy hogyan módosítják a chatbot működését, így azt sem lehet tudni, hogy ez a változás minek tudható be.

Noha a tanulmány nem szolgáltat bizonyítékot arra, hogy a ChatGPT képességei bármennyit is romlottak volna, Narayanan és Kapoor szerint a viselkedésbeli változás majdnem ugyanakkora problémát jelenthet azok számára, akik rendszeresen használják az ilyen eszközöket. "Tekintettel a Nagy Nyelvi Modellek nem determinisztikus természetére, ezeknek a stratégiáknak a megtalálása és az alkalmazáshoz jól illeszkedő munkafolyamat kialakítása sok munkát igényel" - írják, hozzátéve, hogy a felhasználókat minden bizonnyal nem igazán vigasztalja az, hogy a ChatGPT továbbra is képes lenne elvégezni a feladatot, ha ehhez néhány havonta újra kell tanulni a rendszer működését. A szerzők szerint ez a változékonyság különösen nagy problémát jelenthet azokban az esetekben, amikor valaki egy komplett alkalmazást épít fel a GPT API-ra, hiszen az ilyen programok egyik percről a másikra használhatatlanná válhatnak, ha a ChatGPT működésében bármilyen változás történik.

(Borítókép: Omar Marques/SOPA Images/LightRocket via Getty Images)


Autót vennél mostanában? Nézz bele a PLAYER AUTÓTESZT ROVATÁBA!
Minden friss és izgalmas autót kipróbálunk, amit csak tudunk, legyen az dízel vagy elektromos, olcsó vagy luxus, kétszemélyes vagy kisbusz!
Ismerd meg a ROADSTER magazint!
AUTÓK - DESIGN - GASZTRO - KULT - UTAZÁS - TECH // Ha szereted a minőséget az életed minden területén, páratlan élmény lesz!
Idén megnyílik az első humanoidgyár, ahol évente tízezer emberszerű robotot állíthatnak elő
Idén megnyílik az első humanoidgyár, ahol évente tízezer emberszerű robotot állíthatnak elő
A Digit robotot gyártó Agility Robotics tavaly kezdte építeni a gyárat, ahol emberek és robotok együtt készítik el a humanoidokat.
Ez a drón 250 méterről leolvassa egy autó rendszámát, és önállóan repül teljes sötétségben is
Ez a drón 250 méterről leolvassa egy autó rendszámát, és önállóan repül teljes sötétségben is
Az eszköz teljes sötétségben is képes az önálló repülésre, az akadályok elkerülésére, 5 kilométeres távolságból is beazonosít egy autót, 250 méterről pedig akár a rendszámot is leolvassa.
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.