Nem butult el a ChatGPT, noha egy friss kutatás alapján sokan erre következtettek

2023 / 07 / 23 / Bobák Áron
Nem butult el a ChatGPT, noha egy friss kutatás alapján sokan erre következtettek
Az OpenAI mesterséges intelligenciája márciusban még 98%-ban adott helyes választ egy matematikai kérdésre, júniusban viszont már mindössze csak 2%-os pontossággal tudott válaszolni - állítják egy frissen megjelent tanulmány szerzői, amiből sokan azt a következtetést vonták le, hogy a ChatGPT butább lett, mint volt. Azonban a helyzet ennél jóval árnyaltabb.
Legújabb cikkeinkért kövess minket a Rakéta Google News oldalán is!

A Stanford és a Berkeley Egyetem munkatársai a kutatásukban azt vizsgálták, hogyan változik a GPT-3.5 valamint a fejlettebb GPT-4 nagy nyelvi modellen alapuló chatbot viselkedése az idő előrehaladtával, ehhez pedig ugyanazokat a kérdéseket tették fel a ChatGPT márciusi valamint júniusi verziójának. Az arXiv preprint szerveren közzétett tanulmány megállapította, hogy a GPT-4 chatbot a négy feladatból kettőben is jóval gyengébben teljesít, mint korábban, ez viszont önmagában nem jelenti azt, hogy a chatbot képességei romlottak volna.

Ahogy arra Arvind Narayanan, a Princeton Egyetem Center for Information Technology Policy tanszékének vezetője és szerzőtársa, Sayash Kapoor az AI Snake Oilon megjelent cikkükben felhívják a figyelmet, az eredményekkel kapcsolatban először is azt érdemes tisztázni, hogy a kutatás nem a chatbot képességeit, hanem annak a viselkedését vizsgálta. Ez azért fontos, mert a ChatGPT-hez hasonló chatbotokra jellemző, hogy a válasz pontossága attól is függ, hogy milyen formában tesszük fel nekik a kérdést, vagyis az, hogy a ChatGPT egy adott kérdésre rosszabb válaszokat ad, nem jelenti azt, hogy a képességei romlottak volna, csupán annyit, hogy a finomhangolás következtében megváltozott, hogy hogyan kell használni.

Profin manipulálja az embereket és a képeket is képes értelmezni a ChatGPT továbbfejlesztett változata Az OpenAI kedden mutatta be a GPT-4 nyelvi modellt, amely több területen is jelentős előrelépést jelent a ChatGPT által is használt GPT-3.5-höz képest. A mesterséges intelligencia könnyedén teljesíti a legnehezebb felsőoktatási vizsgákat, egy teszt során pedig arra is rávett valakit, hogy igazolja neki, hogy nem robot.

A kutatásból a legnagyobb visszhangot egyértelműen az a feladat váltotta ki, amelyben a kutatók azt tesztelték, hogy a chatbot mennyire hatékonyan tudja azonosítani a prímszámokat. Ehhez a kutatók arra kérték a chatbotot, hogy gondolja végig lépésről lépésre, hogy egy bizonyos szám prímszám-e, majd válaszoljon igennel vagy nemmel. Amíg márciusban a GPT-4-et használó chatbot 97,6%-os pontossággal azonosította a prímszámokat, júniusban mindössze az esetek 2,4%-ban adott helyes választ. Az ingyenesen elérhető, GPT-3.5-ös nyelvi modellen alapuló chatbot tudása ezzel éppen ellentétes utat járt be, hiszen ennek a pontossága 7,4-ről 86,8%-ra nőtt.

Narayanan és Kapoor ezzel kapcsolatban arra hívják fel a figyelmet, hogy a ChatGPT eleve végre sem hajtotta a feladatot, csupán úgy tett, mintha végrehajtaná azt, vagyis ahelyett, hogy lépésről lépésre megvizsgálta volna, hogy egy szám prímszám-e, egyszerűen tippelt. "A valóságban mind a négy modell ugyanolyan borzalmas" - írják a szerzők, akik szerint az, hogy ez a tanulmányból nem derült ki, csupán a módszertan hiányosságának tudható be. Ahogy az a Narayanan és Kapoor által közölt grafikonból világosan kiolvasható, a ChatGPT korábban sem volt jó a prímszámok azonosításában, egyszerűen annyi történt, hogy míg a márciusi verzió az ilyen módon feltett kérdésekre szinte minden esetben prímszámra tippelt, a júniusi verzió majdnem mindig arra, hogy az adott szám nem prímszám. Mivel azonban a kutatók kizárólag prímszámokat mutattak a chatbotnak, a kapott eredmények értelemszerűen hatalmas különbséget mutattak abban, hogy a ChatGPT hány százalékban válaszol helyesen. Narayanan és Kapoor szerint a GPT-3.5-ös chatbot ezzel éppen ellentétes utat járt be, vagyis hiába tűnik úgy, valójában ez sem lett jobb a prímszámok azonosításában.


A grafikon azt mutatja, hogy a ChatGPT különböző verziói mekkora arányban tippeltek prím valamint nem prím számra, ha azt kérték tőlük, hogy állapítsák meg egy számról, hogy prímszám-e (Forrás: Arvind Narayanan/AI Snake Oil)

A másik terület, amelyen a tanulmány szerint a GPT-4-es chatbotnak drámaian romlott a teljesítménye, a programkódok generálása, azonban a cikk szerint a helyzet itt sem fekete-fehér. A tanulmány szerzői ebben az esetben ott követték el a hibát, hogy nem ellenőrizték, hogy a kapott kód mennyire használható, csupán azt vizsgálták, hogy az közvetlenül - azaz bármilyen változtatás nélkül - végrehajtható-e. Így történhetett meg, hogy bár a GPT-4 júniusi verziója a kódhoz fűzött szövegekkel elméletileg több segítséget nyújt a felhasználóknak, a végeredmény mégis rosszabbnak tűnhet.

Amiben a GPT-4-es chatbot a tanulmány szerzői szerint is egyértelműen fejlődött, az az érzékeny kérdésekre adott válaszok. A kutatók ehhez egy olyan, száz kérdésből álló kérdéssort állítottak össze, amelyre a chatbotnak nem lenne szabad egyenes választ adnia, mert azzal például törvénysértést segítene elő. A felmérés szerint az ilyen kérdésekre a GPT-4-es verzió márciusban még az esetek 21%-ban hajlandó volt válaszolni, júniusban viszont már csak 5%-ban nem tagadta meg a válaszadást. Ezzel ellentétes tendencia figyelhető meg a GPT-3.5-ös chatbotnál, aminek a válaszadási hajlandósága 2-ről 8%-ra emelkedett, de mivel az OpenAI nem igazán ad tájékoztatást arról, hogy hogyan módosítják a chatbot működését, így azt sem lehet tudni, hogy ez a változás minek tudható be.

Noha a tanulmány nem szolgáltat bizonyítékot arra, hogy a ChatGPT képességei bármennyit is romlottak volna, Narayanan és Kapoor szerint a viselkedésbeli változás majdnem ugyanakkora problémát jelenthet azok számára, akik rendszeresen használják az ilyen eszközöket. "Tekintettel a Nagy Nyelvi Modellek nem determinisztikus természetére, ezeknek a stratégiáknak a megtalálása és az alkalmazáshoz jól illeszkedő munkafolyamat kialakítása sok munkát igényel" - írják, hozzátéve, hogy a felhasználókat minden bizonnyal nem igazán vigasztalja az, hogy a ChatGPT továbbra is képes lenne elvégezni a feladatot, ha ehhez néhány havonta újra kell tanulni a rendszer működését. A szerzők szerint ez a változékonyság különösen nagy problémát jelenthet azokban az esetekben, amikor valaki egy komplett alkalmazást épít fel a GPT API-ra, hiszen az ilyen programok egyik percről a másikra használhatatlanná válhatnak, ha a ChatGPT működésében bármilyen változás történik.

(Borítókép: Omar Marques/SOPA Images/LightRocket via Getty Images)

Itt állíthatod be, hogy a Rakéta az elsők között legyen a Google keresőben

Van egy hely, ahol még mindig tud meglepetést okozni a nyár
Elég egy jó tipp, egy váratlan találkozás vagy egy olyan hely, amit nem dob fel elsőre a térkép, és máris egészen más lesz a nyaralás, mint amit előre elképzeltél.
Így tapasztalhatjuk meg az igazán autentikus élményeket és személyes vendégszeretet Horvátország minden régiójában
Így tapasztalhatjuk meg az igazán autentikus élményeket és személyes vendégszeretet Horvátország minden régiójában

Egy-egy utazás sokszor nem a legnagyobb turista-látványosságtól vagy a tökéletes fotóktól marad emlékezetesek, hanem olyan emberek miatt lesz felejthetetlen, akikkel útközben találkozunk.

Roncsok, barlangok és 2700 éves kincsek: ezért őrül meg a búvárvilág Máltáért
Roncsok, barlangok és 2700 éves kincsek: ezért őrül meg a búvárvilág Máltáért
Két órára Budapesttől egy víz alatti paradicsom rejtőzik.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.