Bebizonyították, hogy a mesterséges intelligenciák még az iskolás matekfeladatokat sem "értik"

2024 / 10 / 18 / Pőcze Balázs
Bebizonyították, hogy a mesterséges intelligenciák még az iskolás matekfeladatokat sem
Az Apple mérnökeinek egy friss tanulmánya világít rá arra, hogy ami gondolkodásnak tűnik, nem feltétlenül az: elég néhány apró, félrevezető információ a matematikai feladványok szövegében, és hatalmasat zuhan az MI-rendszerek hatékonysága.

"59 százalékot ért el a magyarországi matematika érettségin Elon Musk új chatbotja, a Grok", "Kis híján aranyérmes lenne a Matematikai Diákolimpián a DeepMind mesterséges intelligenciája", "A számtan-, geometria- és fizikaleckét is megoldja már a Google" - az elmúlt évben egyre többször utaltak arra a mesterséges intelligenciával (MI) foglalkozó vállalatok, hogy a rendszereik szépen-lassan úgy fognak gondolkodni, különösen a természettudományok terén, mint az emberek. Sőt, az igencsak okos emberek.

Az Ars Technicán most megjelent cikk szerint azonban közel sem ennyire rózsás a helyzet. Az idézett tanulmány szerzői a GSM8K nevű, több mint nyolcezer, általános iskolai szöveges példából álló adatbázist használták, amin gyakran vizsgálják a nagy nyelvi modellek (LLM-ek) logikai képességeit. Mivel egy-egy konkrét feladat szerepelhetett az adott MI tanítására, fejlesztésére használt adatok között, a kutatók első körben néhány lényegtelen apróságot átírtak a feladatokban, hogy kiküszöböljék az esetleges torzítást: például Klári helyett Kati számolgatta az almáit, amikből nem negyvennyolc, hanem nyolcvannégy volt. Egy kissé már ez is megbolygatta a szoftverek teljesítményét: a GPT-4o ugyan csak egyharmad százalékkal teljesített rosszabbul, de olyan program is akadt, ami közel tíz százalékkal tévedett többet. Ami szintén figyelemreméltó, hogy ugyanaz az MI, ugyanazokon a feladatokon volt, hogy tizenöt százalékkal ingadozó teljesítményt mutatott az ötven nekifutása során.

Az igazi problémák azonban csak ezután jöttek, amikor a szövegekbe irreleváns információkat vegyítettek a kutatók.

"Juli csütörtökön tíz, pénteken húsz almát szedett, szombaton pedig kétszer annyit, mint csütörtökön" - ez eddig még ment a programoknak. De amikor a feladványt nagyjából úgy módosították, hogy "szombaton pedig kétszer annyit, mint csütörtökön, igaz, kisebbeket", akkor a szerzők "katasztrofális" teljesítményromlásnak voltak a tanúi. A Meta LLamája közel hatvan százalékkal, a GPT-4o körülbelül harminc százalékkal teljesített rosszabbul, mint korábban - pedig a feladatok nem lettek nehezebbek. A mérnökök ezt arra vezetik vissza, hogy ezek a szoftverek csak imitálják a gondolkodást, imitálják a feladatok megértését, és a "kisebb gyümölcsök" fordulat azokra a példákra emlékeztette őket, amikor ki kellett vonni kisebb elemeket a végösszegekből. Vagyis miközben az iparág egyes képviselői már napokban mérik a mesterséges szuperintelligencia megérkeztét, úgy tűnik, hogy egyelőre a valódi gondolkodással is küzdenek a termékeik.

(Borítókép: Antoine Dautry/Unsplash)

Gombnyomásra rádióműsort csinál egy tankönyvből a Google NotebookLM programja Leesett az állunk, amikor meghallgattuk a cég talán leghasznosabb mesterséges intelligenciáját.


Hogyan lehet OTDK-t nyerni? Megkérdeztük azokat, akiknek már sikerült
A tizenhat szekcióban zajló rendezvényen már elindulni is presztízst jelent, egy helyezés pedig az akadémiai és a vállalati szférában is egyedülálló ajánlólevél, ezért megkérdeztünk két díjazottat, hogy mi kell a sikeres szerepléshez.
A jövő internete ezzel az eszközzel kezdődik, és hidd el, a neted hálás lesz érte
Új szintre emeli az otthoni hálózatod sebességét és stabilitását.
Hogyan lehet OTDK-t nyerni? Megkérdeztük azokat, akiknek már sikerült
Hogyan lehet OTDK-t nyerni? Megkérdeztük azokat, akiknek már sikerült
Két, korábban kitüntetett hallgatót kérdeztünk arról, hogy miben látják a siker titkát.
A jövő internete ezzel az eszközzel kezdődik, és hidd el, a neted hálás lesz érte
A jövő internete ezzel az eszközzel kezdődik, és hidd el, a neted hálás lesz érte
Új szintre emeli az otthoni hálózatod sebességét és stabilitását.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!