Bebizonyították, hogy a mesterséges intelligenciák még az iskolás matekfeladatokat sem "értik"

2024 / 10 / 18 / Pőcze Balázs
Bebizonyították, hogy a mesterséges intelligenciák még az iskolás matekfeladatokat sem
Az Apple mérnökeinek egy friss tanulmánya világít rá arra, hogy ami gondolkodásnak tűnik, nem feltétlenül az: elég néhány apró, félrevezető információ a matematikai feladványok szövegében, és hatalmasat zuhan az MI-rendszerek hatékonysága.

"59 százalékot ért el a magyarországi matematika érettségin Elon Musk új chatbotja, a Grok", "Kis híján aranyérmes lenne a Matematikai Diákolimpián a DeepMind mesterséges intelligenciája", "A számtan-, geometria- és fizikaleckét is megoldja már a Google" - az elmúlt évben egyre többször utaltak arra a mesterséges intelligenciával (MI) foglalkozó vállalatok, hogy a rendszereik szépen-lassan úgy fognak gondolkodni, különösen a természettudományok terén, mint az emberek. Sőt, az igencsak okos emberek.

Az Ars Technicán most megjelent cikk szerint azonban közel sem ennyire rózsás a helyzet. Az idézett tanulmány szerzői a GSM8K nevű, több mint nyolcezer, általános iskolai szöveges példából álló adatbázist használták, amin gyakran vizsgálják a nagy nyelvi modellek (LLM-ek) logikai képességeit. Mivel egy-egy konkrét feladat szerepelhetett az adott MI tanítására, fejlesztésére használt adatok között, a kutatók első körben néhány lényegtelen apróságot átírtak a feladatokban, hogy kiküszöböljék az esetleges torzítást: például Klári helyett Kati számolgatta az almáit, amikből nem negyvennyolc, hanem nyolcvannégy volt. Egy kissé már ez is megbolygatta a szoftverek teljesítményét: a GPT-4o ugyan csak egyharmad százalékkal teljesített rosszabbul, de olyan program is akadt, ami közel tíz százalékkal tévedett többet. Ami szintén figyelemreméltó, hogy ugyanaz az MI, ugyanazokon a feladatokon volt, hogy tizenöt százalékkal ingadozó teljesítményt mutatott az ötven nekifutása során.

Az igazi problémák azonban csak ezután jöttek, amikor a szövegekbe irreleváns információkat vegyítettek a kutatók.

"Juli csütörtökön tíz, pénteken húsz almát szedett, szombaton pedig kétszer annyit, mint csütörtökön" - ez eddig még ment a programoknak. De amikor a feladványt nagyjából úgy módosították, hogy "szombaton pedig kétszer annyit, mint csütörtökön, igaz, kisebbeket", akkor a szerzők "katasztrofális" teljesítményromlásnak voltak a tanúi. A Meta LLamája közel hatvan százalékkal, a GPT-4o körülbelül harminc százalékkal teljesített rosszabbul, mint korábban - pedig a feladatok nem lettek nehezebbek. A mérnökök ezt arra vezetik vissza, hogy ezek a szoftverek csak imitálják a gondolkodást, imitálják a feladatok megértését, és a "kisebb gyümölcsök" fordulat azokra a példákra emlékeztette őket, amikor ki kellett vonni kisebb elemeket a végösszegekből. Vagyis miközben az iparág egyes képviselői már napokban mérik a mesterséges szuperintelligencia megérkeztét, úgy tűnik, hogy egyelőre a valódi gondolkodással is küzdenek a termékeik.

(Borítókép: Antoine Dautry/Unsplash)

Gombnyomásra rádióműsort csinál egy tankönyvből a Google NotebookLM programja Leesett az állunk, amikor meghallgattuk a cég talán leghasznosabb mesterséges intelligenciáját.


Tudsz olyan töltőt, ami appból vezérelhető, távolról frissíthető és 3 év garanciával jön?
Tudsz olyan töltőt, ami appból vezérelhető, távolról frissíthető és 3 év garanciával jön? A Voltie nem csak ígér – le is szállítja: kezeld a töltést egyetlen koppintással, bárhonnan. 👉 Nézd meg, miért mosolyognak a Voltie-sok!
Mesterséges intelligenciával vizsgálják a Föld felszínét
Mesterséges intelligenciával vizsgálják a Föld felszínét
A kritikus infrastruktúra monitorozásában, az épített környezeti folyamatokban, a mezőgazdaságban és a védelmi feladatokban egyaránt hasznosíthatók ezek az adatok.
Így lehetsz a testápolás Real Madridja a pörgős mindennapokban
Így lehetsz a testápolás Real Madridja a pörgős mindennapokban
A mindennapi pörgés, edzéssel megspékelt aktív életmód mellett fokozottan terheljük a bőrünket. Hajlamosak lehetünk elfelejteni, de a tudatos férfi testápolás nem luxus, hanem egy eszköz, ami segít abban, hogy jól érezzük magunkat és minden téren a maximumot tudjuk nyújtani. Ebben segíthet a NIVEA MEN Real Madrid tematikájú termékcsaládja.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.