Bebizonyították, hogy a mesterséges intelligenciák még az iskolás matekfeladatokat sem "értik"

2024 / 10 / 18 / Pőcze Balázs
Bebizonyították, hogy a mesterséges intelligenciák még az iskolás matekfeladatokat sem
Az Apple mérnökeinek egy friss tanulmánya világít rá arra, hogy ami gondolkodásnak tűnik, nem feltétlenül az: elég néhány apró, félrevezető információ a matematikai feladványok szövegében, és hatalmasat zuhan az MI-rendszerek hatékonysága.

"59 százalékot ért el a magyarországi matematika érettségin Elon Musk új chatbotja, a Grok", "Kis híján aranyérmes lenne a Matematikai Diákolimpián a DeepMind mesterséges intelligenciája", "A számtan-, geometria- és fizikaleckét is megoldja már a Google" - az elmúlt évben egyre többször utaltak arra a mesterséges intelligenciával (MI) foglalkozó vállalatok, hogy a rendszereik szépen-lassan úgy fognak gondolkodni, különösen a természettudományok terén, mint az emberek. Sőt, az igencsak okos emberek.

Az Ars Technicán most megjelent cikk szerint azonban közel sem ennyire rózsás a helyzet. Az idézett tanulmány szerzői a GSM8K nevű, több mint nyolcezer, általános iskolai szöveges példából álló adatbázist használták, amin gyakran vizsgálják a nagy nyelvi modellek (LLM-ek) logikai képességeit. Mivel egy-egy konkrét feladat szerepelhetett az adott MI tanítására, fejlesztésére használt adatok között, a kutatók első körben néhány lényegtelen apróságot átírtak a feladatokban, hogy kiküszöböljék az esetleges torzítást: például Klári helyett Kati számolgatta az almáit, amikből nem negyvennyolc, hanem nyolcvannégy volt. Egy kissé már ez is megbolygatta a szoftverek teljesítményét: a GPT-4o ugyan csak egyharmad százalékkal teljesített rosszabbul, de olyan program is akadt, ami közel tíz százalékkal tévedett többet. Ami szintén figyelemreméltó, hogy ugyanaz az MI, ugyanazokon a feladatokon volt, hogy tizenöt százalékkal ingadozó teljesítményt mutatott az ötven nekifutása során.

Az igazi problémák azonban csak ezután jöttek, amikor a szövegekbe irreleváns információkat vegyítettek a kutatók.

"Juli csütörtökön tíz, pénteken húsz almát szedett, szombaton pedig kétszer annyit, mint csütörtökön" - ez eddig még ment a programoknak. De amikor a feladványt nagyjából úgy módosították, hogy "szombaton pedig kétszer annyit, mint csütörtökön, igaz, kisebbeket", akkor a szerzők "katasztrofális" teljesítményromlásnak voltak a tanúi. A Meta LLamája közel hatvan százalékkal, a GPT-4o körülbelül harminc százalékkal teljesített rosszabbul, mint korábban - pedig a feladatok nem lettek nehezebbek. A mérnökök ezt arra vezetik vissza, hogy ezek a szoftverek csak imitálják a gondolkodást, imitálják a feladatok megértését, és a "kisebb gyümölcsök" fordulat azokra a példákra emlékeztette őket, amikor ki kellett vonni kisebb elemeket a végösszegekből. Vagyis miközben az iparág egyes képviselői már napokban mérik a mesterséges szuperintelligencia megérkeztét, úgy tűnik, hogy egyelőre a valódi gondolkodással is küzdenek a termékeik.

(Borítókép: Antoine Dautry/Unsplash)

Gombnyomásra rádióműsort csinál egy tankönyvből a Google NotebookLM programja Leesett az állunk, amikor meghallgattuk a cég talán leghasznosabb mesterséges intelligenciáját.


Magyarország ásványvíz-forrásai túracélpontnak is tökéletesek
Magyarország ásványvíz-forrásai túracélpontnak is tökéletesek
A természetes ásványvíz az egyik legegészségesebb dolog az emberi szervezet számára. De hol találunk Magyarországon természetes ásványvíz-forrásokat, és mit érdemes tudni róluk?
Megfogni a jövő építőit – Bálint Attila-interjú
Megfogni a jövő építőit – Bálint Attila-interjú
Szülő–gyermek kapcsolatra alapuló közös programokkal – például golf- és vitorlásversenyekkel – igyekszik előmozdítani a generációváltás kérdését a Raiffeisen Bank. Az intézmény az egyre szélesebb körű banki és befektetési megoldások mellett olyan eseményeket is szervez, amelyeken a fiatalabbak és az idősebbek egyaránt jól érzik magukat, érdeklődésük összeér. A jelenünkben „turbósodó” generációváltás tematikájáról kérdeztük Bálint Attilát, a Raiffeisen Bank privátbanki üzletágának a vezetőjét.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.