A New York-i Egyetem (NYU) kutatói arra a kérdésre keresték a választ, hogy vajon egy kisgyerek hogyan sajátítja el a nyelvet és hogyan tanulja meg a különböző tárgyak neveit, valamint, hogy a mesterséges intelligencia rendszerek tudnak-e ugyanezzel a módszerrel olyan hatékonyan tanulni, mint az emberek. A kérdés felderítéséhez a legkézenfekvőbb megoldást választották: egy kisgyerek tapasztalatai alapján tanítottak be egy MI modellt.
Ehhez az alanyra, vagyis egy fél éves kisgyerekre fejkamerát tettek, amit heti rendszerességgel viselt és ezen át rögzítették, mit lát és hall, miközben játszik és másokkal kommunikál. A kísérlet a gyermek fél éves korától két éves koráig zajlott, de ezalatt csak körülbelül 60 órányi videót készítettek, illetve használtak fel az MI betanításához, az egyetem leírása szerint ez a gyerek éber óráinak nagyjából 1%-át jelentette. A begyűjtött adatok tehát közel sem fedték le az alany összes tapasztalatainak és élményének széles spektrumát, de ahhoz elegendőnek bizonyultak, hogy ez alapján modellezzék a szavak tanulásának folyamatát. Mivel a kamera mindig a kislány szemszögéből mutatta a történéseket, ezért a mesterséges intelligencia rendszer is ezt az első kézből származó információt kapta meg és szó szerint a gyermek szemén át nézte és fülén át hallotta a világot, semmilyen más adatra nem támaszkodhatott a tanulás alatt.
Az adatokat a kutatók két részre bontották: a nyelvi kódoló modul a hangalapú információkat tartalmazta, vagyis annak a beszédnek a szöveges átiratát, amit a gyerek hallott, a másik, vizuális modul a videós felvételek képkockáit értelmezte. Ezeken gyakorlatoztatták a multimodális neurális hálót az úgynevezett kontrasztív tanulás segítségével, ami a keresztmodális asszociációk megalkotásával hoz létre kapcsolatot a különböző érzékszervi információk között. A keresztmodális érzékelés a gyermekek korai tanulási folyamataiban is nagy szerepet játszik és a neurális háló esetében is segített a vizuális és nyelvi jelek megértésében. A gyakorlatoztatás után az első teszten arra kérték a mesterséges intelligencia modellt, hogy válassza ki egy szó megfelelőjét négy kép közül és az MI az esetek többségében jól választott, vagyis a szavak és koncepciók jelentős részét jól tudta megtanulni a nagyon behatárolt mennyiségű információ alapján.
A teszt különlegességét az adta, hogy a mesterséges intelligencia rendszert ezzel módszerrel rendkívül költséghatékonyan tudták tréningezni, a 60 órányi kép-, és hangfelvétel ugyanis csak 250 000 szót/kifejezést tartalmazott, sokat közülük ismételve és az MI mégis képes volt tanulni és értelmezni a látottakat. Ahogy a New York-i Egyetem kutatói írják, egy nagy nyelvi modellnek sok milliárdnyi szóra van szüksége ahhoz, hogy megtanulja az emberi nyelvet, a ChatGPT 4 esetében ez körű körülbelül 100 billió paramétert jelentett, míg egy gyermek csak néhány millió szót hall évente és ebből tanul meg hatékonyan kommunikálni. Igaz ugyan, hogy vannak jelentős különbségek a mesterséges modellek és emberek között, a ChatGPT 4 például legalább 50 nyelven tud szöveget létrehozni. A lényeges pont azonban, hogy a szavak értelmezésének képességét elsajátítani lehetséges egyszerűbb módon is.
A kutatók szerint a kísérlet bebizonyította, hogy a mesterséges intelligencia valóban az emberi intelligenciához hasonló módon működik, vagyis az emberi (gyermeki) tanulási folyamatot utánozza, ezáltal alkalmas lehet arra, hogy az emberi jelenségeket vizsgálják a segítségével. A mesterséges intelligencia modellek használatával a gyermekek által tapasztalt nyelvtanulási problémák tanulmányozásában olyan kérdéseket lehet tisztázni, amelyek régóta vita tárgyai: például, hogy szükséges-e a veleszületett tudás vagy az asszociatív tanulás is elegendő a nyelv elsajátításában.
"Úgy tűnik, hogy többet kapunk csak a tanulással, mint azt általában feltételezzük."
- összegezte Brenden Lake, a NYU professzora a kísérlettel kapcsolatban.