A 2015-ben alapított Alphabet Inc. egy amerikai multinacionális ernyővállalat, amely a Google és a valamikor a Google-hoz tartozó cégek anyavállalata. Az Alphabet egyik leányvállalata, a mesterséges intelligencia kutatásra fókuszáló DeepMind AlphaGo nevű mesterséges intelligenciája 2015-ben előnykő nélkül legyőzte a legjobb go-játékosokat. Ez azért volt akkor nagy szó, mert a 2500 éves Go a sakknál is komplikáltabb, és az AlphaGo előtt egy algoritmusnak sem sikerült ez a bravúr. Egy évvel az AlphaGo után a vállalat az AlphaGo Zero algoritmussal rukkolt elő. A sima és a Zero változat közti különbség, hogy míg az előbbi amatőr és profi játékosok megfigyelése által sajátította el a játékot, a Zero úgy tanult meg játszani, hogy saját magával folytatott le meccseket. Az AlphaGo Zero-t az Alpha Zero követte, amely a Go-n kívül helyt állt a sakkban és a sógiban is. Ezek az algoritmusok pedig bár egyre fejlettebb voltak, egy dolog közös volt bennünk: mind ismerték a játék szabályait még a tanulószakasz előtt.
Az esszenciális különbség tehát a DeepMind legutóbbi MI-je, a MuZero és az előbb felsorolt algoritmusok között, hogy a MuZero anélkül tud nyerni a sakkban, sógiban és egy csomó Atari videójátékban, hogy előzőleg ismerné az adott játék szabályait. Ám ennek ellenére így is helyt áll (adott esetben sokkal jobban) ezekben a játékokban, mint a DeepMind korábbi intelligenciái.
Ez azért jelent áttörést, mert a hasonló, adaptív algoritmusok fejlesztése, melyek nem ismerik a szabályokat egy-egy helyzetben, de így is sikert tudnak elérni, komoly kihívást jelentett eddig a kutatóknak. Pedig a legtöbb valóságos helyzet, sőt néhány játék sem írható le mindössze pár egyszerű szabállyal. Néhány terület pedig annyira összetett, hogy képtelenség lemodellezni minden aspektusát. És itt nem is olyan dolgokra kell gondolni feltétlenül, mint vezetni egy valós, városi forgalomban biciklisek és gyalogosok között, már néhány ősrégi Atari videójáték esetén is épp ez a helyzet.
A MuZero a problémát úgy hidalja át, hogy úgy kezd el „gondolkodni”, mint mi, emberek. Tehát ahelyett, hogy mindent lemodellezne, csak azokat a tényezőket igyekszik figyelembe venni, melyek a döntéshozatalhoz szükségesek. A DeepMind azt a példát hozza, hogy ha az ablakon kitekintve esőfelhőket látunk, mi sem állunk neki a páratartalmat vagy a nyomást számolgatni, hanem az érdekel minket, hogy hogyan öltözzünk fel, ha nem akarunk odakint elázni. A MuZero három szempontot vesz figyelembe, amikor döntést kell hoznia: az előző döntésének a végkimenetelét, a jelenlegi helyzetét, és lehető legkedvezőbb helyzethez vezető következő döntést. Ezzel a megközelítéssel a MuZero a vállalat eddigi leghatékonyabb mesterséges intelligenciája: a tesztelés folyamán épp olyan sikeres volt sakkban, Go-ban és sógiban, mint az AlphaZero, és az összes előző intelligenciánál jobb az Atari játékokban. Az is kiderült, hogy minél több „gondolkodási időt” kap az algoritmus (minél hosszabb idő áll a rendelkezésére egy-egy döntés meghozatalához), annál jobban teljesít. Sőt a Ms Pac-Man esetén kipróbálták azt is, hogy a MuZero csak limitált számú szimulációt futtathat le, de a mesterséges intelligencia így is jó eredményeket ért el.
A MuZero teljesítményének horderejét az adja, hogy ez az első lépés egy általános felhasználású, tehát az emberhez hasonlóan bármiféle szituációban helyt álló mesterséges intelligencia kifejlesztése felé vezető úton.
(Címlapkép/nyitókép: Pixabay)