Egy robot legyőzte a dél-koreai nemzeti curling-válogatott játékosait
2020 / 10 / 12 / perei.dora
Egy robot legyőzte a dél-koreai nemzeti curling-válogatott játékosait
Mi is az a Curling? Egy téli sport, amit egy hosszúkás jégpályán játszanak oly módon, hogy köveket csúsztatnak a pálya egyik végéből a másikba. Sokan emiatt a teke és a sakk keverékének tartják az olimpiai sportágat, melynek során két csapat nyolc-nyolc követ csúsztathat egy kör alakú mezőbe, és az nyer, amelyiknek a kövei a játékrész végén legközelebb kerültek a kör középpontjához.

A sportág nagyszerű tesztelési terepként szolgál a mesterséges intelligencia és a való világ közötti interakciók tanulmányozására: gyakran előfordul ugyanis, hogy az algoritmus a szimulációban jól teljesít, aztán a valóságban már kevésbé. Kutatók ezért a világ számos pontján laboratóriumi körülmények között, mélytanuló rendszerek megismételt szimulációkban több millió cselekvés elsajátítására megtanítják, és ezek a rendszerek hozzájárulnak a különbségek csökkenéséhez. A Berlini Technológiai Intézet és a Max Planck Intézet kutatói együttműködésében a Korea Egyetemen nemrégiben kifejlesztettek egy mélytanuló programot, melynek köszönhetően

Curly, a curling robot négyből három meccset megnyert a dél-koreai nemzeti válogatott játékosai ellen.

Ami a terepet illeti, a fejlesztők szerint a jég az egyik legnehezebben szimulálható környezet, és mivel a gépnek környezetével fizikai interakcióba kell lépnie, emiatt a szimulációból a valóságba történő zökkenőmentes átmenet Curly esetében még nehezebb volt. A jég minden egyes dobás után módosul, vagyis a robotot úgy kellett beprogramozni, hogy megítélje az ellenőrizetlen környezeti változásokat, és alkalmazkodjon hozzájuk. Mindezt megerősítéses mélytanulással sikerült elérni, ami annyit tesz, hogy a rendszer próba-hiba alapon segítette a gépet a bizonytalanságok kezelésében, és okulva az egyes dobásokból, a következőt már jobban teljesítette. A mélytanuló rendszert egy már korábban kifejlesztett stratégiai tervezőmodellel kombinálták, ennek köszönhetően a robot képes volt legyőzni az emberi játékosokat:

Egy normál csapat három személyből áll, Curly viszont csak két robotot használt, söprögetőt nem. Az egyik, a kapitány a stratégiával foglakozott, a másik köveket dobált, illetve kommunikáltak is egymással: hibás dobásokat azonosítottak, kidolgozták az alkalmazkodási tervet a jég változásaihoz, és persze figyelték az ellenfél lépéseit. A fejlesztők azt remélik, hogy mélytanuló rendszerüket hamarosan összetettebb alkalmazásban, például drónok navigálásához vagy az ércbányászatban is használhatják. Elmondásuk szerint az eszköz különösen hasznos lehet olyan esetekben, amikor a környezet változik, ám a szenzorikus adatokból nem észlelhetők a pontos körülmények.

Mi is pontosan az a megerősítéses tanulás?

A megerősítéses tanulás, eredeti nevén reinforcement learning a gépi tanulás egy kevésbé ismert, ám annál nagyobb lehetőségekkel kecsegtető területe: ennél a módszernél a gépi tanuló algoritmus kezdetben szemernyi tudással sem rendelkezik, ezért - akárcsak az élőlények -, a környezeti hatásokra reagálva dönti el a végrehajtott cselekvés helyességét vagy helytelenségét. Valahányszor olyasmiről olvasunk vagy olyasmit hallunk, hogy a mesterséges intelligencia képes legyőzni mondjuk a sakk bajnokait, akkor a fejlesztők szinte biztosan megerősítéses tanulást alkalmaztak. Ahogy említettük, a megerősítéses tanulás egy természetes mintán alapul, melynek során az egyén a környezettel történő interakción keresztül megtanulja, hogyan viselkedjen különböző helyzetekben. A világot mindenki saját tapasztalatai alapján fedezi fel, ebből kifolyólag nincs olyan példa, amelyről minden lemásolható lenne. A megerősítéses tanulás vizsgálata sokféle aspektusból történhet, például pedagógiai, pszichológiai vagy matematikai nézőpontból.

Megerősítéses tanulásnál az úgynevezett tanuló ágens műveleteket hajt végre egy adott környezetben. A gépi tanulás kapcsán minden és mindenki ágensnek tekinthető, ami vagy aki döntéseket hoz: egy személy, egy gép vagy akár egy szoftver.

Az ágens meghozza azt a döntést, amit múltbéli tapasztalatai, illetve jelen helyzete alapján a legmegfelelőbbnek tart,

azaz figyelemmel kíséri a környezet jelenlegi állapotát, kiválasztja a végrehajtható műveletek egyikét és teljesíti azt. Minden művelet után új állapotba kerül, ahol először megfigyel, majd ismét kiválaszt és végrehajt. Egyes állapotokhoz jutalmat rendelhetünk, amelyet az ágens teljesítés esetén megkap. (Az ágens célja megerősítéses tanulásnál a megszerzett jutalom maximalizálása.) A megerősítéses tanulás másik jellemzője, hogy a jutalom általában időben késve jelentkezik. Ez azt jelenti, hogy a visszajelzést arról, hogy az ágens sikeres volt-e, vagy sem, csak adott számú művelet elvégzése után kapjuk meg, míg felügyelt tanulásnál a modell ezt azonnal tudja tekintve, hogy a visszajelzés azonnali. Felügyelt tanulásnál ugyanis van egy 'oktató', aki megmutatja az optimális cselekedet egy adott helyzetben.

A megerősítéses tanulásban az ágens ezzel szemben saját maga fedezi fel mindazt, hogy az adott környezetben mely tevékenységek, műveletek bizonyulnak helyesnek azáltal, hogy kipróbálja őket.

A legtöbb esetben az ágens által választott tevékenységek nemcsak az azonnali jutalmat befolyásolják, hanem azt az állapotot is, amelybe a tanuló ágens ezt követően belép, és így közvetetten a jutalmat is. Ez a két tulajdonság tehát a megerősítéses tanulás két legfontosabb jellemzője. A megerősítéses tanulási probléma megoldásához az ágensnek egy adott szinten tisztában kell lennie a környezet állapotával, és tudnia kell befolyásolni azt. Az ágens célja alapvetően a megszerezhető jutalom maximalizálása, a jutalom pedig származhat akár egy kívánt célállapot eléréséből is. A megerősítéses tanulásnak teljesen más kihívásai vannak más típusú tanulásokhoz képest: előbbinél ugyanis a cél az, hogy az ágens ráleljen az egyensúlyra a felfedezés és a jutalom elérése között.

A minél több jutalom felhalmozása érdekében az ágensnek ki kell választania azon jutalommal kecsegtető cselekedeteket, amelyeket korábban már kipróbált.

Ahhoz, hogy felfedezze ezeket a lehetőségeket, olyanokkal kell kísérleteznie, amiket még nem tett, azaz saját tudását kell használnia, hogy jutalomhoz jusson, miközben feltárja környezetét és cselekedeteit, hogy a jövőben a lehető legjobb döntéseket tudja meghozni. Azonban fontos, hogy nem lehet csupán a maximális jutalomra koncentrálni, hiszen mindenképp el kell látnia el kitűzött feladatát. Az ágensnek különféle tevékenységeket kell kipróbálnia, és a legnagyobb hasznot ígérőket kell előnyben részesítenie. Mindezek mellett a megerősítéses tanulásnál nem elég csupán a tanuló ágenst fejleszteni, de időt és energiát kell szentelni a megfelelő környezeti modell előállítására, valamint annak folyamatos fejlesztésére.

(Fotó:  Korea University)

Ha tetszett ez a cikk, kövess minket a Facebookon is!


Először vagy itt? Ez itt a Rakéta!
Olvasd el főszerkesztőnk beköszönőjét, mire számíthatsz tőlünk!
Rakéta az Instagramon is!
Kövesd be, később jól jársz majd!
Ezek is érdekelhetnek

Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.