Mit keres az elefánt a szobában? Ne kérdezzük róla a mesterséges intelligenciát

2020 / 01 / 22 / Bobák Zsófia

#mesterséges intelligencia #látás #mélytanulás

Mit keres az elefánt a szobában? Ne kérdezzük róla a mesterséges intelligenciát

Kezdetben a gépi látást a humán vizuális érzékelés mintájára próbálták megvalósítani. Azonban az algoritmusok valójában pont ellentétesen dolgozzák fel az információt, mint az emberek, sőt, tulajdonképpen maguk az emberek sem úgy látnak, ahogy az elmúlt hatvan évben feltételeztük.

A mesterséges intelligencia látása a neurális hálózatba betáplált adatok feldolgozásán alapszik, melyet úgynevezett feed forward, vagyis előrecsatolt módszerrel értelmez. A feed forward azt jelenti, hogy a gép „ránéz” egy ábrára, majd lépésenként feldolgozza a hozzáköthető adatokat, míg el nem jut a teljes képig. Először detektálja a pixeleket, a kontúrokat, a színeket, a fényességet, a hátteret, majd a részletek összeállnak egy egésszé. Mikor a mesterséges intelligenciát meg akarják tanítani rá, hogy a kép végül is mit ábrázol, macskát vagy elefántot, az algoritmus időnként váratlan hibákat ejt, pedig a hatalmas mennyiségű betáplált adatból azt várnánk, hogy jól meg tudja ítélni a végeredményt.

Elefánt a szobában

Egy 2018-ban végzett kísérletben a torontói York Egyetem kutatói váratlan helyzet elé állították a MI-át, hogy jobb betekintést nyerhessenek a működésébe. Egy képet mutattak a gépnek, melyen egyszerű jelenet volt látható: egy férfi ült egy szék szélén és videojátékkel játszott. A gép felismerte az objektumokat, a széket, a kanapét, az embert. Ezután a kutatók változtattak a beállításon: a színen feltűnt egy elefánt. És nem várt dolog történt, a gép zavarba jött. Persze a zavar csak a mi emberi fogalmaink szerinti állapot, de az bebizonyosodott, hogy az új, ismeretlen adat az ismerős közegben hibás működést eredményez a feldolgozási folyamatban.

A neurális hálózat nem tudta azonosítani az állatot, volt, hogy bárányként definiálta, volt, hogy észre sem vette az elefántot a szobában.

A többi tárgy értelmezése is összekavarodott, a széket összetévesztette a kanapéval és fordítva. „Mindenféle különös dolog történt, mely arra utal, hogy a jelenlegi tárgyfelismerő rendszerek nagyon törékenyek.” – mondta Amir Rosenfeld, a kísérlet egyik vezetője. A probléma pedig a feed forward metódusban rejlik. Már a neurális hálózatok tanításának kezdetén felfedezték, hogy az előrecsatolásnak megvannak a maga gyengeségei.

Az első ilyen módszerrel tanított szoftver, Frank Rosenblatt Perceptronja, melyből teljes életnagyságú gépet szeretett volna létrehozni az Egyesült Államok Haditengerészete, nem váltotta be a hozzá fűzött reményeket, mivel nem tudott kellő hatékonysággal kategorizálni. A Beatles hajviseletének osztályozása például majdnem kifogott rajta. A csalódott tudósok csak később ismerték fel a „hibát”, vagyis hogy, az egyrétegű lineáris rendszer csak lineárisan szétválasztható minták osztályozására képes, a bonyolultabb feladatokhoz többrétegű hálózatot kell létrehozni. Azonban a multilayer rendszerek is előrecsatolásos technikával „látnak”, ami alapvetően különbözik az emberi percepciótól.

„Ha elefánt lenne a szobában, egy ember biztosan észrevenné.” – mondja Rosenfeld.

Az ember a géppel ellentétben inkább feedback módszerrel működik, vagyis a retinán át kapott információkat hozzácsatoljuk a már meglévőkhöz, így a memóriánk, a megszerzett tudásunk segít értelmezni azt, amit látunk. Lehet, hogy elsőre mi is összezavarodnánk, ha hazaérve egy elefántot pillantanánk meg a nappaliban, de a zavar után hamar a helyükre kerülnének a dolgok és biztosan felismernénk az állatot (bár azt nehéz lenne megmagyarázni, hogy jutott be az ajtón). Ezért van, hogy időnként valami odavonzza a tekintetünket, vagy önkéntelenül visszanézünk valamire, az agyunk a szokatlan, sémába nem illő adatot próbálja utólag értelmezni. „A humán vizuális rendszer azt mondja: ’Jelenleg erre nincs válaszom, ezért hát vissza kell mennem, hogy megvizsgáljam, hol követtem el a hibát’” – mondta John Tsotsos, a York Egyetem professzora. A neurális hálózat csak akkor ismeri fel az elefántot, ha betáplálják a rendszerbe, míg az ember tud kérdezni és felismerni saját tudatlanságát. Azonban az ember sem mindig úgy működik, ahogy azt gondoljuk.

Egy 1958-as elmélet szerint, melyet Donald Broadbent dolgozott ki és korai szűrő modell névre hallgat (és amelyből kifejlődött a Saliency Map Theory), az embert folyamatosan érő ingerek közül feltűnőségük alapján szelektálunk, majd a kiválasztott információknak szenteljük a figyelmünket, így téve gazdaságosabbá az agyunk számára az információfeldolgozás nehéz munkáját. A szemünkön (vagy más érzékszerveiken) át érkező adatok tehát valójában inkább benyomások, lenyomatot képeznek egy rövid időre, majd a szelektív szűrő megszűri őket, kiszórja a felesleget és csak töredéküket reprezentálja és válaszolja meg. A kiértékelés pedig még azelőtt megkezdődik, hogy egyáltalán a szűrőn átjutna valami. Ez a gyors gondolkodás hasznos lehetett már az ősidőkben is, mikor a potenciálisan veszélyes és feltűnő dolgokra fürgén kellett reagálni (jött a kardfogú tigris), de egyúttal hibákhoz is vezet, például nem vesszük észre a lassú változásokat (mert nem elég feltűnőek) vagy előzetes élményeink alapján határozzuk meg, mi a normális és mit kell jobban megbámulni (ami hátrányos helyzetbe hozhat másokat). A salience algoritmusok, vagyis feltűnőségi, figyelmi algoritmusok használatosak a neurális hálózatok mélytanulási folyamataiban is.

Azonban egy tavaly októberben publikált tanulmány szerint, amit szintén a York Egyetem kutatói végeztek el, tulajdonképpen ez a teória hamis, az emberi látás máshogy működik, mint hittük. A feltűnőségi tesztet elvégezve rájöttek, hogy az alanyoknak nincs szükségük szembeszökő jellemzőkre ahhoz, hogy pillanatok alatt értelmezni tudják a képeket. Először kétezer rikító színű ábrát mutattak a résztvevőknek, állattal a közepén, majd anélkül. Később úgy helyezték a képeket, hogy csak a retina közepe mögött lévő faveola érzékelte azt (így a perifériát, a rikító színeket nem láthatták), de ekkor is ugyanolyan pontossággal tudták kiválasztani, hogy melyiken láttak állatot. Vagyis a feltűnőségi prioritás működik, de kevesebb súllyal esik latba, mint gondoltuk. Tsotsos szerint a tanulságot nem csak az emberi érzékeléssel kapcsolatban vonhatjuk le, hanem alkalmazhatjuk a gépek betanításánál is, ami különösen fontos olyan területeken, mint például az automata járművek irányítása.

Ahogy írtunk már róla, az Uber halálos balesetéhez is az vezetett, hogy az algoritmus nem volt képes időben eldönteni, a váratlanul elé toppanó biciklis tulajdonképpen micsoda, ember, vagy más, így túl későn kezdett a fékezésbe. Ez az elefántos szituációra emlékeztet, és rávilágít, hogy milyen hosszú még az út a biztonságos közlekedésben vagy orvosi beavatkozásokban alkalmazott MI előtt. De a gép-ember meccset egy tekintetben mindenképpen a robot társaink nyerik, mégpedig az adatfeldolgozásban és kategorizálásban. Míg az emberek csak a két szemükkel látnak és azzal sem mindig olyan jól, a figyelmük el-el kalandozik, amit nem akarnak, nem látnak meg, és a néha még a saját agyuk is becsapja őket (sőt, még az agyunk arcfelismerő technikája sem éri el a teljes fejlettségét húsz éves korunk előtt), addig a számítógépek fáradhatatlanul teszik a dolgukat. „Ha végtelen számítási kapacitással rendelkezhetnék és végtelen memóriával, szükségem lenne rá, hogy megritkítsam az információkat? A válasz, minden bizonnyal, nem.” – mondta Tsotsos. Azonban a további fejlődéshez ennél többre van szükség: „Az információ feldolgozása ezekben a mélytanulási folyamatokban annyira távol áll az emberi tanulástól, amennyire csak lehet. Ez azt árulja el számomra, hogy közeledik a fal, el fogunk érni egy pontra, ahol ezek a rendszerek nem jutnak már előbbre a fejlődésükben.” Ha csak nem tanulnak tőlünk, emberektől.

(Fotó: Flickr/dullhunk, Flickr/instantvantage, Pixabay)

Műholdak figyelik a világot, de mit is látnak pontosan?

Éber szemek figyelik a világot az űrből a nap huszonnégy órájában. Az űrbeli sztrádák egyre jobban benépesülnek, és felmerülhet a kérdés, mennyire fejlett a mai műholdas technológia, és mit is látnak pontosan az űreszközök a magasból?

A csaló telefonhívásokon és a nem létező gázszámlákon túl – 7 módszer, amivel ellophatják az adatainkat az interneten

Az ESET kiberbiztonsági szakértői most összefoglalják, milyen módszerekkel lophatják el a személyes adatainkat – és mit tehetünk azért, hogy ez ne történhessen meg.

AutószalonElektromos autó ajánlatok a jövőből

Elektromos Macan A klasszikus Porsche formanyelv előremutató átdolgozásával a teljesen elektromos Macan már első pillantásra szemlélteti saját lelkületét. Legyen szó városi használatról vagy ingázásról, a teljesen elektromos Macan elemében van mindenhol, különösen, ha az egyéniség is számít. IRÁNY A KONFIGURÁTOR

Cayenne E-Hybridek A mindentudó. Családbarát SUV benzines V6-os vagy V8-as motorral a kimagasló teljesítmény és konnektorról is tölthető elektromotorral a kiemelkedő hatékonyság és tisztaság jegyében. A Porsche, amely nem ismer határokat. IRÁNY A KONFIGURÁTOR

Cayenne Coupé E-Hybridek A sportautó a terepjárók között. A Cayenne Coupé nem köt kompromisszumokat, de még érzelmesebb kapcsolatot teremt. A 462 vagy 680 lóerős konnektorról tölthető hibrid hajtáslánc már csak hab a tortán. IRÁNY A KONFIGURÁTOR

Panamera Sport Turismo E-Hybridek Minden, amit a Panamera tud, plusz még több. Ötszemélyes utastér óriási csomagtartóval és kategóriaelső variálhatósággal. Tisztán elektromos közlekedés vagy éppen 680 lóerő – amire Önnek éppen szüksége van. IRÁNY A KONFIGURÁTOR

További ajánlatok

Ezek is érdekelhetnek