Pikachu-fotel, teáskanna csiga, valamint számítógép 1900-ból: így fest, amikor a mesterséges intelligencia elkezdi használni a képzeletét
2021 / 01 / 16 / Felkai Ádám
Pikachu-fotel, teáskanna csiga, valamint számítógép 1900-ból: így fest, amikor a mesterséges intelligencia elkezdi használni a képzeletét
Az OpenAI intelligenciája a begépelt szöveg alapján képes kitalált dolgokat akár nagyfokú fotórealizmus mellett is megjeleníteni.

Az OpenAI a mesterséges intelligencia kutatásával foglalkozó laboratórium, amely két részből áll: az OpenAI LP egy profitorientált cég, míg az OpenAI Inc. az előbbinek a nonprofit anyavállalata. Az OpenAI amúgy a DeepMind egyik konkurense, ez utóbbi pedig éppen úgy az Alphabet Inc. konglomerátum alá tartozik, mint a Google is. Az OpenAI 2015-ben alakult meg San Franciscóban, és az egyik alapítója Elon Musk. Musk egyébként 2018-ban távozott a vállalat tanácsából, de továbbra is támogatja azt anyagilag. 2019-ben pedig az OpenAI LP-be 1 milliárd dollárt fektetett be a Microsoft. Magyarán nem egy garázscégről beszélünk.

Az OpenAI legújabb intelligenciája a DALL-E, amely több szempontból is túlmutat azon, amire a hasonló algoritmusok eddig képesek voltak. A DALL-E elnevezés egyébként egyszerre utal a híres szürrealista festőre, Salvador Dalí-ra, valamint a WALL-E című animációs filmre. Ha pedig e két forrást szétszálazzuk, meg is kapjuk azt, hogy igazából mi a DALL-E: egy akár szürreális képek létrehozására is alkalmas „robot”. A DALL-E igazi értékét mégis az jelenti, hogy képes szöveges utasításra képeket alkotni, akár olyan képeket is, melyek létező dolgokat kombinálnak egy sosem létezett tárggyá vagy élőlénnyé. Eddig a szöveges utasításra képeket létrehozó intelligenciák művei homályosak vagy nagyon pixelesek voltak, és alig emlékeztettek a valóságos tárgyakra. A DALL-E – nevezzük így egyelőre – produktumai azonban élesek, tiszták, sőt néha már-már fotórealizmus jellemzi őket.

A DALL-E egy létező OpenAI intelligencia, a tavaly bemutatott GPT-3 egyik verziója. A GPT-3 több milliárd weboldal szövegein keresztül tanulta meg a szövegalkotást, és begépelt utasításra képes generálni híreket, recepteket vagy akár verseket is. A DALL-E egy újabb lépcsőfok, amit már szövegek és az ahhoz kapcsolódó képek segítségével képeztek ki. Az OpenAI egy másik modell, a CLIP segítségével szűri ki, hogy a DALL-E képei közül melyek a legsikerültebbek. A vállalat az algoritmust ebben a blogbejegyzésben mutatja be. A linken pedig mi is kipróbálhatjuk, hogyan működik a szoftver. Egyelőre különböző példákat látunk, és nem is gépelhetünk be bármit, hanem opciókból választhatunk. Például különböző méretű kockákat helyezhetünk el a térben, vagy állatokat tehetünk különböző környezetbe különböző megjelenítési módok mellett (voxelesen, gyurmafiguraként). Gyurmafiguráknál megdöbbentően fényképszerű eredmények születnek egyébként.


Ilyenek a gyurmarókák (forrás: openai.com)

Az igazán érdekes dolgok azonban az egymással nem összefüggő dolgok kombinálása, mint például a teáskanna keverése egy csigával. Ebben az esetben DALL-E igyekszik figyelembe venni a csiga és a kanna alakját is, majd kombinálja a kettőt. Akadnak képek, melyeken a csigaház kanna alakú, más képeken pedig a kannán fut csigavonal. Ugyanakkor, ahogy azt a már linkelt honlapon is írják, az algoritmus néha hibázik, és nem összeolvasztja a képen a két dolgot, hanem egyszerűen csak megjeleníti azokat egymás mellett.


Forrás: openai.com

Lenyűgöző az is, ahogy az AI „elképzel” ténylegesen sosem létezett tárgyakat valójában létező tárgyak mintájára és stílusában. Az alábbi képen például a szoftver az általa megtanult, alapvető és sztereotipikus tudást a dizájnban és a technológiában tapasztalható trendekkel kapcsolatban alkalmazta, hogy ábrázolja a számítógép megjelenésének elképzelt fejlődési útját 1900-tól egészen a közeljövőig.


Forrás: openai.com

Ilya Sutskever, az OpenAI egyik alapítója és vezető tudósa úgy nyilatkozott a CNN-nek, hogy a DALL-E mind a szöveget, mind a képet tekintve egy előrelépés a mesterséges intelligencia fejlődésében. Ez pedig a jövőre nézvést nem csak azt jelenti, hogy az MI mind komplexebb utasításokat fog majd végrehajtani – legyen szó képszerkesztésről vagy akár bútortervezésről, de felveti azt az összetett problémát is, hogy mit jelent ha egy számítógép a művészetben és a dizájnban – ezeken a hagyományosan emberek képviselte területeken kezd el tevékenykedni.

(Címlapkép/nyitókép: ilyen Pikachu-alakú fotelt képzel a DALL-E/forrás: openai.com)

Ezek is érdekelhetnek:

Úgy gondolkodik, akár egy ember, a DeepMind legújabb mesterséges intelligenciája A MuZero nevű mesterséges intelligencia abban előrelépés, hogy nem kell ismernie a szabályokat ahhoz, hogy nyerjen egy játékban. Ennek jelentősége óriási: ez az első lépés egy minden szituációban helytálló algoritmus felé.

Mesterséges intelligencia írt cikket a The Guardianbe. Áttörés vagy csak túlzó hype? Szeptember nyolcadikán bejárta a világsajtót egy cikk, melyet a brit The Guardian közölt. Ebben, a történelemben először, egy mesterséges intelligencia köszöntötte az emberiséget, és megpróbált mindenkit megnyugtatni békés szándékai felől. Ez legalábbis a történtek populáris olvasata, de mi vajon a valóság?

A mesterséges intelligencia szerepjátékkal tanul célokat kitűzni Az olyan mesterséges intelligencia eszközök, mint a GPT-3 felhasználhatók hangulatelemzéshez, nyelvfelismeréshez és meggyőző módon utánozhatják az emberi írást. Alapvetően azonban csak mintákat tanulnak és közben nem értik, hogy valójában mit csinálnak.  


Kövesd a Rakétát a Facebookon is!
Kövess, üzenj, kommentelj a Rakéta Facebook oldalán!
Ismerd meg a ROADSTER magazint!
AUTÓK - DESIGN - GASZTRO - KULT - UTAZÁS - TECH // Ha szereted a minőséget az életed minden területén, páratlan élmény lesz!
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!

Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.