Az OpenAI a mesterséges intelligencia kutatásával foglalkozó laboratórium, amely két részből áll: az OpenAI LP egy profitorientált cég, míg az OpenAI Inc. az előbbinek a nonprofit anyavállalata. Az OpenAI amúgy a DeepMind egyik konkurense, ez utóbbi pedig éppen úgy az Alphabet Inc. konglomerátum alá tartozik, mint a Google is. Az OpenAI 2015-ben alakult meg San Franciscóban, és az egyik alapítója Elon Musk. Musk egyébként 2018-ban távozott a vállalat tanácsából, de továbbra is támogatja azt anyagilag. 2019-ben pedig az OpenAI LP-be 1 milliárd dollárt fektetett be a Microsoft. Magyarán nem egy garázscégről beszélünk.
Az OpenAI legújabb intelligenciája a DALL-E, amely több szempontból is túlmutat azon, amire a hasonló algoritmusok eddig képesek voltak. A DALL-E elnevezés egyébként egyszerre utal a híres szürrealista festőre, Salvador Dalí-ra, valamint a WALL-E című animációs filmre. Ha pedig e két forrást szétszálazzuk, meg is kapjuk azt, hogy igazából mi a DALL-E: egy akár szürreális képek létrehozására is alkalmas „robot”. A DALL-E igazi értékét mégis az jelenti, hogy képes szöveges utasításra képeket alkotni, akár olyan képeket is, melyek létező dolgokat kombinálnak egy sosem létezett tárggyá vagy élőlénnyé. Eddig a szöveges utasításra képeket létrehozó intelligenciák művei homályosak vagy nagyon pixelesek voltak, és alig emlékeztettek a valóságos tárgyakra. A DALL-E – nevezzük így egyelőre – produktumai azonban élesek, tiszták, sőt néha már-már fotórealizmus jellemzi őket.
A DALL-E egy létező OpenAI intelligencia, a tavaly bemutatott GPT-3 egyik verziója. A GPT-3 több milliárd weboldal szövegein keresztül tanulta meg a szövegalkotást, és begépelt utasításra képes generálni híreket, recepteket vagy akár verseket is. A DALL-E egy újabb lépcsőfok, amit már szövegek és az ahhoz kapcsolódó képek segítségével képeztek ki. Az OpenAI egy másik modell, a CLIP segítségével szűri ki, hogy a DALL-E képei közül melyek a legsikerültebbek. A vállalat az algoritmust ebben a blogbejegyzésben mutatja be. A linken pedig mi is kipróbálhatjuk, hogyan működik a szoftver. Egyelőre különböző példákat látunk, és nem is gépelhetünk be bármit, hanem opciókból választhatunk. Például különböző méretű kockákat helyezhetünk el a térben, vagy állatokat tehetünk különböző környezetbe különböző megjelenítési módok mellett (voxelesen, gyurmafiguraként). Gyurmafiguráknál megdöbbentően fényképszerű eredmények születnek egyébként.
Az igazán érdekes dolgok azonban az egymással nem összefüggő dolgok kombinálása, mint például a teáskanna keverése egy csigával. Ebben az esetben DALL-E igyekszik figyelembe venni a csiga és a kanna alakját is, majd kombinálja a kettőt. Akadnak képek, melyeken a csigaház kanna alakú, más képeken pedig a kannán fut csigavonal. Ugyanakkor, ahogy azt a már linkelt honlapon is írják, az algoritmus néha hibázik, és nem összeolvasztja a képen a két dolgot, hanem egyszerűen csak megjeleníti azokat egymás mellett.
Lenyűgöző az is, ahogy az AI „elképzel” ténylegesen sosem létezett tárgyakat valójában létező tárgyak mintájára és stílusában. Az alábbi képen például a szoftver az általa megtanult, alapvető és sztereotipikus tudást a dizájnban és a technológiában tapasztalható trendekkel kapcsolatban alkalmazta, hogy ábrázolja a számítógép megjelenésének elképzelt fejlődési útját 1900-tól egészen a közeljövőig.
Ilya Sutskever, az OpenAI egyik alapítója és vezető tudósa úgy nyilatkozott a CNN-nek, hogy a DALL-E mind a szöveget, mind a képet tekintve egy előrelépés a mesterséges intelligencia fejlődésében. Ez pedig a jövőre nézvést nem csak azt jelenti, hogy az MI mind komplexebb utasításokat fog majd végrehajtani – legyen szó képszerkesztésről vagy akár bútortervezésről, de felveti azt az összetett problémát is, hogy mit jelent ha egy számítógép a művészetben és a dizájnban – ezeken a hagyományosan emberek képviselte területeken kezd el tevékenykedni.
(Címlapkép/nyitókép: ilyen Pikachu-alakú fotelt képzel a DALL-E/forrás: openai.com)