Immár mindenki számára elérhető a DALL-E 2, ami a beírt szövegek alapján hoz létre képeket

2022 / 10 / 04 / Bobák Áron

#MI #mesterséges intelligencia #kép #neurális hálózat

Immár mindenki számára elérhető a DALL-E 2, ami a beírt szövegek alapján hoz létre képeket

Az elmúlt évek egyik legizgalmasabb mesterséges intelligenciával kapcsolatos fejlesztése az úgynevezett text-to-image technológia, vagyis amikor a neurális hálózat a begépelt szöveg alapján teljesen önállóan hoz létre addig nem létező képeket. Mára több cég is előállt a saját megoldásával, de közülük is kiemelkedik a San Franciscó-i OpenAI, akik a DALL-E nevű programjukkal a kategória legfejlettebb képviselőjét mutatták be 2021 elején.

Az Elon Muskot is az alapító tagjai között tudó cég hamarosan előállt a program továbbfejlesztett változatával is: az idén áprilisban bejelentett DALL-E 2 jelentősen fejlettebb, mint az elődje, hiszen 256x256 pixeles felbontású képek helyett immár 1024x1024 pixeles képeket generál, emellett arra is képes, hogy a feltöltött fotóink egy bizonyos részét lecserélje valami másra (ez elsőre talán nem teljesen világos, hogy mit takar, de mindjárt mutatunk rá egy példát).

A DALL-E 2 működése során több különböző neurális hálózat működik együtt, amelyek mind fontos szerepet játszanak a végeredményben: a természetes nyelvi feldolgozásért, vagyis azért, hogy a program képes legyen értelmezni a beírt szavakat, az OpenAI által 2020-ban bemutatott GPT-3 egy kicsit leegyszerűsített verziója felel, ami 3,5 milliárd paramétert képes kezelni, míg arról, hogy az adatbázisa alapján a DALL-E valóban a leírásnak megfelelő képeket hozza létre, a CLIP (Contrastive Language-Image Pre-training) nevű neurális hálózat gondoskodik, amit mintegy 400 millió, az interneten elérhető képpel és azok leírásával tanítottak be.

A DALL-E 2 sokáig csak néhány kiválasztott ember számára volt elérhető, amit júliustól egy béta program követett, szeptember végén viszont az OpenAI bejelentette, hogy mindenki számára elérhetővé teszik a szolgáltatást, amit egy gyors regisztrációt követően itt tudunk elérni. A felhasználók induláskor 50 kreditet kapnak ingyen, ami azt jelenti, hogy 50x4 képet készíthetünk el szabadon, ezt követően pedig minden hónap elején 15 kreditet kapunk, vagyis a DALL-E korlátozottan ugyan, de teljesen ingyenesen használható. Fontos megjegyezni, hogy a kreditek nem vihetők át a következő hónapra, de ha valakinek több képre lenne szüksége, akkor további krediteket is vásárolhat, amelyből 115 jelenleg 15 dollárba, vagyis nagyjából 6400 forintba kerül.

Az 50x4 kép úgy jön ki, hogy a DALL-E minden leírásra négy különböző képet generál, amelyek közül kiválaszthatjuk azt, amelyik a legjobban sikerült. A korábbi verziókban a program még tíz, később pedig hat különböző változatot készített a képekből, ám úgy tűnik, hogy ez a limit volt annak az ára, hogy a DALL-E a nagyközönség számára is elérhető legyen. Az OpenAI ezen túlmenően is hozott néhány korlátozást, például nem hozhatunk létre erőszakot vagy szexualitást ábrázoló képeket, és a híres emberekről készült képek is le vannak tiltva annak érdekében, hogy a felhasználók ne tudják deepfake-ek létrehozására használni a rendszert.

Aki kipróbálta már a programot, azt valószínűleg nem éri meglepetésként, hogy mi egy pillanat alatt felhasználtuk az 50 kreditünket, hiszen a DALL-E valóban egy kimeríthetetlen aranybánya, ami a profi rajztudással vagy képszerkesztési ismeretekkel nem rendelkezők számára is megnyitja a lehetőséget, hogy bármilyen képet megalkossanak.

A mesterséges intelligencia képességeinek szó szerint csak a képzeletünk szab határt, egyszerűen nem tudtunk tőle olyan dolgot kérni, amit ne lett volna képes legalább hozzávetőlegesen úgy megalkotni, ahogyan azt elképzeltük.

Egyszarvún lovagló páncélos medve, Einsteinnek kinéző földönkívüliek, elektromos gitáron játszó Abraham Lincoln - a DALL-E számára egyik sem okoz problémát.

Albert Einsteinnek kinéző űrlények érkeznek biciklivel a Fehér Házba nagy tömeg előtt

Abraham Lincoln elektromos gitáron játszik a közönség előtt (digital art)

Páncélos medve lovagol egy egyszarvún, olajfestmény Picasso stílusában

Az angol nyelvvel hadilábon állók számára elsőre ijesztő lehet, hogy a DALL-E csak az angol szavakat érti meg, de ez a gyakorlatban senkinek sem okozhat problémát: a néhány szavas leírásokat bármilyen fordítóprogrammal (pl. a kiváló Deepl-lel) lefordíthatjuk magyarról angolra, majd egyszerűen bemásolhatjuk a szövegmezőbe. A bonyolultabb leírásokat amúgy is érdemes kerülni, hiszen tapasztalataink szerint minél összetettebb dolgokat kérünk, annál nagyobb a valószínűsége, hogy a DALL-E bizonyos kritériumokat figyelmen kívül hagy. Érdemes azt is megjegyezni, hogy bár a DALL-E valóban mindig képes volt a leírásnak megfelelő képeket generálni, ám minél inkább elrugaszkodtunk a valóságtól, annál nagyobb volt a valószínűsége, hogy a végeredmény valamilyen rajz lesz, vagyis például kétemeletes hókotrót vezető zsiráfról nem igazán várhatunk fotorealisztikus képeket a programtól. Az is feltűnő, hogy a DALL-E egyelőre nem igazán erős az emberek élethű megjelenítésében, az ilyen képeknél redszeresen előfordult, hogy az emberek arca elmosódott vagy egyszerűen nem hasonlított egy valódi emberi arcra.

Frodo, mint kutya a Gyűrűk Ura filmben (digital art)

David Bowie találkozik a télapóval (digital art)

A program kétségkívül akkor működik a legjobban, amikor olyan dolgokat kérünk tőle, amik a valósághoz közel állnak. Az üvegtálban lévő kék színű almákat vagy egy nyúl jelmezt viselő, szomorú bulldogot például tökéletesen élethűen generál le, bár fontos megjegyezni, hogy ugyan a program az internetről származó képekből tanulta meg, hogy néznek ki ezek a dolgok, a végeredmény itt is száz százalékosan mesterséges, vagyis nem egy létező képet próbál a DALL-E a sajátjaként eladni.

Kenguru sétál Budapesten, a Parlament épülete előtt

Sajnos az ötven kredit rendkívül kevés ahhoz, hogy kiismerjük a program összes lehetőségét, amely valóban nagyon szofisztikáltan tudja értelmezni, hogy mit szeretnénk látni. A kép témáján kívül megadhatjuk például azt is, hogy milyen stílusban készítse el a képet, akár olajfestményről, akár 8 bites stílusú képről vagy makró fotóról van szó. A DALL-E képes reprodukálni híres festők stílusát (ehhez elég a leírás végére odaírni, hogy pl. Van Gogh stílusában), és a 3D render képek sem okoznak neki gondot. Egy hasznos trükk, amit a program használata közben tanultunk, hogy ha a kapott kép nem eléggé tükrözi, amire gondoltunk, akkor a "digital art" kifejezést a leírás mögé beszúrva általában jobb eredményeket kapunk.

Variációk egy témára: égi palota reneszánsz valamint 8 bites stílusban

A DALL-E 2 másik érdekes képessége, hogy a saját képeinket és fotóinkat is manipulálhatjuk vele, amihez nincs más teendőnk, mint a szövegdoboz alatti sorra kattintva feltölteni egy képet, majd kijelölni azt a részt, amit módosítani szeretnénk. Ezután ugyanúgy meg kell adnunk, hogy mit szeretnénk látni a képen, mintha teljesen új képet generálnánk, és puff... a San Franciscó-i villamost máris lecseréltük egy lovaskocsira.

A DALL-E-vel kapcsolatban az egyik gyakran felmerülő aggály, hogy az ehhez hasonló programok el fogják venni az illusztrátorok munkáját, hiszen gyakorlatilag bármilyen képet létrehozhatunk a segítségükkel. Bár nem elképzelhetetlen, hogy ez előbb vagy utóbb bekövetkezik, a jelenlegi állapotában a DALL-E még határozottan nem jelent veszélyt az illusztrátorokra és a profi képszerkesztőkre. Bár a programnak meglehetősen pontosan tudjuk megadni, hogy mit szeretnénk látni, és ezeket rendre teljesíti is, egy embernek a legtöbb esetben azért kétségkívül sokkal részletesebben tudjuk elmagyarázni, hogy pontosan mire gondoltunk, míg a DALL-E-nél a végeredmény mindig kicsit a szerencsére van bízva. Jó példa erre például az "Arisztotelész megszerzi a győztes gólt a 2002-es labdarúgó-világbajnokság döntőjében" című kép, ami ugyan kétségkívül ötletes lett, de nem kérdés, hogy kicsit csalódottak lennénk, ha egy illusztrátortól ezt a munkát kaptuk volna egy megrendelésre.

A tógát viselő Arisztotelész görög filozófus megszerzi a győztes találatot a 2002-es FIFA világbajnokság döntőjében

A DALL-E 2 ugyanakkor abban tényleg mérföldkő lehet, hogy tömegek számára nyithatja meg a lehetőséget, hogy képekbe öntsék a fantáziájukat, valahogy úgy, ahogy az okostelefonok demokratizálták a videókészítést a 2010-es években. Az OpenAI számára a következő nagy kérdés minden bizonnyal az lesz, hogyan lehet pénzt csinálni egy ennyire fejlett technológiából, de úgy tűnik, hogy egyelőre nem sietnek a DALL-E kommercializálásával: bár ahogy fentebb írtuk, bizonyos limit felett fizetnünk kell érte, hogy új képeket hozhassunk létre, de ezt leszámítva a program ingyenes, és az MI által generált képeket is bármilyen célra szabadon felhasználhatjuk.

Néhány szó alapján képes bármilyen képet létrehozni a Google mesterséges intelligenciája Az Imagen nem kevesebbet ígér, hogy képszerkesztői tudás nélkül is megalkothatunk bármilyen képet, akár fotorealisztikus minőségben is.