A ChatGPT-t is megalkotó OpenAI 2021-ben állt elő a DALL-E első verziójával, ami a maga idejében egészen különlegesnek számított, hiszen ez volt az első olyan, mindenki számára elérhető text-to-image program, ami a generatív mesterséges intelligencia segítségével, akár néhány begépelt szóból képes volt létrehozni egy teljesen egyedileg megalkotott képet. Bár a tavaly bemutatott DALL-E 2 szinte minden szempontból hatalmas előrelépés volt az első verzióhoz képest, az OpenAI-nak ezzel együtt is alaposan fel kellett kötnie a gatyáját, hiszen idő közben megjelent a konkurencia is, a Stable Diffusion és különösen a Midjourney pedig sok szempontból még a DALL-E-nál is jobb munkát végeztek. Hogy a szeptember végén bemutatott DALL-E 3-mal az OpenAI-nak sikerült-e visszaszereznie a trónt, azt néhány napja már mindenki kipróbálhatja, ugyanis az OpenAI-t komoly összegekkel támogató Microsoft a napokban a Bing keresőn keresztül ingyenesen elérhetővé tette a képgenerátor legújabb verzióját.
Bár a fenti kérdésben nem akarunk elhamarkodott ítéletet hirdetni, az biztosan kijelenthető, hogy a DALL-E 3 annyit fejlődött az elődjéhez képest, hogy az összehasonlítás a legtöbb esetben tulajdonképpen értelmetlen. A generált képek mind minőségben, mind pedig a beírt szövegek pontos értelmezésében annyival jobbak, mintha nem egy év, hanem legalább egy évtized telt volna el a két program bemutatása között. Példaként vegyül csak az "egy úriember elegáns felöltőben és sétabottal a kezében sétál egy 19. századi városban, klasszicista stílusban épült bérházak között, mellette éppen elhalad egy lovaskocsi, miközben az út szélén gyerekek labdáznak" utasítást, amire a DALL-E 2 ezt a képet adta ki:
Míg a DALL-E 3 ilyen és ehhez hasonló képeket készített ugyanerre a leírásra:
A szemmel látható különbség egyik oka, hogy a fejlesztői szerint - és a mi tapasztalataink szerint is - a DALL-E 3 sokkal jobban megérti az összetett szövegeket is, így pedig nem csak az fordul elő sokkal ritkábban, hogy a program félreérti a kérésünket, de még olyat is csak elhanyagolhatóan ritkán tapasztaltunk, hogy az MI a leírás egy részét figyelmen kívül hagyja. Amíg a DALL-E 2 az "egy nyuszijelmezt viselő medve megérkezik a halloweeni buliba" leírásra például csak egyszerűen egy nyúljelmezbe öltözött medvét alkot, addig a DALL-E 3 már tényleg egy teljes értékű képet készít, amiből világosan kiderül az is, hogy éppen Halloween van.
Ahogy a fenti példákban is látható, a DALL-E 3 persze nem csak pontosabban dolgozik elődjénél, de a végeredmény sokkal minőségibb is, aminek az egyik oka, hogy míg a DALL-E 2 "csak" 3,5 milliárd paraméterrel dolgozott, addig az új verziónál ez 12 milliárdra emelkedett, ami jóval komplexebb és részletesebben kidolgozott képek létrehozását teszi lehetővé. A kielégítő eredményekben természetesen nagy segítség az is, hogy ahogy az előző verzió, úgy a DALL-E 3 is minden leírásra automatikusan négy különböző képet generál, amelyek közül kiválaszthatjuk a legjobban sikerültet. Az elképzeléseinknek leginkább megfelelő képek létrehozását a jövőben méginkább meg fogja könnyíteni, hogy a DALL-E 3-at a ChatGPT fizetős verziójába is integrálták, így elég lesz elmagyarázni a chatbotnak, hogy milyen képet szeretnénk látni, és az automatikusan előáll az optimális szövegezéssel.
A mi szempontunkból mindezek mellett természetesen nagyon fontos különbség az is, hogy amíg a DALL-E 2 sokszor egyáltalán nem volt képes a leírásnak megfelelő képeket generálni, ha magyarul írtuk be a szöveget, a DALL-E 3 olyannyira jól ért magyarul, hogy a létrehozott képek minősége szempontjából igazából nem jelent különbséget, hogy magyarul vagy angolul adtuk meg a leírást.
Ahogy megszokhattuk, a DALL-E 3-nak is számos olyan utasítást adhatunk, amivel pontosíthatjuk, hogy milyen képet szeretnénk látni: a képek végére beírhatjuk azok stílusát (például steampunk, rajzfilm stb.), de kérhetjük azt is, hogy például nagy látószöggel vagy békaperspektívából készült kép legyen a végeredmény, emellett az MI híres festők stílusjegyeit is profin leutánozza - a lehetőségek száma szinte végtelen. Az OpenAI ugyanakkor vállaltan hozott néhány szigorú korlátozást, élő művészek stílusát például a DALL-E 3 már nem hajlandó leutánozni, és ugyanígy megtagadja a képek létrehozását akkor is, ha egy közéleti személyiségről kérünk valamilyen illusztrációt.
A Bing képkészítő szolgáltatásának használatára vonatkozó "házirend" szerint tiltott minden olyan kép létrehozása, amely kizsákmányolásra vagy visszaélésre (például szexuális zaklatás bemutatására) vonatkozik, emellett nem lehet létrehozni erőszakot, bántalmazást bemutató képeket és olyan tartalmakat sem, amelyek kimerítik a gyűlöletbeszéd fogalmát, szándékosan megtévesztőek vagy népszerűsítik az öngyilkosságot. Bár az ezek mögött a szabályok mögött álló szándék nehezen vitatható, a saját tapasztalataink szerint a Microsoft néha már túl óvatos volt, a képkészítő például akkor is megtagadta a kép legenerálását, amikor csak annyit adtunk meg leírásként, hogy “egy embert letartóztatnak az utcán a rendőrök”. Ugyanígy zsákutcába futottunk, amikor a leírásban a "félelmetes" vagy "horrorisztikus" szavakat használtuk.
Ahogy említettük, a DALL-E 3 jelenleg a Bing Képkészítő szolgáltatásán keresztül vehető ingyenesen igénybe, amihez csupán egy Microsoft-fiókra van szükségünk. A szolgáltatás minden nap 25 darab úgynevezett “gyorsítót” ad nekünk, amelyek automatikusan levonódnak, ha képet generálunk. Ezeket érdemes okosan felhasználni, hiszen amíg a gyorsítók használatával a képek létrehozása csak másodpercekbe telik, ezek nélkül akár 20-30 percet is várakoznunk kell, mire a program elkészíti a képeinket. Amennyiben kifogytunk, a legegyszerűbb, ha várunk egy napot, de amennyiben rendelkezünk ilyenekkel, a Microsoft Rewards pontjainkat is beválthatjuk újabb gyorsítókra. Ezeket ugyan közvetlenül nem lehet megvásárolni, viszont a Microsoft számos tevékenységért ad pontokat, például ha a Binget használjuk keresésre vagy ha a Microsoft Store-ban vásárolunk.