Az OpenAI múlt kedden jelentette be a ChatGPT legújabb funkcióját, vagyis hogy a GPT-4o modell segítségével a chatbot immár képek generálására is képes, ráadásul a DALL-E 3-nál lényegesen jobb minőségében. Arra, hogy mekkora lesz az érdeklődés az új szolgáltatás iránt, vélhetőleg még ők maguk sem számítottak, hiszen röviddel az indulás után az ingyenes verzióban kénytelenek voltak letiltani a funkciót, amit csak tegnap tettek újra elérhetővé.
Az OpenAI állítása szerint a képgenerátornál egy egészen új megközelítést alkalmaztak, amelynek köszönhetően a ChatGPT sokkal pontosabban tudja megjeleníteni a képen a szövegeket, emellett akár 15-20 képelemet is képes a felhasználó kérésének megfelelően megjeleníteni. Tapasztalataink szerint ez valóban így is van, és bár a ChatGPT összességében nem generál nagyságrendekkel jobb minőségű képeket, mint például a Google Geminiben elérhető Imagen 3, de a fentieken kívül is rendelkezik néhány olyan funkcióval, ami kiemeli a versenytársak közül.
Első nekifutásra egy olyan angol nyelvű prompttal próbálkoztunk, amelyet maga az OpenAI használt a ChatGPT új képgeneráló funkciójának bemutatásához. A New York-i seprűhasználatra vonatkozó táblakat tanulmányozó boszorkányokról készült kép ennek megfelelően a megszólalásig hasonlít az OpenAI által közzétett képre. Az ebből az egy képből is világosan látszik, hogy a GPT-4o képgenerátor valóban rendkívül pontosan tud végrehajtani akár egészen összetett utasításokat is, emellett a táblákra írt szövegekben is alig találni hibát, pedig ez a legtöbb képgenerátornak megoldhatatlan feladatot okoz.
Összehasonlításképpen íme az Imagen-3 által generált kép, ami ugyan minőséget tekintve nem tűnik rosszabbnak, de a táblán látható szövegek helyessége, a bokeh-effekt hiánya és a feleslegesen a képre rakott extra szőnyeg miatt összességében mégis kevésbé kiforrott, mint a ChatGPT által alkotott kép.
A ChatGPT új funkciójának egyik nagy előnye, hogy a feltöltött képeket is képes átszerkeszteni a megadott utasítások alapján, aminek komoly szerepe volt abban, hogy az első napokban az OpenAI szerverei túlterhelődtek. Az internetet pillanatok alatt lepték el a különböző képek "totorósított" változatai, ugyanis mint kiderült , a felhasználók különös örömüket lelik benne, hogy a legkülönbözőbb képeket a Studio Ghibli rajzfilmek összetéeszthetetlen stílusában alkossák újra.
Ezt természetesen nekünk is muszáj volt kipróbálnunk egy, a szlovéniai Bledben készült fotóval, amellyel kapcsolatban annyit kértünk a chatbottól, hogy azt készítse el Studio Ghibli stílusban, emellett a templomot cserélje ki egy, a tó felett lebegő kastélyra.
Azt is szerettük volna kipróbálni, hogy mennyire használható a képgenerátor komolyabb munkák kiváltására, így következő nekifutásra azt kértük a ChatGPT-től, hogy egy feltöltött kép alapján generáljon nekünk borítóképet egy Youtube-videóhoz. Az angolul megadott utasítás így hangzott magyarul:
"Viselkedj úgy, mintha profi dizájner lennél, és a feltöltött kép alapján készítsd el a következő képet: Generálj egy borítóképet egy YouTube-videóhoz. A csatolt fotó a kép bal oldalán legyen, a jobb oldalon pedig a következő szöveg szerepeljen:
"Három hasznos képszerkesztő funkció Samsung telefonokon." A szöveg három sorba legyen tördelve, és legyen egy művészi átmenet a szöveg és a kép között."
Ahogy látható, ezt a feladatot a chatbotnak már közel sem sikerült megoldania, hiszen egyrészt a feltöltött kép helyett valamiért az előző feladathoz generált képet használta, másrészt a borítókép minősége egyértelműen elmarad attól, amit például a Canvával néhány perc alatt össze lehet dobni. A GPT-4o a megadott szöveget tökéletesen rekonstruálta betűhibák nélkül, igaz, azt nem három, hanem öt sorba tördelte. Másik pozitívumként említhető, hogy bár a chatbot nem azt a képet használta, amit feltöltöttünk az utasításhoz, ugyanakkor a telefon koncepcióját és a "generatív szerkesztés" szöveget szépen átvette róla.
A fenti példáknal angol nyelvű promptokat használtunk, ugyanakkor értelemszerűen azt is szerettük volna kipróbálni, milyen munkát végez a ChatGPT, ha magyarul kap utasítást a képhez. Ehhez egy saját ötletet használtunk, ami a következőképpen hangzott:
"Készíts egy fotorealisztikus képet arról, ahogy egy favágó éppen egy mókussal vitatkozik, aki egy farönkön áll. Kontextus: egy sűrű erdő szélén vagyunk, amelyben magas fák állnak, ezeknek csak a törzse látszik a képen. Látható, hogy az erdő széléhez közelebbi fákat már kivágták, így keletkezett egy kis tisztás, ennek a szélén áll a mókus egy farönkön. Karakterek: a mókus, aki a kamerával szemben áll, mérges arcot vág és éppen hevesen gesztikulál a favágóval, aki a kamerának háttal áll úgy, hogy az arca még látszik valamennyire. A favágó piros kockás inget visel, a jobb vállán pedig egy fejszét tart, és láthatóan meg van szeppenve".
Ez a feladat nem okozott problémát a ChatGPT-nek, amelynek az erősségei itt is szépen megnyilvánulnak. Amikor a Gemininek ugyanezt az utasítást adtuk ki, egy hasonlóan jó minőségű képet kaptunk, ugyanakkor a GPT-4o sokkal pontosabban lekövette a promptban szereplő utasítasokat, mint például a mókus gesztikulációja, a favágó megszeppent arca, vagy hogy a szereplők egy tisztáson vannak.
A ChatGPT előnye ebben az esetben abban is megnyilvánult, hogy az OpenAI chatbotja azonnal két képet generált, amelyek közül kiválaszthattuk, melyik tetszik jobban. Emellett a ChatGPT-ben arra is van lehetőségünk, hogy a szerkesztés gombra kattintva újabb utasításokkal finomhangoljuk a képet, ha az nem tökéletesen olyan, mint amilyennek elképzeltük. Az is igaz ugyanakkor, hogy amíg a ChatGPT ingyenes verziójában jelenleg csak három képet generálhatunk naponta, a Google chatbotjánál jóval magasabb a napi limit, ami a rendszer terheltségétől és egyéb szempontoktól függően valahol 50 és 100 között változik.