Már az ingyenes verzióban is elérhető a ChatGPT óriási visszhangot kiváltó képgenerátora

2025 / 04 / 02 / Bobák Áron

#MI #mesterséges intelligencia #ai #kép

Már az ingyenes verzióban is elérhető a ChatGPT óriási visszhangot kiváltó képgenerátora

Az OpenAI szerverei a cég vezetőjének, Sam Altmannek az elmondása szerint valósággal "leolvadtak", amikor a múlt héten bekapcsolták a ChatGPT legújabb funkcióját. Ez nem is meglepő, hiszen a GPT-4o modellen alapuló képgenerátor számos olyan képességgel rendelkezik, amivel a versenytársak nem - többek között tökéletesen tudja rekonstruálni a szövegeket, a legapróbb részletekig követi a megadott utasításokat, és a saját fotóinkat is szabadon átszerkeszthetjük vele.

Az OpenAI múlt kedden jelentette be a ChatGPT legújabb funkcióját, vagyis hogy a GPT-4o modell segítségével a chatbot immár képek generálására is képes, ráadásul a DALL-E 3-nál lényegesen jobb minőségében. Arra, hogy mekkora lesz az érdeklődés az új szolgáltatás iránt, vélhetőleg még ők maguk sem számítottak, hiszen röviddel az indulás után az ingyenes verzióban kénytelenek voltak letiltani a funkciót, amit csak tegnap tettek újra elérhetővé.

Az OpenAI állítása szerint a képgenerátornál egy egészen új megközelítést alkalmaztak, amelynek köszönhetően a ChatGPT sokkal pontosabban tudja megjeleníteni a képen a szövegeket, emellett akár 15-20 képelemet is képes a felhasználó kérésének megfelelően megjeleníteni. Tapasztalataink szerint ez valóban így is van, és bár a ChatGPT összességében nem generál nagyságrendekkel jobb minőségű képeket, mint például a Google Geminiben elérhető Imagen 3, de a fentieken kívül is rendelkezik néhány olyan funkcióval, ami kiemeli a versenytársak közül.

1. Képgenerálás

Első nekifutásra egy olyan angol nyelvű prompttal próbálkoztunk, amelyet maga az OpenAI használt a ChatGPT új képgeneráló funkciójának bemutatásához. A New York-i seprűhasználatra vonatkozó táblakat tanulmányozó boszorkányokról készült kép ennek megfelelően a megszólalásig hasonlít az OpenAI által közzétett képre. Az ebből az egy képből is világosan látszik, hogy a GPT-4o képgenerátor valóban rendkívül pontosan tud végrehajtani akár egészen összetett utasításokat is, emellett a táblákra írt szövegekben is alig találni hibát, pedig ez a legtöbb képgenerátornak megoldhatatlan feladatot okoz.

Összehasonlításképpen íme az Imagen-3 által generált kép, ami ugyan minőséget tekintve nem tűnik rosszabbnak, de a táblán látható szövegek helyessége, a bokeh-effekt hiánya és a feleslegesen a képre rakott extra szőnyeg miatt összességében mégis kevésbé kiforrott, mint a ChatGPT által alkotott kép.

2. Képszerkesztés

A ChatGPT új funkciójának egyik nagy előnye, hogy a feltöltött képeket is képes átszerkeszteni a megadott utasítások alapján, aminek komoly szerepe volt abban, hogy az első napokban az OpenAI szerverei túlterhelődtek. Az internetet pillanatok alatt lepték el a különböző képek "totorósított" változatai, ugyanis mint kiderült , a felhasználók különös örömüket lelik benne, hogy a legkülönbözőbb képeket a Studio Ghibli rajzfilmek összetéeszthetetlen stílusában alkossák újra.

Ezt természetesen nekünk is muszáj volt kipróbálnunk egy, a szlovéniai Bledben készült fotóval, amellyel kapcsolatban annyit kértünk a chatbottól, hogy azt készítse el Studio Ghibli stílusban, emellett a templomot cserélje ki egy, a tó felett lebegő kastélyra.

A ChatGPT által a Studi Ghibli rajzfilmek stílusában újraalkotott kép

3. Képgenerálás feltöltött képpel

Azt is szerettük volna kipróbálni, hogy mennyire használható a képgenerátor komolyabb munkák kiváltására, így következő nekifutásra azt kértük a ChatGPT-től, hogy egy feltöltött kép alapján generáljon nekünk borítóképet egy Youtube-videóhoz. Az angolul megadott utasítás így hangzott magyarul:

"Viselkedj úgy, mintha profi dizájner lennél, és a feltöltött kép alapján készítsd el a következő képet: Generálj egy borítóképet egy YouTube-videóhoz. A csatolt fotó a kép bal oldalán legyen, a jobb oldalon pedig a következő szöveg szerepeljen:
"Három hasznos képszerkesztő funkció Samsung telefonokon." A szöveg három sorba legyen tördelve, és legyen egy művészi átmenet a szöveg és a kép között."

A ChatGPT-vel létrehozott Youtube borítókép

A Canva egyik sablonjával létrehozott borítókép ugyanebben a témában

Ahogy látható, ezt a feladatot a chatbotnak már közel sem sikerült megoldania, hiszen egyrészt a feltöltött kép helyett valamiért az előző feladathoz generált képet használta, másrészt a borítókép minősége egyértelműen elmarad attól, amit például a Canvával néhány perc alatt össze lehet dobni. A GPT-4o a megadott szöveget tökéletesen rekonstruálta betűhibák nélkül, igaz, azt nem három, hanem öt sorba tördelte. Másik pozitívumként említhető, hogy bár a chatbot nem azt a képet használta, amit feltöltöttünk az utasításhoz, ugyanakkor a telefon koncepcióját és a "generatív szerkesztés" szöveget szépen átvette róla.

4. Képgenerálás magyar nyelven

A fenti példáknal angol nyelvű promptokat használtunk, ugyanakkor értelemszerűen azt is szerettük volna kipróbálni, milyen munkát végez a ChatGPT, ha magyarul kap utasítást a képhez. Ehhez egy saját ötletet használtunk, ami a következőképpen hangzott:

"Készíts egy fotorealisztikus képet arról, ahogy egy favágó éppen egy mókussal vitatkozik, aki egy farönkön áll. Kontextus: egy sűrű erdő szélén vagyunk, amelyben magas fák állnak, ezeknek csak a törzse látszik a képen. Látható, hogy az erdő széléhez közelebbi fákat már kivágták, így keletkezett egy kis tisztás, ennek a szélén áll a mókus egy farönkön. Karakterek: a mókus, aki a kamerával szemben áll, mérges arcot vág és éppen hevesen gesztikulál a favágóval, aki a kamerának háttal áll úgy, hogy az arca még látszik valamennyire. A favágó piros kockás inget visel, a jobb vállán pedig egy fejszét tart, és láthatóan meg van szeppenve".

Ez a feladat nem okozott problémát a ChatGPT-nek, amelynek az erősségei itt is szépen megnyilvánulnak. Amikor a Gemininek ugyanezt az utasítást adtuk ki, egy hasonlóan jó minőségű képet kaptunk, ugyanakkor a GPT-4o sokkal pontosabban lekövette a promptban szereplő utasítasokat, mint például a mókus gesztikulációja, a favágó megszeppent arca, vagy hogy a szereplők egy tisztáson vannak.

A ChatGPT előnye ebben az esetben abban is megnyilvánult, hogy az OpenAI chatbotja azonnal két képet generált, amelyek közül kiválaszthattuk, melyik tetszik jobban. Emellett a ChatGPT-ben arra is van lehetőségünk, hogy a szerkesztés gombra kattintva újabb utasításokkal finomhangoljuk a képet, ha az nem tökéletesen olyan, mint amilyennek elképzeltük. Az is igaz ugyanakkor, hogy amíg a ChatGPT ingyenes verziójában jelenleg csak három képet generálhatunk naponta, a Google chatbotjánál jóval magasabb a napi limit, ami a rendszer terheltségétől és egyéb szempontoktól függően valahol 50 és 100 között változik.

Négyhavi várakozás után végre Európában is elérhető a lélegzetelállító videókat generáló Sora Ahogyan megszokhattuk, az Európai Unió polgárainak egy kicsit várniuk kellett az OpenAI új, korszakalkotónak szánt szoftverére. Ráadásul a Sora egyelőre csak a ChatGPT Plus és Pro előfizetők számára elérhető.

A személyesség luxusa: így lesz az ajándékból igazi emlék

A karácsonyi ajándékozás az egyik legnehezebb műfaj. Na nem azért, mert ne lenne miből választani… épp ellenkezőleg! Sok a lehetőség, közben sok az elvárás, mégis valahogy eltűnik a lényeg, mégpedig az, hogy a figyelmünket adjuk. Karácsony előtt mindig ugyanaz a kérdés kering a fejemben: vajon mit adjak annak, akinek tényleg szeretném megmutatni, hogy mennyire fontos nekem?

Őszi stílus, határozott karakterrel – megérkezett a Beverly Hills Polo Club legújabb kollekciója

Pontosan erre az időszakra készült: magabiztos, kényelmes és kortalan darabokkal, amelyek egyszerre működnek a hétköznapokban és az elegánsabb alkalmakon is.

AutószalonElektromos autó ajánlatok a jövőből

Cayenne Coupé E-Hybridek A sportautó a terepjárók között. A Cayenne Coupé nem köt kompromisszumokat, de még érzelmesebb kapcsolatot teremt. A 462 vagy 680 lóerős konnektorról tölthető hibrid hajtáslánc már csak hab a tortán. IRÁNY A KONFIGURÁTOR

Elektromos Macan A klasszikus Porsche formanyelv előremutató átdolgozásával a teljesen elektromos Macan már első pillantásra szemlélteti saját lelkületét. Legyen szó városi használatról vagy ingázásról, a teljesen elektromos Macan elemében van mindenhol, különösen, ha az egyéniség is számít. IRÁNY A KONFIGURÁTOR

Panamera E-Hybridek A V6-os vagy V8-as benzines turbómotor már önmagában elképesztő menetteljesítményeket hoz, de itt elektromotor is csatlakozik hozzájuk. Az eredmény: akár 680 lóerő és kimagasló sportosság. A luxus alapfelszereltség. IRÁNY A KONFIGURÁTOR

Panamera Sport Turismo E-Hybridek Minden, amit a Panamera tud, plusz még több. Ötszemélyes utastér óriási csomagtartóval és kategóriaelső variálhatósággal. Tisztán elektromos közlekedés vagy éppen 680 lóerő – amire Önnek éppen szüksége van. IRÁNY A KONFIGURÁTOR

További ajánlatok

Ezek is érdekelhetnek