Néhány szó alapján képes bármilyen képet létrehozni a Google mesterséges intelligenciája

2022 / 05 / 25 / Bobák Áron

#google #MI #mesterséges intelligencia #ai

Néhány szó alapján képes bármilyen képet létrehozni a Google mesterséges intelligenciája

Az Imagen nem kevesebbet ígér, hogy képszerkesztői tudás nélkül is megalkothatunk bármilyen képet, akár fotorealisztikus minőségben is.

A mesterséges intelligencia egyik igen különleges, gyorsan fejlődő területe az úgynevezett text-to-image (szövegből kép) rendszerek, amelyek képesek egy rövid leírás alapján képeket generálni. A területen eddig az OpenAI DALL-E névre keresztelt megoldása számított az etalonnak, azonban a napokban bemutatott Imagen a Google szerint jelentősen felülmúlja a riválisait.

A rendszer a mellékelt képek alapján valóban egészen figyelemre méltó képességekkel bír, hiszen nem elég, hogy számos stílusban, például olajfestményként, számítógépes grafikaként vagy akár fotorealisztikus minőségben is képes képeket generálni, de az eredmény közel hibátlan.

Hogy ez mennyire fedi a valóságot, azt persze nehéz lenne eldönteni, hiszen a Google nyilvánvalóan a legjobban sikerült képeket válogatta ki, a rendszert pedig egyelőre nem tették elérhetővé a felhasználók számára, így a honlapon csak néhány előre megírt szövegséma között válogatva próbálhatjuk ki, hogyan működik az Imagen a gyakorlatban. (A képgaléria képaláírásaiban a magyar fordítása olvasható azoknak az angol szövegeknek, amelyek alapján az Imagen létrehozta a képeket).

A Google egy új mérőeszközt is alkotott az Imagen mellé, amely kétszáz, egyszerűbb leírást tartalmaz. A leírásokat betáplálták a különböző text-to-image rendszerekbe, majd az így kapott képeket emberekkel zsűriztették, ez alapján pedig az jött ki, hogy a Google megoldása végzi a legjobb munkát. Mivel a Google nem közölte a más text-to-image rendszerekkel megalkotott fotókat, az Imagen pedig nem publikus, így ezt az állítást lehetetlen ellenőrizni.

Az Imagen bejelentésével egyidőben kiadott tanulmányban egyébként a Google azzal érvel, hogy a programot az internetről származó, többnyire ellenőrizetlen képekkel tanították be, így pedig nem tudják garantálni, hogy az nem tükrözi az interneten jelenlévő sztereotípiákat, azaz nem ad rasszista, esetleg szexista eredményeket. "A generatív módszerek rosszindulatú célokra is felhasználhatók, beleértve a zaklatást és a félretájékoztatást, és számos aggályt vetnek fel a társadalmi és kulturális kirekesztéssel és előítéletességgel kapcsolatban" - írták a cég szakértői.

(The Verge, Cnet)

Pikachu-fotel, teáskanna csiga, valamint számítógép 1900-ból: így fest, amikor a mesterséges intelligencia elkezdi használni a képzeletét Az OpenAI intelligenciája a begépelt szöveg alapján képes kitalált dolgokat akár nagyfokú fotórealizmus mellett is megjeleníteni. Némi limitációval, de ezt akár mi is kipróbálhatjuk. Mutatjuk azt is, hogyan.