A Google teljesen új korszakot nyitott a videógenerátorok történetében

2025 / 05 / 25 / Bobák Zsófia

#google #MI #mesterséges intelligencia #ai

A Google teljesen új korszakot nyitott a videógenerátorok történetében

A videók szereplői nem csak elképesztően élethűek, hanem már beszélnek is.

A Google (sok más cég mellett) csak úgy ontja magából a képek és videók készítésére alkalmas generatív programokat, amelyek, talán mondani sem kell, mesterséges intelligencia segítségével hozzák létre a különösen élethű tartalmakat. Ma már elég egy egyszerű promptot, azaz leírást adni az MI-nek ahhoz, hogy bármilyen, általunk elképzelt jelenetet megjelenítsen, jóformán azonnal és rendkívüli pontossággal, így lényegében bárki online rendezővé avanzsálhat, és csak a fantáziája szab határokat az alkotás tartalma terén. Na meg a programok korlátai.

Egyelőre ugyanis az MI által kreált tartalmak, legyen szó képekről vagy videókról, lenyűgözőek tudnak lenni a vizuális megjelenítés tekintetében, de azért még az ultrarealisztikus ábrázolás sem mindig tökéletes

- az elnagyolt részletek, az oda nem illő tárgyak, a fizika általunk ismert törvényeivel dacoló objektumok, a néha túlságosan rajzfilmszerűre sikerült szereplők vagy egész egyszerűen a megadott promptot csak igen lazán reprezentáló végeredmény is azt mutatja, hogy a technológiának még van mit fejlődnie, mielőtt az emberek által létrehozott valódi művészi munka tényleges kihívójává léphet elő egy-egy videógeneráló program.

Erre persze - mármint, hogy a generatív programok elvegyék az emberek munkáját és MI-filmekkel helyettesítsék az alkotásokat - valószínűleg amúgy sem igazán lenne széleskörű igény, de ki tudja mit hoz a jövő, ha a videógenerálók ilyen tempóban fejlődnek. Hollywood 2023-ban nagyszabású sztrájkot indított, aminek központi témája a generatív mesterséges intelligencia használata volt: a filmipar egyes dolgozói szerint a mesterséges intelligencia “lélektelen”, és értelemszerűen nem tud saját, személyesen átélt élményeket, gondolatokat, véleményeket kommunikálni a közönség felé, vagyis amit előállít, az tulajdonképpen éppen a lényeget nélkülözi. Egyes filmalkotók szerint az MI a CGI (Computer-Generated Imagery, számítógép által előállított kép) kibővítése, és nem biztos, hogy a filmekre éhes közönség hosszú távon kíváncsi lesz a “hamis” színészekre, akik generált környezetben léteznek.

Akármi is lesz a videógenerátorok jövője, a technológiát fejlesztő cégek azon vannak, hogy az alkalmazások képességeit egyre magasabb szintre emeljék, és olyan új funkciókkal ruházzák fel, amelyekkel egyre valóságosabbnak tűnő tartalmat tudnak produkálni. A Google egyike azoknak, akik elől járnak a fejlesztésekben: tavaly májusban mutatták be a Veo videógenerátort (az Images 3 szövegből képet alkotó modell mellett), ami következetes, összefüggő és realisztikus mozgóképeket generál a Google beharangozója alapján, az elmúlt egy év alatt pedig kiadták a Veo második és most a harmadik verzióját is.

A legújabb modell, a Veo3 egészen új korszakot nyit a videógenerátorok történetében,

nagyjából ahhoz hasonlóan, mint annak idején a filmiparban a Vitaphone, ami lehetővé tette a hangos filmek készítését (bár a technológia más formáit valójában már korábban elkezdték több-kevesebb sikerrel alkalmazni). A Veo3 segítségével ugyanis már lehetséges hangot is adni a képek mellé egy-egy videó létrehozásakor, csak annyi a felhasználók dolga, hogy belefoglalják a promptokba a hanghatások, háttérzene, vagy dialógusok leírását is a megfelelő helyeken. A Meta Movie Genje is tudta már hanggal felruházni a videókat, de a konkrét beszéd, dialógus vagy monológ előállítása a Veo3-ban vált működőképes opcióvá. A Google néhány példával illusztrálta a program teljesítményét, és a hozzájuk tartozó promptokat is: az operát éneklő macska esetében például meglepően rövid és egyszerű volt a megadott leírás, míg a tésztát falatozó tengerész generálását három bekezdéses, hosszú szöveggel oldották meg.

A Veo3 megjelenése után persze a közösségi média oldalakat és videómegosztó csatornákat ellepték a programmal kreált tartalmak, amelyek jó betekintést nyújtanak abba, mire képes - és mire nem - a generátor.

@movieeditz601 I made this with Google VEo 3 its amazing #fyp #foryou #videoedits #viral #ai ♬ original sound - Movie Editz

Ahogy a videókból kitűnik, a látvány tényleg fantasztikus, egészen reálisnak tűnik, és a hangok a legtöbb esetben pontosan illeszkednek a szereplők szájmozgásához, a képek pedig szépen ötvözik a valós hatást az animált, rajzfilmszerű részletekkel. A fizika törvényeinek betartásával viszont még mindig akadnak problémái az alkalmazásnak: az alábbi videóban például az egyik szereplő nemes egyszerűséggel az arcára önti a whisky-t, ahelyett, hogy meginná (0:21-nél), a következő jelenetben a sörösüveg tűnik el egészen furcsa módon a férfi kezéből (0:28-kor), a koktélos pohár a levegőben lebeg egy rövid ideig (1:01), a kanállal is megmagyarázhatatlan bűvészmutatvány történik az 1:05-től 1:08-ig tartó jelenetben, és általában véve néhány alkotóelem nagyon nem odaillőnek, zavarónak vagy természetellenesnek látszik, ha egy kicsit jobban megfigyeljük.

Ezek a szokatlan részletek azonban az esetek többségében nem kirívóak, és a promptok gyakorlásával valószínűleg leküzdhetőek, ha pedig a Veo újabb és újabb generációs változatait ilyen tempóban termeli a Google, akkor hamarosan még kevesebb hibával dolgozó videógenerátorokat kaphatnak a tartalomkészítők.

A Veo3 egyelőre nem mindenki számára elérhető, mivel a Google nem ingyenesen adja a felhasználók kezébe, hanem a Gemini chatbot részeként azok számára, akik az AI Ultra előfizetést választják. A május 20-án bevezetett AI Ultrát első körben az Egyesült Államokban vezették be, a többi országba később érkezik, és eléggé a zsebébe kell nyúlnia annak, aki ezt választja: havi 89 ezer forintért lehet rá előfizetni, ezért cserébe viszont a Gemini, az Imagen és a Veo legjobb és legújabb képességeihez jut hozzá az ember, többek között a Veo3-hoz is csak így lehet hozzáférni. Ahogy azonban azt említettük, az előfizetők az elmúlt néhány napban már rá is vetették magukat az alkalmazásra, és a Veo3 mini-mozik sorra születnek a felhasználók gépein. A kísérletezők csapatát egy híres rendező, a Rekviem egy álomért és a Fekete Hattyú című filmeket jegyző Darren Aronofsky is erősíti, akinek Primordial Soup nevű cége a Google-lal együttműködésben készít olyan filmeket, amelyek nagyban támaszkodnak a mesterséges intelligenciára.

A cég május 20-ai bejelentése szerint az első film, az ANCESTRA hibrid előállítási modellt használ, amiben az élőszereplős játékot az MI-vel ötvözi. A mozi előzetese pedig mi mást, mint a Veót alkalmazza a hatás fokozására.

(Fotó: Google)

Szinte a semmiből érkezett meg az egyik legjobb AI videógenerátor Az Alibaba generatív mesterséges intelligenciája olyan minőségű videókat generál, amelyek a Sorával is felveszik a versenyt.