Már nem csak képeket, de közel fotorealisztikus minőségű videókat is generálhatunk a mesterséges intelligenciával

2024 / 06 / 24 / Bobák Áron
Már nem csak képeket, de közel fotorealisztikus minőségű videókat is generálhatunk a mesterséges intelligenciával
Az elmúlt időszak hírei alapján már lehetett sejteni, hogy csak idő kérdése, hogy a generatív mesterséges intelligencia a képek és szövegek generálása után a videókészítésben is forradalmi áttörést hozzon, a Luma Labs által két hete bemutatott Dream Machine-nal pedig az első fecske már meg is érkezett.

Bár generatív mesterséges intelligencián alapuló, a felhasználó által megadott leírásnak megfelelő videókat generáló megoldások eddig is léteztek, de a Runway ML és a hasonló szolgáltatások még egyértelműen nem értek fel ahhoz a szinthez, amit kiforrottnak lehetne nevezni (noha némi plusz munkával azért ezekkel is egész jó végeredményt lehetett elérni). Az elmúlt hónapokban aztán előbb az OpenAI, majd nemrég a kínai Kuaishou is bemutatta a saját technológiáját, amelyek már egészen magas színvonalú mozgóképeket ígértek, ám arra, hogy ezek széles körben is elérhetőek legyenek, egyelőre még várnunk kell.

A késlekedés remek lehetőséget adott a Luma Labsnak, akik július 12-én szinte a semmiből mutatták be a saját videógenerátorukat, ami saját tapasztalataink szerint bizonyos megkötésekkel egészen hatékonyan használható rövid, néhány másodperces mozgóképek létrehozására. Bár a Dream Machine-nek az összetettebb szövegekbe egyelőre látványosan beletörik a bicskája, egyszerűbb, a valóságtól kevésbé elrugaszkodott videók generálására így is tökéletesen alkalmas. A "papírból készült panda popcornt eszik" parancsnál például az MI teljesen figyelmen kívül hagyta, hogy a pandának papírból kéne lennie, és ahogy látható, a maci hozzá sem nyúl az ételhez, ám a videó minőségére egy szavunk sem lehet.

Felemás eredményt kaptunk az "egy úriember elegáns felöltőben és sétabottal a kezében sétál egy 19. századi városban, klasszicista stílusban épült bérházak között" parancsra is, hiszen bár a videó alapvetően tükrözi a leírásban foglaltakat, azonban az úriember nem sétapálcát szorongat, hanem maga a karja változott bottá.

Kíváncsiak voltunk rá, hogy a Dream Machine képességei hogyan viszonyulnak a Soráéhoz és a Klingéhez, így az MI-t olyan leírásokkal is kipróbáltuk, amikkel a másik két videógenerátort tesztelték (a leírásokat mindig angolul adtuk meg a programnak, de a cikkben magyar fordítottuk őket).

  • A "levelekből álló elefánt szalad a dzsungelben" parancsra a Sora a korábban nyilvánosságra hozott videó alapján pontosan olyan videót alkotott, amilyet várnánk, míg a Dream Machine az alábbi alkotással állt elő:

  • Jobb eredményt kaptunk az "Egy alomnyi Golden Retriever kutyakölyök játszik a hóban. A havas fejük előbukkan a hóból" parancsra, igaz, a videón látható kutyák nem teljesen néznek ki golden retrievernek, emellett inkább csak sétálnak, nem pedig játszanak a hóban.

  • A leggyengébb eredményt a "panda játszik egy gitáron" leírásra adta a Dream Machine, hiszen amíg a Kling által generált videón valóban egy gitározó panda volt látható, a Luma Labs MI-je valamiért úgy döntött, hogy az állat inkább megeszi a gitárt.

Ahogy a fentiek alapján látható, a Dream Machine egyelőre valószínűleg nem veszi fel a versenyt az OpenAI és a Kuaishou megoldásával, ugyanakkor fontos megjegyezni, hogy az utóbbi kettő képességeiről egyelőre csak közvetett információink vannak olyan videók alapján, amiket mások közzétettek az interneten. A Luma Labs szolgáltatásának ezzel együtt nagy előnye, hogy nem csak, hogy bárki számára nyilvánosan hozzáférhető, de havi 30 videóig teljesen ingyenesen is használható. A videógenerátorral jelenleg alapból öt másodperc hosszúságú mozgóképeket lehet létrehozni, de ha ennél hosszabb videóra lenne szükségünk, akkor az Extend gombbal további öt másodperccel meghosszabbíthatjuk a művet. Akinek ennél nagyobb mennyiségű videóra lenne szüksége, előfizetési díjért cserébe akár több ezer videót is generálhat havonta - ebben az esetben minden bizonnyal a fokozott érdeklődés miatt bevezetett, napi öt videóra korlátozott limitet is feloldják, hiszen máshogy nem is lenne értelme.

Összességében azt lehet mondani, hogy a Luma Labs eszközével valóban eddig soha nem látott minőségű videókat lehet generálni, de jelenlegi formájában leginkább azoknak hasznos, akiknek nem számít, hogy a végeredmény nem pont olyan lesz, mint ahogy elképzelték és/vagy van rá idejük, hogy a megfelelő eredmény érdekében hosszabb ideig kísérletezzenek az utasításokkal.

Profi grafikusokat megszégyenítő képeket alkot a már mindenki számára elérhető DALL-E 3 Néhány napja már bárki számára elérhető a DALL-E legújabb verziója, amely a begépelt szövegek alapján képes létrehozni a legkülönfélébb képeket. Az OpenAI generatív mesterséges intelligenciájáról immár elmondható, hogy simán felveszi a versenyt egy profi grafikussal, ráadásul magyarul is tökéletesen ért.


Izgalmasra sikerült a robotkutya részvétele a Szárított Datolyaszilva Maratonon
Izgalmasra sikerült a robotkutya részvétele a Szárított Datolyaszilva Maratonon
Ha van felesleges négy és fél óránk, akár végig is nézhetjük a történelmi maratont, amelyet először teljesített egy robotkutya.
Csődbe ment a cég, ami piacra dobta a világ első hajlítható kijelzős telefonját
Csődbe ment a cég, ami piacra dobta a világ első hajlítható kijelzős telefonját
A Royole FlexPai örökre beírta magát az okostelefonok történelmébe, de a gyártója nem igazán tudott profitálni abból, hogy a Samsungot és a Huaweit is megelőzték.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.