s

Már nem csak képeket, de közel fotorealisztikus minőségű videókat is generálhatunk a mesterséges intelligenciával

2024 / 06 / 24 / Bobák Áron
Már nem csak képeket, de közel fotorealisztikus minőségű videókat is generálhatunk a mesterséges intelligenciával
Az elmúlt időszak hírei alapján már lehetett sejteni, hogy csak idő kérdése, hogy a generatív mesterséges intelligencia a képek és szövegek generálása után a videókészítésben is forradalmi áttörést hozzon, a Luma Labs által két hete bemutatott Dream Machine-nal pedig az első fecske már meg is érkezett.

Bár generatív mesterséges intelligencián alapuló, a felhasználó által megadott leírásnak megfelelő videókat generáló megoldások eddig is léteztek, de a Runway ML és a hasonló szolgáltatások még egyértelműen nem értek fel ahhoz a szinthez, amit kiforrottnak lehetne nevezni (noha némi plusz munkával azért ezekkel is egész jó végeredményt lehetett elérni). Az elmúlt hónapokban aztán előbb az OpenAI, majd nemrég a kínai Kuaishou is bemutatta a saját technológiáját, amelyek már egészen magas színvonalú mozgóképeket ígértek, ám arra, hogy ezek széles körben is elérhetőek legyenek, egyelőre még várnunk kell.

A késlekedés remek lehetőséget adott a Luma Labsnak, akik július 12-én szinte a semmiből mutatták be a saját videógenerátorukat, ami saját tapasztalataink szerint bizonyos megkötésekkel egészen hatékonyan használható rövid, néhány másodperces mozgóképek létrehozására. Bár a Dream Machine-nek az összetettebb szövegekbe egyelőre látványosan beletörik a bicskája, egyszerűbb, a valóságtól kevésbé elrugaszkodott videók generálására így is tökéletesen alkalmas. A "papírból készült panda popcornt eszik" parancsnál például az MI teljesen figyelmen kívül hagyta, hogy a pandának papírból kéne lennie, és ahogy látható, a maci hozzá sem nyúl az ételhez, ám a videó minőségére egy szavunk sem lehet.

Felemás eredményt kaptunk az "egy úriember elegáns felöltőben és sétabottal a kezében sétál egy 19. századi városban, klasszicista stílusban épült bérházak között" parancsra is, hiszen bár a videó alapvetően tükrözi a leírásban foglaltakat, azonban az úriember nem sétapálcát szorongat, hanem maga a karja változott bottá.

Kíváncsiak voltunk rá, hogy a Dream Machine képességei hogyan viszonyulnak a Soráéhoz és a Klingéhez, így az MI-t olyan leírásokkal is kipróbáltuk, amikkel a másik két videógenerátort tesztelték (a leírásokat mindig angolul adtuk meg a programnak, de a cikkben magyar fordítottuk őket).

  • A "levelekből álló elefánt szalad a dzsungelben" parancsra a Sora a korábban nyilvánosságra hozott videó alapján pontosan olyan videót alkotott, amilyet várnánk, míg a Dream Machine az alábbi alkotással állt elő:

  • Jobb eredményt kaptunk az "Egy alomnyi Golden Retriever kutyakölyök játszik a hóban. A havas fejük előbukkan a hóból" parancsra, igaz, a videón látható kutyák nem teljesen néznek ki golden retrievernek, emellett inkább csak sétálnak, nem pedig játszanak a hóban.

  • A leggyengébb eredményt a "panda játszik egy gitáron" leírásra adta a Dream Machine, hiszen amíg a Kling által generált videón valóban egy gitározó panda volt látható, a Luma Labs MI-je valamiért úgy döntött, hogy az állat inkább megeszi a gitárt.

Ahogy a fentiek alapján látható, a Dream Machine egyelőre valószínűleg nem veszi fel a versenyt az OpenAI és a Kuaishou megoldásával, ugyanakkor fontos megjegyezni, hogy az utóbbi kettő képességeiről egyelőre csak közvetett információink vannak olyan videók alapján, amiket mások közzétettek az interneten. A Luma Labs szolgáltatásának ezzel együtt nagy előnye, hogy nem csak, hogy bárki számára nyilvánosan hozzáférhető, de havi 30 videóig teljesen ingyenesen is használható. A videógenerátorral jelenleg alapból öt másodperc hosszúságú mozgóképeket lehet létrehozni, de ha ennél hosszabb videóra lenne szükségünk, akkor az Extend gombbal további öt másodperccel meghosszabbíthatjuk a művet. Akinek ennél nagyobb mennyiségű videóra lenne szüksége, előfizetési díjért cserébe akár több ezer videót is generálhat havonta - ebben az esetben minden bizonnyal a fokozott érdeklődés miatt bevezetett, napi öt videóra korlátozott limitet is feloldják, hiszen máshogy nem is lenne értelme.

Összességében azt lehet mondani, hogy a Luma Labs eszközével valóban eddig soha nem látott minőségű videókat lehet generálni, de jelenlegi formájában leginkább azoknak hasznos, akiknek nem számít, hogy a végeredmény nem pont olyan lesz, mint ahogy elképzelték és/vagy van rá idejük, hogy a megfelelő eredmény érdekében hosszabb ideig kísérletezzenek az utasításokkal.

Profi grafikusokat megszégyenítő képeket alkot a már mindenki számára elérhető DALL-E 3 Néhány napja már bárki számára elérhető a DALL-E legújabb verziója, amely a begépelt szövegek alapján képes létrehozni a legkülönfélébb képeket. Az OpenAI generatív mesterséges intelligenciájáról immár elmondható, hogy simán felveszi a versenyt egy profi grafikussal, ráadásul magyarul is tökéletesen ért.


Gombnyomásra rádióműsort csinál egy tankönyvből a Google NotebookLM programja
Gombnyomásra rádióműsort csinál egy tankönyvből a Google NotebookLM programja
Leesett az állunk, amikor meghallgattuk a cég talán leghasznosabb mesterséges intelligenciáját.
Nincs menekvés a robotkutyák elől, a víz alatt is szembejöhet egy
Nincs menekvés a robotkutyák elől, a víz alatt is szembejöhet egy
Milyen érzés lehet, ha egy medence mélyén egy robotkutya sétál velünk szemben? Egy, talán kevésbé ismert lengyel robotgyártó víz alá küldte egyik fejlett modelljét, hogy kiderüljön.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.