A mozgókép úttörőiről, vagyis a Lumiére-fivérekről elnevezett mesterséges intelligencia tulajdonképpen ugyanazt tudja, mint a Midjourney vagy a DALL-E, csakhogy ez a beírt szavakból már nem képeket, hanem komplett videókat generál - a Google által néhány napja közzétett tanulmány alapján egészen forradalmi módon. Bár hasonló szövegből-videó szolgáltatások már eddig is léteztek, ám a Lumiére a Space-Time U-Net nevű neurális hálózat segítségével egy folyamatban hozza létre a teljes videót, így a végeredmény - a készítők állítása szerint - sokkal valósághűbb, mint a ma is létező modellek esetében.
A Lumiére a ChatGPT-hez hasonlóan a természetes nyelvi feldolgozás segítségével képes értelmezni a felhasználó által beírt szavakat, ez alapján pedig teljesen egyedi videókat generálni. A Google által közzétett videó alapján az MI emellett számos más funkcióval is rendelkezik, amelyek a következők:
FEATURE 1: Video Editing
Lumiere can edit any specific portion of a video with a simple mask and prompt.
It's always insane to see demos like this — the potential applications are endless. pic.twitter.com/XWwEGXrhMK
— Rowan Cheung (@rowancheung) January 25, 2024
FEATURE 3: Image and Text to Video
Lumiere can not only generate videos from text prompts, but also directly from a still image!
I can finally put my monkey NFT to use 😅 pic.twitter.com/eLX7KlQRmh
— Rowan Cheung (@rowancheung) January 25, 2024
FEATURE 4: Cinemagraphs
Lumiere can not only create videos from text prompts but can also edit and animate specific portions of still images. pic.twitter.com/FYUuaWgkeA
— Rowan Cheung (@rowancheung) January 25, 2024
FEATURE 2: Stylized Generation
Using a single reference image, Lumiere can generate videos in the target style by utilizing fine-tuned text-to-image model weights.
It can take a single image, learn its style, and then generate consistent videos from that style. This is wild. pic.twitter.com/iVlMAPCN75
— Rowan Cheung (@rowancheung) January 25, 2024
Azt egyelőre nem lehet tudni, hogy a Google tervezi-e, hogy a Lumiére-t szabadon elérhetővé tegyék a nagyközönség számára, az viszont elég valószínűnek tűnik, hogy ha így is lesz, nem fogják elsietni a dolgot. A vállalat egyelőre a szövegből képet generáló, Imagen 2 névre keresztelt mesterséges intelligenciáját sem tette szabadon hozzáférhetővé annak ellenére, hogy nyilvánvalóan nagy a kísértés, hiszen a hasonló programok, mint a Midjourney, a Stable Diffusion vagy a DALL-E jóideje hatalmas népszerűségnek örvendenek a felhasználók körében.
A Google óvatossága érthető, hiszen amikor az internet éppen Taylor Swift hamis pornóképeitől hangos, a szakértők pedig évek óta kongatják a vészharangot a deepfake videók veszélyei miatt, a világ egyik legnagyobb technológiai vállalatának nem kis kockázatot jelentene egy olyan eszköz terjesztése, ami - nem megfelelően tesztelve - súlyos visszaélésekre adhat lehetőséget. Néhány héttel ezelőtt a Google vezérigazgatója, Sundar Pichai is arról beszélt a Wirednek adott nagyinterjúban, hogy szándékosan óvatosabbak, amikor a mesterséges intelligenciáról van szó, mert ők is érzik, hogy mekkora felelősség hárul rájuk. A Google vezére ehhez azt is hozzátette, hogy mivel az MI "technológiai íve hosszú", ezért nem igazán számít, hogy rövid távon kinek sikerül előnyt szereznie a területen, és személy szerint "elégedett azzal, ahol jelenleg tartanak".