A Google megalkotta a videókészítés varázspálcáját, de még nem adja a felhasználók kezébe

2024 / 01 / 31 / Bobák Áron

#google #video #MI #mesterséges intelligencia

A Google megalkotta a videókészítés varázspálcáját, de még nem adja a felhasználók kezébe

Csak beírod, hogy mit szeretnél látni, a Lumiére pedig legenerálja neked a tökéletesen élethű videót - ígéri a Google, igaz, mivel a szolgáltatás nyilvánosan még nem elérhető, ezért erről egyelőre csak kevesen győződhetnek meg a saját szemükkel.

A mozgókép úttörőiről, vagyis a Lumiére-fivérekről elnevezett mesterséges intelligencia tulajdonképpen ugyanazt tudja, mint a Midjourney vagy a DALL-E, csakhogy ez a beírt szavakból már nem képeket, hanem komplett videókat generál - a Google által néhány napja közzétett tanulmány alapján egészen forradalmi módon. Bár hasonló szövegből-videó szolgáltatások már eddig is léteztek, ám a Lumiére a Space-Time U-Net nevű neurális hálózat segítségével egy folyamatban hozza létre a teljes videót, így a végeredmény - a készítők állítása szerint - sokkal valósághűbb, mint a ma is létező modellek esetében.

A Lumiére a ChatGPT-hez hasonlóan a természetes nyelvi feldolgozás segítségével képes értelmezni a felhasználó által beírt szavakat, ez alapján pedig teljesen egyedi videókat generálni. A Google által közzétett videó alapján az MI emellett számos más funkcióval is rendelkezik, amelyek a következők:

Képes módosítani egy már létező videóban szereplő objektumokat, például megváltoztatni egy ruha mintázatát.

FEATURE 1: Video Editing

Lumiere can edit any specific portion of a video with a simple mask and prompt.

It's always insane to see demos like this — the potential applications are endless. pic.twitter.com/XWwEGXrhMK

— Rowan Cheung (@rowancheung) January 25, 2024

Egy előre megadott kép és a hozzá kapcsolt utasítás alapján képes animálni az állóképeket vagy azok egy bizonyos részletét.

FEATURE 3: Image and Text to Video

Lumiere can not only generate videos from text prompts, but also directly from a still image!

I can finally put my monkey NFT to use 😅 pic.twitter.com/eLX7KlQRmh

— Rowan Cheung (@rowancheung) January 25, 2024

FEATURE 4: Cinemagraphs

Lumiere can not only create videos from text prompts but can also edit and animate specific portions of still images. pic.twitter.com/FYUuaWgkeA

— Rowan Cheung (@rowancheung) January 25, 2024

És egy referenciakép alapján képes bármilyen videót létrehozni a megadott kép stílusában.

FEATURE 2: Stylized Generation

Using a single reference image, Lumiere can generate videos in the target style by utilizing fine-tuned text-to-image model weights.

It can take a single image, learn its style, and then generate consistent videos from that style. This is wild. pic.twitter.com/iVlMAPCN75

— Rowan Cheung (@rowancheung) January 25, 2024

Azt egyelőre nem lehet tudni, hogy a Google tervezi-e, hogy a Lumiére-t szabadon elérhetővé tegyék a nagyközönség számára, az viszont elég valószínűnek tűnik, hogy ha így is lesz, nem fogják elsietni a dolgot. A vállalat egyelőre a szövegből képet generáló, Imagen 2 névre keresztelt mesterséges intelligenciáját sem tette szabadon hozzáférhetővé annak ellenére, hogy nyilvánvalóan nagy a kísértés, hiszen a hasonló programok, mint a Midjourney, a Stable Diffusion vagy a DALL-E jóideje hatalmas népszerűségnek örvendenek a felhasználók körében.

A Google óvatossága érthető, hiszen amikor az internet éppen Taylor Swift hamis pornóképeitől hangos, a szakértők pedig évek óta kongatják a vészharangot a deepfake videók veszélyei miatt, a világ egyik legnagyobb technológiai vállalatának nem kis kockázatot jelentene egy olyan eszköz terjesztése, ami - nem megfelelően tesztelve - súlyos visszaélésekre adhat lehetőséget. Néhány héttel ezelőtt a Google vezérigazgatója, Sundar Pichai is arról beszélt a Wirednek adott nagyinterjúban, hogy szándékosan óvatosabbak, amikor a mesterséges intelligenciáról van szó, mert ők is érzik, hogy mekkora felelősség hárul rájuk. A Google vezére ehhez azt is hozzátette, hogy mivel az MI "technológiai íve hosszú", ezért nem igazán számít, hogy rövid távon kinek sikerül előnyt szereznie a területen, és személy szerint "elégedett azzal, ahol jelenleg tartanak".

A ChatGPT-t is lenyomja - állítja a Google az új mesterséges intelligenciájáról A Google szerdán mutatta be a Gemini névre keresztelt nagy nyelvi modelljét, amit azonnal integráltak is a Bard chatbotba.

A takaró alatt is rengeteg TECHNOLÓGIAI KALAND vár, nézz körül, hol tart ma a SZEXIPAR, és tedd az idei karácsonyt emlékezetessé!

Nézz körül a Vágyaim.hu kínálatában, használd a PLYR20 kuponkódot és legyen az idei karácsony olyan, mint még soha!

A jövő, ahol 100 az új 60 - a hosszú élet titka egyszerűbb, mint gondolnánk

Titkos fegyver az öregedés ellen - forradalmi szolgáltatás, ami Magyarországról indult

Élőben vágták szét a robotot, hogy bizonyítsák, nem ember van benne

A Xpeng humanoidja túl élethű lett.

Ezek is érdekelhetnek