A Genie 3 interaktív világmodellt ígér: feltöltesz egy képet, és mozoghatsz benne. Olyan, mint egy álom, ami közben igyekszik betartani a szabályokat: fizika, idő, ok-okozat.
A régebbi modellek lényegében minden egyes képkockát improvizáltak. Az Oasis Minecraft-szerű világa ezért pár frame (képkocka) után elfelejtette, mit generált: a blokkok eltűntek vagy eltorzultak – magyarán nem volt következetes. A Microsoft saját megoldásánál is hasonló volt a helyzet.
A Genie 3 alapja a world memory, vagyis a világmemória. Ez lényegében egy gyorsítótár: ideiglenesen tárolja a tárgyak és pozíciók állapotát, és erre építve számolja ki a következő képkockákat. A 2-es modell még csak kb. 1 percig tudta így egyben tartani a világot, a 3-as viszont már 3–5 percig, ráadásul sokkal nagyobb részletesség mellett.
A cikkhez használt kép például teljes egészében az AI által lett generálva, nem csak maga a játék, de a két ember, a helyiség, sőt az azon túl létező világ is, ahogy az a fenti videóból kiderül.
A Genie 3 állítólag főleg attól javult ekkorát, hogy egyre több adatot kap. Itt jön képbe a Google saját „atomfegyvere” a hasonló modellek fejlesztésében: a Street View. Ehhez 2022-re több mint 220 milliárd képet gyűjtöttek több mint 100 országból, petabájtnyi adatmennyiségben. Adat tehát van a kezükben bőven – annyi, amennyiről más cégek legfeljebb álmodhatnak.
Persze a világmodellek fejlesztésében Kína sem akar lemaradni. Az ázsiai ország (nyugati stúdiókat is bezabáló) óriásvállalata, a játékipar „BlackRockja”, a Tencent, a Hunyuan GameCraftot 100 AAA játék több mint 1 millió felvételével tanította be. És mindössze öt hónap alatt akkorát ugrott a technológia, mintha többéves verziókat vetnénk össze egymással.
A következő szint – ami lényegében már most is létezik – a Flow TV-féle szórakoztatás: itt az AI folyamatosan generálja a tartalmat.
Mindez pedig jócskán túlmutat azon, hogy a világmodellek képesek „játékokat generálni” prompt alapján. A modell igazi titka az, hogy a nagy nyelvi modellekkel ellentétben valódi, működő fizikai szabályokban és koncepciókban „gondolkodik”, nem szövegekben. Többen ezért mondják azt, hogy ez lehet az egyik valódi út az emberszerű, sőt akár azt is meghaladó mesterséges intelligencia felé.