A Google által felvásárolt DeepMind cég egyik legújabb programjának, a Transframernek neve az alkalmazás céljára utal: a transzformáció és a frame, vagyis filmkocka összevonásából született kifejezés jól mutatja, hogy mi is a Transframer fő rendeltetése - az, hogy egyetlen képet újabb szemszögekből mutasson be és ebből akár teljes videót állítson elő. Ehhez elsősorban arra van szüksége a programnak, hogy meghatározza, az adott felvételen szereplő tárgyak különféle perspektívákból hogyan is néznének ki, majd ez alapján további hasonló képeket generáljon.
A mesterséges intelligencia program betanítása során rengeteg képen gyakorlatoztatják a rendszert és a felhasznált adatbázisban olyan felvételek szerepelnek, amelyek hasonló tárgyakat más-más nézőpontokból is illusztrálnak. Ez alapján, a gépi tanulási folyamatok révén, a modellezés már egyetlen kép felhasználásával is működőképes. Eredményként a Transframer egyelőre harminc másodperces videókat képes generálni, főként természeti tájak vagy utcák és épületek szerepeltetésével.
Transframer is a general-purpose generative framework that can handle many image and video tasks in a probabilistic setting. New work shows it excels in video prediction and view synthesis, and can generate 30s videos from a single image: https://t.co/wX3nrrYEEa 1/ pic.twitter.com/gQk6f9nZyg
— DeepMind (@DeepMind) August 15, 2022
A program nyolc különböző feladat végrehajtására képes, ezek között található többek között a képek osztályozása és szegmentációja, az új perspektívák szintézise és a videó interpolációja, amelyek együttesen járulnak hozzá a videók készítésének folyamatához. A képeket először a U-Net kódolóprogramja dolgozza fel, majd a kimeneti adatok a DCTransformerbe kerülnek. A Transframer által létrehozott mozgóképek bemutatott tesztpéldanyai egyelőre elég alacsony minőségű, homályos felvételek, de így is látszik, hogy a program milyen megoldásokat tud találni arra, hogy "megjósolja" az általa sem ismert látványt egészen kevés információból kiindulva.
(Fotó: Getty Images/DaveLongMedia)