A Gemini arra is képes, hogy leírja, mit lát egy képen és válaszoljon az ezzel kapcsolatos kérdéseinkre. Ezt közepes hatékonysággal teszi, az irodáról készült fotókon például néha azt is megállapította, hogy milyen IKEA íróasztal látható a képen, máskor viszont azt állította, hogy nappal van vagy éppen fekete lyuknak nézte az asztalon a vezetékek elvezetésére szolgáló lyukat (ami kétségkívül fekete és lyuk, csak nem olyan). A Perplexityhez képest nagy hátrány, hogy bár a kamerát a Gemini is meg tudja nyitni hangutasítással, ezután több lépést is manuálisan kell elvégeznünk, mielőtt kérdezősködni kezdenénk. Az asszisztens jelenleg arra sem képes, hogy élőben lássa a kamera képét, és így kommentálja a látottakat, pedig a Google már tavaly májusban beígérte ezt a funkciót.