Utóbbi funkció komoly fegyvertény a Google-nek, hiszen amíg a nagy konkurens ChatGPT esetében hasonló képességekkel egyelőre csak a fizetős verzió rendelkezik, a Bard bárki számára ingyen hozzáférhető, így az MI által készített képekért sem kell külön fizetnünk.
Bár a Google az erről szóló blogbejegyzésében azt írja, hogy a funkció angolul érhető el, tapasztalataink szerint nem elegendő, ha angolra állítjuk át a nyelvet; a képgenerátor nekünk csak akkor működött, ha VPN-nel “átteleportáltuk” magunkat (vagyis az IP címünket) az USA-ba, máskülönben a Bard csak annyit mondott a kérésünkre, hogy a képgenerálás egyelőre még nem elérhető.
Maga a funkció a DeepMind által kifejlesztett Imagen 2 text-to-image (szövegből kép) technológiát használja, amiről a Google a következőket írja a blogbejegyzésben: “Az Imagen 2-t jobb minőségű kép-leírás párosításokon tanítottuk be és aprólékosabb képeket generál, amelyek jobban megfelelnek az emberi utasítások szemantikájának. Az Imagen 2 pontosabban dolgozza fel a részleteket, mint a korábbi rendszerünk és alkalmasabb az apró részletek megjelenítésére - ezáltal fotorealisztikusabb képeket hoz létre számos stílusban”. A Google ehhez azt is hozzáteszi, hogy a modelljük olyan, a mesterséges intelligencia számára sok nehézséget okozó területen is kiemelkedően teljesít, mint példaul a kezek vagy az arcok élethű megjelenítése.”
Rövid tesztünk alapján az Imagen 2 valóban kifejezett jó minőségű képeket készít, amelyeken tényleg a leírásnak megfelelő témák jelennek meg, ugyanakkor nem meglepő, hogy a Google különállóan eddig nem tette elérhetővé a szolgáltatást: az Imagen 2 jelenleg egyértelműen le van maradva a DALLE-3-tól, ami a Microsoft Bingen keresztül már jóideje ingyenesen elérhető a felhasználók számára.
Miközben az OpenAI mesterséges intelligenciája néhány próbálkozásból rendszerint tökéletesen az utasításoknak megfelelő képet hoz létre, a Bard egyelőre rendszeresen lehagy a képről olyan dolgokat, amik a szövegben szerepelnek, emellett a képek minősége sem éri el azt a szintet, amit a DALL-E-től várhatunk. Az is igaz, hogy a Google képgenerátora valamivel magasabb felbontásra képes, hiszen a Bard 1536x1536 képpontos képeket generál, szemben a DALL-E 1024x1024 pixeles limitjével.
A Google a képgenerálás engedélyezésével együtt arról is igyekezett gondoskodni, hogy a funkciót ne használhassák fel rossz célokra: az Imagen által generált képeket a SynthID segítségével a képpontokba ágyazott vízjellel jelölik meg, így utólag is visszaellenőrizhető, hogy a képet mesterséges intelligencia generálta.
A Bard egy másik fontos újítást is kapott, hiszen a két hónappal ezelőtt bejelentett Gemini Pro nagy nyelvi modell immár a chatbot által támogatott összes nyelven - így többek között magyarul is - elérhető. Ezt egyelőre nem volt túl sok időnk tesztelni, de a tapasztalataink alapján a bemásolt - akár idegen nyelvű - szövegeket valóban egészen jól foglalja össze, ha pedig egy szöveggel kapcsolatban azt kérjük tőle, hogy azt foglalja pontokba, csaknem tökéletes munkát végez. A Luca Parmitano balul elsült űrsétájáról szóló cikkünket például így foglalta össze:
Szintén minden, a Bard által támogatott nyelven elérhető immár az ellenőrzés funkció is, ami annyit tesz, hogy a chatbot által adott válasz alatt a Google jelre (G) kattintva a Bard az interneten fellelhető források alapján ellenőrzi a válaszban szereplő állításokat, majd azokat megjelöli aszerint, hogy egybecsengenek vagy ellentmondanak az eredeti válasznak. Ezeket forrásmegjelöléssel is ellátja, így a felhasználóknak elméletileg nem is kell külön keresgélniük, bár az is igaz, hogy mi találtunk olyan forrást, amit nem feltétlenül neveznénk megbízhatónak.
(A borítókép a Google Barddal készült.)