Már képeket is tud generálni és magyarul is jobban működik a Google chatbotja

2024 / 02 / 03 / Bobák Áron

#google #MI #mesterséges intelligencia #ai

Már képeket is tud generálni és magyarul is jobban működik a Google chatbotja

A Gemini nagy nyelvi modellel felturbózott Bard sokat fejlődött például a hosszabb szövegek összefoglalásában, emellett angol nyelvterületen már arra is képes, hogy a beírt szövegnek megfelelő képeket generáljon.

Utóbbi funkció komoly fegyvertény a Google-nek, hiszen amíg a nagy konkurens ChatGPT esetében hasonló képességekkel egyelőre csak a fizetős verzió rendelkezik, a Bard bárki számára ingyen hozzáférhető, így az MI által készített képekért sem kell külön fizetnünk.

Bár a Google az erről szóló blogbejegyzésében azt írja, hogy a funkció angolul érhető el, tapasztalataink szerint nem elegendő, ha angolra állítjuk át a nyelvet; a képgenerátor nekünk csak akkor működött, ha VPN-nel “átteleportáltuk” magunkat (vagyis az IP címünket) az USA-ba, máskülönben a Bard csak annyit mondott a kérésünkre, hogy a képgenerálás egyelőre még nem elérhető.

Maga a funkció a DeepMind által kifejlesztett Imagen 2 text-to-image (szövegből kép) technológiát használja, amiről a Google a következőket írja a blogbejegyzésben: “Az Imagen 2-t jobb minőségű kép-leírás párosításokon tanítottuk be és aprólékosabb képeket generál, amelyek jobban megfelelnek az emberi utasítások szemantikájának. Az Imagen 2 pontosabban dolgozza fel a részleteket, mint a korábbi rendszerünk és alkalmasabb az apró részletek megjelenítésére - ezáltal fotorealisztikusabb képeket hoz létre számos stílusban”. A Google ehhez azt is hozzáteszi, hogy a modelljük olyan, a mesterséges intelligencia számára sok nehézséget okozó területen is kiemelkedően teljesít, mint példaul a kezek vagy az arcok élethű megjelenítése.”

Rövid tesztünk alapján az Imagen 2 valóban kifejezett jó minőségű képeket készít, amelyeken tényleg a leírásnak megfelelő témák jelennek meg, ugyanakkor nem meglepő, hogy a Google különállóan eddig nem tette elérhetővé a szolgáltatást: az Imagen 2 jelenleg egyértelműen le van maradva a DALLE-3-tól, ami a Microsoft Bingen keresztül már jóideje ingyenesen elérhető a felhasználók számára.

"Egy úriember elegáns felöltőben és sétabottal a kezében sétál egy 19. századi városban, klasszicista stílusban épült bérházak között, mellette éppen elhalad egy lovaskocsi, miközben az út szélén gyerekek labdáznak" (balra: DALL-E, jobbra: Bard)

"Egy nyuszijelmezt viselő medve megérkezik a halloweeni buliba" (balra: DALL-E, jobbra: Bard)

"Egy ködbeburkolózó falu fekszik egy völgyben, magas sziklák övezik, amelyekről vízesések erednek, felettük süt a nap, a háttérben pedig a távolban egy hatalmas, hófödte hegycsúcs magasodik" (balra: DALL-E, jobbra: Bard)

"Csendélet egy delfinekből álló virágcsokorról, Salvador Dalí stílusában" (balra: DALL-E, jobbra: Bard)

Miközben az OpenAI mesterséges intelligenciája néhány próbálkozásból rendszerint tökéletesen az utasításoknak megfelelő képet hoz létre, a Bard egyelőre rendszeresen lehagy a képről olyan dolgokat, amik a szövegben szerepelnek, emellett a képek minősége sem éri el azt a szintet, amit a DALL-E-től várhatunk. Az is igaz, hogy a Google képgenerátora valamivel magasabb felbontásra képes, hiszen a Bard 1536x1536 képpontos képeket generál, szemben a DALL-E 1024x1024 pixeles limitjével.

A Google a képgenerálás engedélyezésével együtt arról is igyekezett gondoskodni, hogy a funkciót ne használhassák fel rossz célokra: az Imagen által generált képeket a SynthID segítségével a képpontokba ágyazott vízjellel jelölik meg, így utólag is visszaellenőrizhető, hogy a képet mesterséges intelligencia generálta.

A Bard egy másik fontos újítást is kapott, hiszen a két hónappal ezelőtt bejelentett Gemini Pro nagy nyelvi modell immár a chatbot által támogatott összes nyelven - így többek között magyarul is - elérhető. Ezt egyelőre nem volt túl sok időnk tesztelni, de a tapasztalataink alapján a bemásolt - akár idegen nyelvű - szövegeket valóban egészen jól foglalja össze, ha pedig egy szöveggel kapcsolatban azt kérjük tőle, hogy azt foglalja pontokba, csaknem tökéletes munkát végez. A Luca Parmitano balul elsült űrsétájáról szóló cikkünket például így foglalta össze:

Szintén minden, a Bard által támogatott nyelven elérhető immár az ellenőrzés funkció is, ami annyit tesz, hogy a chatbot által adott válasz alatt a Google jelre (G) kattintva a Bard az interneten fellelhető források alapján ellenőrzi a válaszban szereplő állításokat, majd azokat megjelöli aszerint, hogy egybecsengenek vagy ellentmondanak az eredeti válasznak. Ezeket forrásmegjelöléssel is ellátja, így a felhasználóknak elméletileg nem is kell külön keresgélniük, bár az is igaz, hogy mi találtunk olyan forrást, amit nem feltétlenül neveznénk megbízhatónak.

(A borítókép a Google Barddal készült.)

A személyesség luxusa: így lesz az ajándékból igazi emlék

A karácsonyi ajándékozás az egyik legnehezebb műfaj. Na nem azért, mert ne lenne miből választani… épp ellenkezőleg! Sok a lehetőség, közben sok az elvárás, mégis valahogy eltűnik a lényeg, mégpedig az, hogy a figyelmünket adjuk. Karácsony előtt mindig ugyanaz a kérdés kering a fejemben: vajon mit adjak annak, akinek tényleg szeretném megmutatni, hogy mennyire fontos nekem?

Őszi stílus, határozott karakterrel – megérkezett a Beverly Hills Polo Club legújabb kollekciója

Pontosan erre az időszakra készült: magabiztos, kényelmes és kortalan darabokkal, amelyek egyszerre működnek a hétköznapokban és az elegánsabb alkalmakon is.

Ezek is érdekelhetnek