Már képeket is tud generálni és magyarul is jobban működik a Google chatbotja

2024 / 02 / 03 / Bobák Áron
Már képeket is tud generálni és magyarul is jobban működik a Google chatbotja
A Gemini nagy nyelvi modellel felturbózott Bard sokat fejlődött például a hosszabb szövegek összefoglalásában, emellett angol nyelvterületen már arra is képes, hogy a beírt szövegnek megfelelő képeket generáljon.

Utóbbi funkció komoly fegyvertény a Google-nek, hiszen amíg a nagy konkurens ChatGPT esetében hasonló képességekkel egyelőre csak a fizetős verzió rendelkezik, a Bard bárki számára ingyen hozzáférhető, így az MI által készített képekért sem kell külön fizetnünk.

Bár a Google az erről szóló blogbejegyzésében azt írja, hogy a funkció angolul érhető el, tapasztalataink szerint nem elegendő, ha angolra állítjuk át a nyelvet; a képgenerátor nekünk csak akkor működött, ha VPN-nel “átteleportáltuk” magunkat (vagyis az IP címünket) az USA-ba, máskülönben a Bard csak annyit mondott a kérésünkre, hogy a képgenerálás egyelőre még nem elérhető.

Maga a funkció a DeepMind által kifejlesztett Imagen 2 text-to-image (szövegből kép) technológiát használja, amiről a Google a következőket írja a blogbejegyzésben: “Az Imagen 2-t jobb minőségű kép-leírás párosításokon tanítottuk be és aprólékosabb képeket generál, amelyek jobban megfelelnek az emberi utasítások szemantikájának. Az Imagen 2 pontosabban dolgozza fel a részleteket, mint a korábbi rendszerünk és alkalmasabb az apró részletek megjelenítésére - ezáltal fotorealisztikusabb képeket hoz létre számos stílusban”. A Google ehhez azt is hozzáteszi, hogy a modelljük olyan, a mesterséges intelligencia számára sok nehézséget okozó területen is kiemelkedően teljesít, mint példaul a kezek vagy az arcok élethű megjelenítése.”

Rövid tesztünk alapján az Imagen 2 valóban kifejezett jó minőségű képeket készít, amelyeken tényleg a leírásnak megfelelő témák jelennek meg, ugyanakkor nem meglepő, hogy a Google különállóan eddig nem tette elérhetővé a szolgáltatást: az Imagen 2 jelenleg egyértelműen le van maradva a DALLE-3-tól, ami a Microsoft Bingen keresztül már jóideje ingyenesen elérhető a felhasználók számára.

  • "Egy úriember elegáns felöltőben és sétabottal a kezében sétál egy 19. századi városban, klasszicista stílusban épült bérházak között, mellette éppen elhalad egy lovaskocsi, miközben az út szélén gyerekek labdáznak" (balra: DALL-E, jobbra: Bard)

  • "Egy nyuszijelmezt viselő medve megérkezik a halloweeni buliba" (balra: DALL-E, jobbra: Bard)

  • "Egy ködbeburkolózó falu fekszik egy völgyben, magas sziklák övezik, amelyekről vízesések erednek, felettük süt a nap, a háttérben pedig a távolban egy hatalmas, hófödte hegycsúcs magasodik" (balra: DALL-E, jobbra: Bard)

  • "Csendélet egy delfinekből álló virágcsokorról, Salvador Dalí stílusában" (balra: DALL-E, jobbra: Bard)

Miközben az OpenAI mesterséges intelligenciája néhány próbálkozásból rendszerint tökéletesen az utasításoknak megfelelő képet hoz létre, a Bard egyelőre rendszeresen lehagy a képről olyan dolgokat, amik a szövegben szerepelnek, emellett a képek minősége sem éri el azt a szintet, amit a DALL-E-től várhatunk. Az is igaz, hogy a Google képgenerátora valamivel magasabb felbontásra képes, hiszen a Bard 1536x1536 képpontos képeket generál, szemben a DALL-E 1024x1024 pixeles limitjével.

A Google a képgenerálás engedélyezésével együtt arról is igyekezett gondoskodni, hogy a funkciót ne használhassák fel rossz célokra: az Imagen által generált képeket a SynthID segítségével a képpontokba ágyazott vízjellel jelölik meg, így utólag is visszaellenőrizhető, hogy a képet mesterséges intelligencia generálta.

A Bard egy másik fontos újítást is kapott, hiszen a két hónappal ezelőtt bejelentett Gemini Pro nagy nyelvi modell immár a chatbot által támogatott összes nyelven - így többek között magyarul is - elérhető. Ezt egyelőre nem volt túl sok időnk tesztelni, de a tapasztalataink alapján a bemásolt - akár idegen nyelvű - szövegeket valóban egészen jól foglalja össze, ha pedig egy szöveggel kapcsolatban azt kérjük tőle, hogy azt foglalja pontokba, csaknem tökéletes munkát végez. A Luca Parmitano balul elsült űrsétájáról szóló cikkünket például így foglalta össze:

Szintén minden, a Bard által támogatott nyelven elérhető immár az ellenőrzés funkció is, ami annyit tesz, hogy a chatbot által adott válasz alatt a Google jelre (G) kattintva a Bard az interneten fellelhető források alapján ellenőrzi a válaszban szereplő állításokat, majd azokat megjelöli aszerint, hogy egybecsengenek vagy ellentmondanak az eredeti válasznak. Ezeket forrásmegjelöléssel is ellátja, így a felhasználóknak elméletileg nem is kell külön keresgélniük, bár az is igaz, hogy mi találtunk olyan forrást, amit nem feltétlenül neveznénk megbízhatónak.

(A borítókép a Google Barddal készült.)


Hello Szülő! Ha a gyereked nem tud valamit, akkor téged fog kérdezni. De ha te szülőként nem tudsz valamit, akkor kihez fordulsz?
A digitális kor szülői kihívásairól is találhattok szakértői tippeket, tanácsokat, interjúkat, podcastokat a Telekom családokat segítő platformján, a https://helloszulo.hu/ oldalon.
Hogyan válasszunk külföldi egyetemet? És mennyibe fog ez kerülni a családnak?
Hogyan válasszunk külföldi egyetemet? És mennyibe fog ez kerülni a családnak?
Repül már a vén diák. Hová? Hová?
Hogyan vélekednek a magyarok a net veszélyeiről – és kik a leginkább fenyegetettek?
Hogyan vélekednek a magyarok a net veszélyeiről – és kik a leginkább fenyegetettek?
Hogy áll a magyar lakosság generációkra bontva a kiberbiztonsághoz? – Erről szól az ESET rendkívül átfogó felmérése, amelyből olyan meglepő eredmények is kiderülnek, hogy kik a romantikus csalások legfőbb célpontjai, miközben az adott csoport nem is nagyon ismeri ezt a fenyegetést.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.