Már képeket is tud generálni és magyarul is jobban működik a Google chatbotja

2024 / 02 / 03 / Bobák Áron
Már képeket is tud generálni és magyarul is jobban működik a Google chatbotja
A Gemini nagy nyelvi modellel felturbózott Bard sokat fejlődött például a hosszabb szövegek összefoglalásában, emellett angol nyelvterületen már arra is képes, hogy a beírt szövegnek megfelelő képeket generáljon.

Utóbbi funkció komoly fegyvertény a Google-nek, hiszen amíg a nagy konkurens ChatGPT esetében hasonló képességekkel egyelőre csak a fizetős verzió rendelkezik, a Bard bárki számára ingyen hozzáférhető, így az MI által készített képekért sem kell külön fizetnünk.

Bár a Google az erről szóló blogbejegyzésében azt írja, hogy a funkció angolul érhető el, tapasztalataink szerint nem elegendő, ha angolra állítjuk át a nyelvet; a képgenerátor nekünk csak akkor működött, ha VPN-nel “átteleportáltuk” magunkat (vagyis az IP címünket) az USA-ba, máskülönben a Bard csak annyit mondott a kérésünkre, hogy a képgenerálás egyelőre még nem elérhető.

Maga a funkció a DeepMind által kifejlesztett Imagen 2 text-to-image (szövegből kép) technológiát használja, amiről a Google a következőket írja a blogbejegyzésben: “Az Imagen 2-t jobb minőségű kép-leírás párosításokon tanítottuk be és aprólékosabb képeket generál, amelyek jobban megfelelnek az emberi utasítások szemantikájának. Az Imagen 2 pontosabban dolgozza fel a részleteket, mint a korábbi rendszerünk és alkalmasabb az apró részletek megjelenítésére - ezáltal fotorealisztikusabb képeket hoz létre számos stílusban”. A Google ehhez azt is hozzáteszi, hogy a modelljük olyan, a mesterséges intelligencia számára sok nehézséget okozó területen is kiemelkedően teljesít, mint példaul a kezek vagy az arcok élethű megjelenítése.”

Rövid tesztünk alapján az Imagen 2 valóban kifejezett jó minőségű képeket készít, amelyeken tényleg a leírásnak megfelelő témák jelennek meg, ugyanakkor nem meglepő, hogy a Google különállóan eddig nem tette elérhetővé a szolgáltatást: az Imagen 2 jelenleg egyértelműen le van maradva a DALLE-3-tól, ami a Microsoft Bingen keresztül már jóideje ingyenesen elérhető a felhasználók számára.

  • "Egy úriember elegáns felöltőben és sétabottal a kezében sétál egy 19. századi városban, klasszicista stílusban épült bérházak között, mellette éppen elhalad egy lovaskocsi, miközben az út szélén gyerekek labdáznak" (balra: DALL-E, jobbra: Bard)

  • "Egy nyuszijelmezt viselő medve megérkezik a halloweeni buliba" (balra: DALL-E, jobbra: Bard)

  • "Egy ködbeburkolózó falu fekszik egy völgyben, magas sziklák övezik, amelyekről vízesések erednek, felettük süt a nap, a háttérben pedig a távolban egy hatalmas, hófödte hegycsúcs magasodik" (balra: DALL-E, jobbra: Bard)

  • "Csendélet egy delfinekből álló virágcsokorról, Salvador Dalí stílusában" (balra: DALL-E, jobbra: Bard)

Miközben az OpenAI mesterséges intelligenciája néhány próbálkozásból rendszerint tökéletesen az utasításoknak megfelelő képet hoz létre, a Bard egyelőre rendszeresen lehagy a képről olyan dolgokat, amik a szövegben szerepelnek, emellett a képek minősége sem éri el azt a szintet, amit a DALL-E-től várhatunk. Az is igaz, hogy a Google képgenerátora valamivel magasabb felbontásra képes, hiszen a Bard 1536x1536 képpontos képeket generál, szemben a DALL-E 1024x1024 pixeles limitjével.

A Google a képgenerálás engedélyezésével együtt arról is igyekezett gondoskodni, hogy a funkciót ne használhassák fel rossz célokra: az Imagen által generált képeket a SynthID segítségével a képpontokba ágyazott vízjellel jelölik meg, így utólag is visszaellenőrizhető, hogy a képet mesterséges intelligencia generálta.

A Bard egy másik fontos újítást is kapott, hiszen a két hónappal ezelőtt bejelentett Gemini Pro nagy nyelvi modell immár a chatbot által támogatott összes nyelven - így többek között magyarul is - elérhető. Ezt egyelőre nem volt túl sok időnk tesztelni, de a tapasztalataink alapján a bemásolt - akár idegen nyelvű - szövegeket valóban egészen jól foglalja össze, ha pedig egy szöveggel kapcsolatban azt kérjük tőle, hogy azt foglalja pontokba, csaknem tökéletes munkát végez. A Luca Parmitano balul elsült űrsétájáról szóló cikkünket például így foglalta össze:

Szintén minden, a Bard által támogatott nyelven elérhető immár az ellenőrzés funkció is, ami annyit tesz, hogy a chatbot által adott válasz alatt a Google jelre (G) kattintva a Bard az interneten fellelhető források alapján ellenőrzi a válaszban szereplő állításokat, majd azokat megjelöli aszerint, hogy egybecsengenek vagy ellentmondanak az eredeti válasznak. Ezeket forrásmegjelöléssel is ellátja, így a felhasználóknak elméletileg nem is kell külön keresgélniük, bár az is igaz, hogy mi találtunk olyan forrást, amit nem feltétlenül neveznénk megbízhatónak.

(A borítókép a Google Barddal készült.)


Izgalmasra sikerült a robotkutya részvétele a Szárított Datolyaszilva Maratonon
Izgalmasra sikerült a robotkutya részvétele a Szárított Datolyaszilva Maratonon
Ha van felesleges négy és fél óránk, akár végig is nézhetjük a történelmi maratont, amelyet először teljesített egy robotkutya.
Csődbe ment a cég, ami piacra dobta a világ első hajlítható kijelzős telefonját
Csődbe ment a cég, ami piacra dobta a világ első hajlítható kijelzős telefonját
A Royole FlexPai örökre beírta magát az okostelefonok történelmébe, de a gyártója nem igazán tudott profitálni abból, hogy a Samsungot és a Huaweit is megelőzték.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.