A ChatGPT megtanult beszélni és látni

2023 / 09 / 26 / Pőcze Balázs
A ChatGPT megtanult beszélni és látni
Új képességekkel ruházták fel a világ legismertebb generatív mesterséges intelligenciáját, a ChatGPT-t. A szoftvert mostantól képek és élőbeszéd segítségével is vezérelhetjük.

Az Ars Technicán olvasható hír szerint az ingyenesen elérhető GPT-3.5-öt és a fizetős GPT-4-et is érinti a fejlesztés, ám azzal egyelőre csak a Plus és az Enterprise, azaz a fizetős és a vállalati felhasználók találkozhatnak majd.

A két újdonság közül egyértelműen a képalapú interakció az érdekesebb, és talán a hasznosabb is. A vállalat által közölt példában valaki egy hétköznapi kérdéssel fordul a chatbothoz: nem tudja, hogy hogyan emelje meg a biciklije ülését. Ezt két ember pillanatok alatt megbeszélné, ám egy számítógép milliónyi módon tudna lyukra futni a tanácsaival. A videóban azt látjuk, ahogy a felhasználó azzal kezdi a beszélgetést, hogy megoszt egy fényképet a biciklijéről, majd leírja a problémáját. A rendszer először elmondja az általános megoldást gyorszáras és anélküli nyergeknél. Innen lesz igazán érdekes a történet: a chatelő bizonytalan, hogy az övén melyik fajta zár van, ezért egy újabb, közeli fotót posztol arról. Amikor kiderül, hogy a feladathoz szerszám fog kelleni, a használati utasítást és a szerszámosládája fényképét is megosztja a chatbottal, ami alapján a ChatGPT pontosan megmondja, hogy melyik kulcsra lesz szüksége. Ez egy képernyővideó, aminek a felvételekor a cég számtalanszor végigpróbálhatta a konkrét folyamatot, így nem biztos, hogy a valóságban is minden ilyen simán fog menni, de az egyértelműen látszik, hogy

a multimodális, azaz például képet és szöveget is használó interakciók új fejezetet nyithatnak a ChatGPT-nél.

A háttérben a rendszer valószínűleg közös nyelvre fordítja a kapott információkat, majd az eddig ismert módon dolgozik azokkal - hasonlóan a Google multisearch-höz, amiről tavaly írtunk a Rakétán. A ChatGPT másik új képessége ennél kevésbé forradalmi, de lehet, hogy többeknek jelent majd praktikus segítséget: a mobilalkalmazást mostantól hanggal is irányíthatjuk, illetve az képes nekünk öt szintetikus hang egyikén válaszolni.

Mindezt érthető, hogy az OpenAI úgy állítja be, mintha a szoftverük "látni", "hallani" vagy "beszélni" tanulna, de az Ars Technica aláhúzza: akad szakértő, aki szerint veszélyes így beszélni egy számítógépes programról. "Az örökké hangoztatott szolgálati közlemény: ne kezeld az MI-modelleket emberekként. Nem, a ChatGPT nem "lát, hall és beszél". Integrálható olyan szenzorokkal, amelyek különböző módokon juttatják adatokhoz" - fogalmazott a Hugging Face nevű MI-cég kutatója, Dr. Sasha Luccioni.

(Fotó: Growtika/Unsplash)


Így lettek a szexuális játékszerekből digitális kütyük
Így lettek a szexuális játékszerekből digitális kütyük
Lassan már senkit sem lep meg, hogy egy intim segédeszköznek legalább olyan jól kell tudnia csatlakoznia a wifihez vagy egy telefonhoz, mint a viselőjéhez, használójához.
Vészesen közeleg a Q-nap, amikor minden rendszer feltörhetővé válik
Vészesen közeleg a Q-nap, amikor minden rendszer feltörhetővé válik
A Q-nap az az időpont, amikor a kvantumszámítógépek képesek lesznek feltörni a ma használt titkosítási módszereket. Ez pedig akár már jövőre is bekövetkezhet.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.