A ChatGPT megtanult beszélni és látni

2023 / 09 / 26 / Pőcze Balázs

#mesterséges intelligencia #chatbot #OpenAI #ChatGPT

Új képességekkel ruházták fel a világ legismertebb generatív mesterséges intelligenciáját, a ChatGPT-t. A szoftvert mostantól képek és élőbeszéd segítségével is vezérelhetjük.

Az Ars Technicán olvasható hír szerint az ingyenesen elérhető GPT-3.5-öt és a fizetős GPT-4-et is érinti a fejlesztés, ám azzal egyelőre csak a Plus és az Enterprise, azaz a fizetős és a vállalati felhasználók találkozhatnak majd.

A két újdonság közül egyértelműen a képalapú interakció az érdekesebb, és talán a hasznosabb is. A vállalat által közölt példában valaki egy hétköznapi kérdéssel fordul a chatbothoz: nem tudja, hogy hogyan emelje meg a biciklije ülését. Ezt két ember pillanatok alatt megbeszélné, ám egy számítógép milliónyi módon tudna lyukra futni a tanácsaival. A videóban azt látjuk, ahogy a felhasználó azzal kezdi a beszélgetést, hogy megoszt egy fényképet a biciklijéről, majd leírja a problémáját. A rendszer először elmondja az általános megoldást gyorszáras és anélküli nyergeknél. Innen lesz igazán érdekes a történet: a chatelő bizonytalan, hogy az övén melyik fajta zár van, ezért egy újabb, közeli fotót posztol arról. Amikor kiderül, hogy a feladathoz szerszám fog kelleni, a használati utasítást és a szerszámosládája fényképét is megosztja a chatbottal, ami alapján a ChatGPT pontosan megmondja, hogy melyik kulcsra lesz szüksége. Ez egy képernyővideó, aminek a felvételekor a cég számtalanszor végigpróbálhatta a konkrét folyamatot, így nem biztos, hogy a valóságban is minden ilyen simán fog menni, de az egyértelműen látszik, hogy

a multimodális, azaz például képet és szöveget is használó interakciók új fejezetet nyithatnak a ChatGPT-nél.

A háttérben a rendszer valószínűleg közös nyelvre fordítja a kapott információkat, majd az eddig ismert módon dolgozik azokkal - hasonlóan a Google multisearch-höz, amiről tavaly írtunk a Rakétán. A ChatGPT másik új képessége ennél kevésbé forradalmi, de lehet, hogy többeknek jelent majd praktikus segítséget: a mobilalkalmazást mostantól hanggal is irányíthatjuk, illetve az képes nekünk öt szintetikus hang egyikén válaszolni.

Mindezt érthető, hogy az OpenAI úgy állítja be, mintha a szoftverük "látni", "hallani" vagy "beszélni" tanulna, de az Ars Technica aláhúzza: akad szakértő, aki szerint veszélyes így beszélni egy számítógépes programról. "Az örökké hangoztatott szolgálati közlemény: ne kezeld az MI-modelleket emberekként. Nem, a ChatGPT nem "lát, hall és beszél". Integrálható olyan szenzorokkal, amelyek különböző módokon juttatják adatokhoz" - fogalmazott a Hugging Face nevű MI-cég kutatója, Dr. Sasha Luccioni.

(Fotó: Growtika/Unsplash)

A takaró alatt is rengeteg TECHNOLÓGIAI KALAND vár, nézz körül, hol tart ma a SZEXIPAR, és tedd az idei karácsonyt emlékezetessé!

Nézz körül a Vágyaim.hu kínálatában, használd a PLYR20 kuponkódot és legyen az idei karácsony olyan, mint még soha!