A ChatGPT megtanult beszélni és látni

2023 / 09 / 26 / Pőcze Balázs
A ChatGPT megtanult beszélni és látni
Új képességekkel ruházták fel a világ legismertebb generatív mesterséges intelligenciáját, a ChatGPT-t. A szoftvert mostantól képek és élőbeszéd segítségével is vezérelhetjük.

Az Ars Technicán olvasható hír szerint az ingyenesen elérhető GPT-3.5-öt és a fizetős GPT-4-et is érinti a fejlesztés, ám azzal egyelőre csak a Plus és az Enterprise, azaz a fizetős és a vállalati felhasználók találkozhatnak majd.

A két újdonság közül egyértelműen a képalapú interakció az érdekesebb, és talán a hasznosabb is. A vállalat által közölt példában valaki egy hétköznapi kérdéssel fordul a chatbothoz: nem tudja, hogy hogyan emelje meg a biciklije ülését. Ezt két ember pillanatok alatt megbeszélné, ám egy számítógép milliónyi módon tudna lyukra futni a tanácsaival. A videóban azt látjuk, ahogy a felhasználó azzal kezdi a beszélgetést, hogy megoszt egy fényképet a biciklijéről, majd leírja a problémáját. A rendszer először elmondja az általános megoldást gyorszáras és anélküli nyergeknél. Innen lesz igazán érdekes a történet: a chatelő bizonytalan, hogy az övén melyik fajta zár van, ezért egy újabb, közeli fotót posztol arról. Amikor kiderül, hogy a feladathoz szerszám fog kelleni, a használati utasítást és a szerszámosládája fényképét is megosztja a chatbottal, ami alapján a ChatGPT pontosan megmondja, hogy melyik kulcsra lesz szüksége. Ez egy képernyővideó, aminek a felvételekor a cég számtalanszor végigpróbálhatta a konkrét folyamatot, így nem biztos, hogy a valóságban is minden ilyen simán fog menni, de az egyértelműen látszik, hogy

a multimodális, azaz például képet és szöveget is használó interakciók új fejezetet nyithatnak a ChatGPT-nél.

A háttérben a rendszer valószínűleg közös nyelvre fordítja a kapott információkat, majd az eddig ismert módon dolgozik azokkal - hasonlóan a Google multisearch-höz, amiről tavaly írtunk a Rakétán. A ChatGPT másik új képessége ennél kevésbé forradalmi, de lehet, hogy többeknek jelent majd praktikus segítséget: a mobilalkalmazást mostantól hanggal is irányíthatjuk, illetve az képes nekünk öt szintetikus hang egyikén válaszolni.

Mindezt érthető, hogy az OpenAI úgy állítja be, mintha a szoftverük "látni", "hallani" vagy "beszélni" tanulna, de az Ars Technica aláhúzza: akad szakértő, aki szerint veszélyes így beszélni egy számítógépes programról. "Az örökké hangoztatott szolgálati közlemény: ne kezeld az MI-modelleket emberekként. Nem, a ChatGPT nem "lát, hall és beszél". Integrálható olyan szenzorokkal, amelyek különböző módokon juttatják adatokhoz" - fogalmazott a Hugging Face nevű MI-cég kutatója, Dr. Sasha Luccioni.

(Fotó: Growtika/Unsplash)


Autót vennél mostanában? Nézz bele a PLAYER AUTÓTESZT ROVATÁBA!
Minden friss és izgalmas autót kipróbálunk, amit csak tudunk, legyen az dízel vagy elektromos, olcsó vagy luxus, kétszemélyes vagy kisbusz!
Ismerd meg a ROADSTER magazint!
AUTÓK - DESIGN - GASZTRO - KULT - UTAZÁS - TECH // Ha szereted a minőséget az életed minden területén, páratlan élmény lesz!
Hogyan lesz Magyarországon tízmillióval több fa?
Hogyan lesz Magyarországon tízmillióval több fa?
Ennek járt a végére a legutóbbi Kávézó a világ végén, a radiocafén.
Mitől lesz erős egy jelszó vagy egy PIN kód, miért veszélyes a „free wifi”, mi is az a kiberhigiénia?
Mitől lesz erős egy jelszó vagy egy PIN kód, miért veszélyes a „free wifi”, mi is az a kiberhigiénia?
Tényleg ellopják-e az adatainkat, ha nyílt wifit használunk? Mitől lesz erős egy jelszó? Többek között ilyen IT-biztonsági kérdésekről szól a RE:FACT Podcast legújabb epizódja, amelynek vendége Pfeiffer Szilárd, IT-biztonsági mérnök.
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.