Ahogy korábban már írtunk róla, a DALL-E már önmagában is egy igencsak figyelemre méltó jelenség, hiszen a természetes nyelvi feldolgozáson alapuló rendszer néhány szavas leírások alapján képes létrehozni lényegében bármilyen képet. A felhasználónak nincs más dolga, mint beírni, hogy például "macska sapkában", és a mesterséges intelligencia máris elhalmoz minket olyan képekkel, amelyeken macskák láthatóak fejfedővel a fejükön. Bár a rendszer egyelőre nem nyilvános, ugyanakkor az OpenAI a szakemberek egy kisebb csoportjának lehetőséget biztosít a DALL-E-hoz való hozzáférésre, akik így kedvükre kísérletezhetnek az MI képességeivel.
Közéjük tartozik Giannis Daras, a Texasi Egyetem PhD-hallgatója is, aki a DALL-E használata közben egy megmagyarázhatatlan jelenségre lett figyelmes. Az informatikus olyan képeket készített a DALL-E-vel, amelyeken szövegek is láthatóak, a mesterséges intelligencia pedig rendszerint olyan megoldásokkal állt elő, amelyeknek első látásra semmi értelmük, vagyis egyszerű halandzsának tűnnek. A "farmerek a zöldségekről beszélgetnek, felirattal" utasításra például az MI a "vicootess" és a "Apoploe vesrreaitars" kifejezéseket használta a feliratoknál, amelyeknek semmilyen nyelven nincs értelmes jelentésük, azonban amikor Daras ezeket a kifejezéseket adta meg az MI-nek leírásként, akkor meglepően következetes eredményeket kapott: a vicootess szóra az MI zöldségek képeit alkotta meg, míg az apoploe vesrreaitars kifejezésre madarakról készült képeket kezdett el létrehozni. Daras ebből arra a következtetésre jutott, hogy a képen szereplő farmerek talán arról beszélgethetnek egymással, hogy a madarak megdézsmálják a zöldségeiket.
Dara ezután tovább kutakodott, és számos más kifejezést is talált, amelyeket véleménye szerint szintén a neurális hálózat hozott létre saját magától. Arra is rájött, hogy a "Contarra ccetnxniams luryca tanniounons" a bogarakat jelentheti, ennek megfelelően pedig, amikor azt adta meg leírásként, hogy "Apoploe vesrreaitais eating (eszik - a szerk.) Contarra ccetnxniams luryca tanniounons", akkor az MI bogarakat evő madarakról készült képeket dobott fel eredményként.
DALLE-2 has a secret language.
"Apoploe vesrreaitais" means birds.
"Contarra ccetnxniams luryca tanniounons" means bugs or pests.
The prompt: "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" gives images of birds eating bugs.
A thread (1/n)? pic.twitter.com/VzWfsCFnZo— Giannis Daras (@giannis_daras) May 31, 2022
"Az olyan szöveges utasítások, mint például 'a repülőgép szóról készült kép' gyakran eredményeznek olyan képeket, amelyek halandzsa szöveget ábrázolnak. Rájöttünk azonban, hogy az előállított szöveg nem véletlenszerű, hanem egy rejtett szókincsről árulkodik, amelyet úgy tűnik, hogy maga az MI modell fejlesztett ki" - foglalják össze felfedezésüket Daras és szerzőtársa, Alexandros G. Dimakis a frissen megjelent tanulmányukban, amely egyelőre még nem esett át a szakmai bírálaton, így az állításait érdemes fenntartásokkal kezelni.
Többen így is tettek. Benjamin Hilton például Twitteren egy 15 bejegyzésből álló hozzászólásláncban elemezte ki Daras állításait, és végül arra a következtetésre jutott, hogy a hallgatónak legfeljebb részben van igaza, és az eredményei valószínűleg csak a vakvéletlennek tudhatók be. Az elemző többek között arra hívja fel a figyelmet, hogy ha a bogarakkal kapcsolatos kifejezéshez hozzáadjuk a "3D render" kifejezést is, akkor ahelyett, hogy három dimenziós számítógépes grafikákat kapnánk bogarakról, az MI vízi élőlények és kövek képeit alkotja meg. Hilton emellett azt is kifogásolja, hogy bár az MI a "Contarra ccetnxniams luryca tanniounons" kifejezésre valóban készített olyan képet, amin bogár volt látható, azonban számos másik képen másféle, a bogarakra még csak nem is hasonlító állatok voltak. Ha ugyanehhez a kifejezéshez a leírásban megadta a "festmény" szót is, akkor ennek eredményeként nagymamákról készült képeket kapott.
No, DALL-E doesn’t have a secret language.
(or at least, we haven't found one yet)
This viral DALL-E thread has some pretty astounding claims. But maybe the reason they’re so astounding is that, for the most part, they're not true.
Thread ?? (1/15)https://t.co/8F2WDp7lTK— Benjamin Hilton (@benjamin_hilton) May 31, 2022
Hiltonnak ugyanakkor nem minden tekintetben sikerült cáfolnia Daras elméletét. Az "Apoploe vesrreaitars" kifejezésre például ő is mindig madarakat kapott eredményként, és a többi eredményél is az látható, hogy bár a képek nem mindig azt ábrázolták, amit Daras szerint jelentenek, de valamilyen módon mindig egy fogalomkör köré csoportosultak (lásd: nagymama). Hilton ezzel együtt is szkeptikus maradt a felfedezéssel kapcsolatban, szerinte az eredmények "sokkal inkább hasonlítanak egy sztochasztikus, véletlenszerű zajra, mint egy titkos DALL-E nyelvre".
A hírről beszámoló Motherboard szerint az ehhez hasonló anomáliák egyáltalán nem ritkák a neurális hálózatoknál, hiszen az ilyen rendszerek akár több milliárd paramétert is tartalmazhatnak, és gyakran a gépi tanuláshoz használt adathalmaz is olyan méretű, hogy már maguk a programozók sem látják át, hogy miért működik úgy, ahogy. A lapnak egy neve elhallgatását kérő szakértő egyenesen azt mondta, hogy ha az MI-ről van szó, akkor már nem is kódolónak érzi magát, sokkal inkább mikrobiológusnak vagy viselkedéspszichológusnak. "A neurális hálózatok nem 'kódok', inkább úgy viselkednek, mint a Petri-csészék. Figyeled őket, és reméled, hogy megérted, mi történik, miközben eteted őket".
A kutatóknak hamarosan lehetőségük nyílik szélesebb mintán is tesztelni, hogy az MI valóban képes-e saját nyelvet létrehozni, hiszen alig egy hete a Google is bemutatta a DALL-E-hez hasonló, saját text-to-image mesterséges intelligenciáját, amit szintén arra tanítottak be, hogy néhány szavas leírások alapján alkosson meg korábban nem létező képeket. Az Imagen nem kevesebbet ígér, hogy képszerkesztői tudás nélkül is megalkothatunk bármilyen képet, akár fotorealisztikus minőségben is, készítői szerint pedig szinte minden szempontból felülmúlja a hasonló neurális hálózatokat, így a DALL-E-t is.
(Borítókép: Getty Images)