A Tokiói Egyetem Alter3 androidja az intézmény humanoid robotsorozatának harmadik iterációja, amely a ChatGPT-4-val való integráció révén a legmodernebb képességekkel rendelkezik. Az Alter3 43 aktuátort kapott z arckifejezésekhez és a végtagmozgásokhoz – az aktuátorokat sűrített levegő hajtja, és sokféle kifejező gesztust tesznek lehetővé. Habár a robot egyelőre kizárólag álló helyzetben van (lépni, futni sem tud), az Alter3 felsőteste már most spontán és változatos mozgásokat képes végrehajtani, amelyeket önállóan generál az emberi parancsok ChatGPT-4 általi Python kódra történő fordításával – számol be róla az Interesting Engineering.
A robot innovatív kialakítása így szükségtelenné teszi az egyes testrészek manuális programozását, lehetővé téve a felhasználóknak a pózok módosítását anélkül, hogy komoly fejlesztési erőfeszítéseket kellene tenniük.
A kísérletek során az Alter3 bebizonyította, hogy képes utánozni az emberi pózokat egy kamerán és az OpenPose keretrendszeren keresztül: az ízületeket a megfigyelt pózok utánzásához igazította, és a sikeres utánzatokat későbbi felhasználás céljából el is tárolta. A ChatGPT, mint Nagy Nyelvi Modell (LLM) integrálásának köszönhetően így az Alter3 hatékonyan vehet részt a párbeszédben, miközben a kontextus szempontjából releváns arckifejezéseket és gesztusokat jelenít meg:
From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"
paper page: https://t.co/QKIKfWKyPZ
report the development of Alter3, a humanoid robot capable of generating spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This achievement was… pic.twitter.com/WEViidVM1L
— AK (@_akhaliq) December 12, 2023
Az Alter3 emberekkel való interakciója változatos pózok betanulását eredményezte, ami nagyjából arra hasonlít, ahogy egy újszülött utánzása tanulási folyamatként végső soron a kifejezőképesség bővítéséhez járul hozzá. Habár a robot nem tud járni, de a járás és a futás mozdulatait képes szimulálni a kötöttségek ellenére is.
A kutatók szerint az Alter 3 idővel az érzelmek széles skáláját jelenítheti meg – örömet és bánatot egyaránt – a különböző narratívákra adott válaszként. Végső soron osztozhat az emberekkel az érzelmeiken, és ezt ráadul a hagyományos módszerek nélkül sikerül elérni – tehát amikor az említett aktuátorokat egyesével kellett részletesen beprogramozni a különböző pózok kialakításához. Ez utóbbi feladatot váltja tehát ki lényegében a ChatGPT.