Aki valaha is megpróbált már beszélgetni egy chatbottal, az tudja, hogy még a mai legmodernebb rendszerek sem igazán ékesszólóak, rendszeresen értelmetlen vagy fájdalmasan általános válaszokat adnak. Most azonban a Google létrehozta Meena-t, egy olyan chatbotot, amely állításuk szerint jobb, mint bármely másik, amit teszteltek.
Az „ Emberi jellegű nyílt nyílt domainű chatbot felé ” tanulmányban bemutatott Meena, egy 2,6 milliárd paraméterrel rendelkező, end-to-end (végponttól-végpontig) képzett neurális beszélgetési modell. A Meena képes megtanulni, hogyan reagáljon érzékenyen egy adott beszélgetési környezetre. Képzésének célja, hogy minimalizálja a zavarosságot, a következő adat előrejelzésének bizonytalanságát (ebben az esetben a beszélgetés következő szava az adat). A magját az Evolved Transformer seq2seq architektúra adja, egy Transformer architektúra, amelyet a zavarosság kiküszöbölése érdekében folytatott evolúciós neurális architektura kutatások fedeztek fel.
A Meena modell 2,6 milliárd paraméterrel rendelkezik, és 341 GB méretű szöveges állományon képezték, amelyet nyilvános közösségi média beszélgetésekből állítottak össze. A meglévő, a legmodernebb generatív modellhez, az OpenAI GPT-2 -hez képest a Meena 1,7-szer nagyobb modellkapacitással rendelkezik, és 8,5-szer több adaton képezték.
A Meenát a vállalat egy új mutató használatával igyekszik támogatni, amelyet kifejezetten a MI beszélgetési képességeinek mérésére fejlesztettek ki. Miután létrehozták a Meena-t, - melynek részleteit az arXiv preprint nyomtatókiszolgálón tették közzé, - a Google-nak szüksége volt egy módszerre, a chatbot értékeléséhez.
A chatbot minőségére vonatkozó meglévő emberi értékelési mutatók általában bonyolultak, és nem adnak következetes egyetértést az értékelők között. Ezért vált szükségessé egy új emberi értékelési mutató létrehozása. amely megragadja az alapvető, de fontos tulajdonságokat a természetes beszélgetésekben.
Az e célból kifejlesztett Sensibleness and Specificity Average - kb. érzékenység és specifitás átlaga (SSA) mutató kiszámításához a Google felkérte humán alkalmazottait, hogy mintegy 100 szabad formájú beszélgetést folytassanak Meenával és számos más nyílt domainű csetrobottal. Minden alkalommal, amikor a chatbot egy üzenetre válaszolt, a munkavállalónak két kérdést kellett megválaszolnia a válaszról.
Először: volt-e a válasznak logikai és kontextuális értelme a beszélgetés során? Ha igen, akkor a következő kérdésre is válaszolniuk kellett: Specifikusan illeszkedett-e a válasz a beszélgetés témájához? Ez utóbbi szűrés, az általános válaszok kiküszöbölésére irányult. Például, ha az ember azt írta, hogy szereti a teniszt, és a chatbot azt válaszolta: „Ez szép,” a választ a „nem konkrét” címkével kellett ellátni.
Az SSA beállításához, számos forrásból származó szabad formájú beszélgetést gyűjtöttek össze, a Meena és más jól ismert nyílt domainű chatbotokból, nevezetesen a Mitsuku , CLEVERBOT , XiaoIce és DialoGPT szoftvereket érintve.
A Google megállapította, hogy egy átlagos ember elérheti a 86 százalékos SSA-értéket. A csapat vizsgálatában részt vevő többi chatbot 31 és 56 százalék közötti értéket produkált. Meena azonban 79 százalékot szerzett - ezáltal közelebb hozva az MI-t az embertől elvárt beszélgetés szintjéhez, mint egy másik chatbothoz.
(Forrás: Futurism, Google Képek: Pikrepo)