A legtöbb valaha létezett nyelvet ma már nem beszélik az emberek. Az eltűnt, halott nyelvek között főképp olyanokat találhatunk, melyeket elveszettnek vagy „megfejtetlennek” tekintünk, nem tudunk eleget a nyelvtanukról, szókincsükről szintaxisukról ahhoz, hogy megértsük a szövegeiket.
Az elveszett nyelvek kutatása azért szükséges, mert e nélkül az egész hajdan élt népcsoport tudása elveszik az emberiség számára. Sajnos a legtöbbjükről olyan keveset tudunk, hogy a tudósok még az olyan fejlett gépi tanulási algoritmusok használatával sem tudják megfejteni őket, mint a Google Translate. Néhányuknak alaposan kutatott rokonnyelve sincs, amihez hasonlítható lenne, és gyakran hiányoznak a szóközökhöz és az írásjelekhez hasonló hagyományos elválasztók.
Péladkéntképzeljükelhogyezegyidegenszövegamitmegkellenetudnunkfejtenidesemmitöbbnemállnarendelkezésrecsakezamondat.
Az MIT Számítástechnikai és Mesterséges Intelligencia Laboratórium (CSAIL) kutatóinak rendszere úgy képes automatikusan megfejteni egy holt nyelvet, hogy a többi nyelvhez való viszonya ismert lenne. Az ibér és a baszk nyelv közötti kapcsolódás kizárásával demonstrálták azt is, hogy az új rendszer önállóan is képes a nyelvek közötti kapcsolatok meghatározására.
A kutatók célja az, hogy a rendszerük képes legyen néhány ezer szó felhasználásával megfejteni egy tetszőleges holt nyelvet, ami évtizedek óta ellenáll a nyelvészek próbálkozásának.
"A rendszer számos, a történeti nyelvészet meglátásain nyugvó alapelvre támaszkodik, például arra, hogy a nyelvek általában csak bizonyos kiszámítható módon fejlődhetnek. Például, amíg egy adott nyelv ritkán egészít ki vagy töröl egy egész hangot, bizonyos hanghelyettesítések valószínűleg bekövetkeznek. A szülő nyelv „p” betűvel rendelkező szava „b” betűt tartalmazóra változhat a leszármazott nyelvben, de a „k” -betűre váltás kevésbé valószínű a jelentős kiejtési rés miatt" - állapította meg Regina Barzilay, az MIT professzorának vezetésével a kutatócsoport.
Az ehhez hasonló egyéb nyelvi korlátok beépítésével Barzilay és Jiaming Luo az MIT PhD hallgatója, kifejlesztettek egy megfejtési algoritmust, mely képes kezelni a lehetséges átalakulások hatalmas tengerét és a bemeneti adatok rendezőelvének hiányosságát. Az algoritmus megtanulja beilleszteni a nyelv hangjait egy többdimenziós térbe, ahol a kiejtésbeli különbségek a megfelelő vektorok közötti távolságban tükröződnek. Ez a szerkezeti kialakítás lehetővé teszi a nyelvváltozás releváns mintáinak megragadását és számítási előírásként való kifejezését.
A kapott modell képes elkülöníteni az egyes szavakat az ősi nyelven, és leképezheti, gyakorlatilag lefordíthatja őket egy rokon nyelv megfelelőire.
Maga a projekt Barzilay és Luo tavalyi tanulmányára épít, amiben főpróbaként megfejtették az ugarit és a lineáris B holt nyelveket. Ez utóbbi megfejtése az emberek számára évtizedekig tartott. Ezeknél a nyelveknél azonban a csapat tudta, hogy összefüggenek a héber, illetve a görög korai formáival.
Az új rendszer működése során a nyelvek közötti kapcsolatra már pusztán csak az algoritmus következtet. Ez a jellemző egyébként az egyik legnagyobb kihívás a hasonló feladványok megfejtésében. A lineáris B esetében például több évtized kellett a leszármazott nyelv helyes azonosításához. Az ibér nyelvvel kapcsolatban pedig még ma sincs elfogadott konszenzus a tudósok között, a hozzá kapcsolódó nyelvről: vannak, akik a baszk mellett érvelnek, mások azt állítják, hogy az ibér nyelv nem kapcsolódik egyetlen ismert nyelvhez sem.
Az új algoritmus képes felmérni két emberi nyelv valós közelségét. Ismert nyelveken futtatva, tesztelve a képességeit, pontosan képes volt azonosítani az érintett nyelvcsaládokat.
A jövőbeni feladatokról szólva, a kutatók remélik, hogy kibővíthetik a munkát azon túl is, hogy a szövegeket összekapcsolják az ismert nyelvű kapcsolódó szavakkal, amit „rokon alapú megfejtésnek” neveznek. Ez a paradigma azon alapszik, hogy létezik egy ilyen ismert nyelv, de az ibér nyelv példája megmutatta, hogy ez talán nincs mindig így. A kutatók ezért egy új megközelítést is javasolnak, ami magában foglalja a szavak szemantikai jelentésének azonosítását, még akkor is, ha nem tudják, hogyan kell elolvasni őket.
"Például azonosíthatjuk a dokumentumban szereplő összes emberre vagy helyszínre történő hivatkozást, amelyet aztán az ismert történelmi bizonyítékok fényében tovább vizsgálhatunk. Ezeket az entitásfelismerésen alapuló módszereket manapság gyakran használják a különböző szövegfeldolgozó alkalmazásokban, és nagyon pontosak, de a legfontosabb kutatási kérdés az, hogy a feladat megvalósítható-e az ősi nyelv algoritmusba táplálandó tréning adatai nélkül" - vázolta a dolog nehézségeit Barzilay. A projektet részben az Intelligence Advanced Research Projects Activity (IARPA) támogatta.
(Kép: Wikipédia, Needpix)
https://www.iarpa.gov/