Holt nyelveket fejtenek meg, fordítanak le a gépi tanulás algoritmusai
2020 / 10 / 25 / justin.viktor
Holt nyelveket fejtenek meg, fordítanak le a gépi tanulás algoritmusai
Az MIT Számítástechnikai és Mesterséges Intelligencia Laboratóriumának (CSAIL) kutatói a közelmúltban jelentős előrelépést értek el a holt nyelvek gépi tanulással történő megfejtésében. Megalkottak egy olyan új rendszert, ami képes automatikusan megfejteni a történelem kútjában elveszett nyelveket, és lefordítani őket egy mai rokon nyelvre.

Holt nyelvek társasága

A legtöbb valaha létezett nyelvet ma már nem beszélik az emberek. Az eltűnt,  halott nyelvek között főképp olyanokat találhatunk, melyeket elveszettnek vagy „megfejtetlennek” tekintünk, nem tudunk eleget a nyelvtanukról, szókincsükről szintaxisukról ahhoz, hogy megértsük a szövegeiket.


Az MIT kutatói a héber vonatkozású ugarit nyelvet tanulmányozták, melyet a nyelvészek korábban már megfejtettek, hogy olyan rendszert alkothassanak, mely alkalmas az elveszett nyelvek megfejtésére. (Fotó: SRK Branavan)

Az elveszett nyelvek kutatása azért szükséges, mert e nélkül az egész hajdan élt népcsoport tudása elveszik az emberiség számára. Sajnos a legtöbbjükről olyan keveset tudunk, hogy a tudósok még az olyan fejlett gépi tanulási algoritmusok használatával sem tudják megfejteni őket, mint a Google Translate. Néhányuknak alaposan kutatott rokonnyelve sincs, amihez hasonlítható lenne, és gyakran hiányoznak a szóközökhöz és az írásjelekhez hasonló hagyományos elválasztók. 

Péladkéntképzeljükelhogyezegyidegenszövegamitmegkellenetudnunkfejtenidesemmitöbbnemállnarendelkezésrecsakezamondat.


Kétnyelvű proto-elamita akkád felirat Kutik-Inshushinak királyról, az Oroszlán tábláról (Kép: Wikipédia, Louvre Múzeum)

Az MIT Számítástechnikai és Mesterséges Intelligencia Laboratórium (CSAIL) kutatóinak rendszere úgy képes automatikusan megfejteni egy holt nyelvet, hogy a többi nyelvhez való viszonya ismert lenne. Az ibér és a baszk nyelv közötti kapcsolódás kizárásával demonstrálták azt is, hogy az új rendszer önállóan is képes a nyelvek közötti kapcsolatok meghatározására. 

A kutatók célja az, hogy a rendszerük képes legyen néhány ezer szó felhasználásával megfejteni egy tetszőleges holt nyelvet, ami évtizedek óta ellenáll a nyelvészek próbálkozásának.


Lineáris B írás, egy szótagírás, a mükénéi görög civilizáció használta i.e. 1450-tól. (kép: Wikipédia)

Az ördög a részletekben

"A rendszer számos, a történeti nyelvészet meglátásain nyugvó alapelvre támaszkodik, például arra, hogy a nyelvek általában csak bizonyos kiszámítható módon fejlődhetnek. Például, amíg egy adott nyelv ritkán egészít ki vagy töröl egy egész hangot, bizonyos hanghelyettesítések valószínűleg bekövetkeznek. A szülő nyelv „p” betűvel rendelkező szava „b” betűt tartalmazóra változhat a leszármazott nyelvben, de a „k” -betűre váltás kevésbé valószínű a jelentős kiejtési rés miatt" - állapította meg Regina Barzilay, az MIT professzorának vezetésével a kutatócsoport.

Az ehhez hasonló egyéb nyelvi korlátok beépítésével Barzilay és Jiaming Luo az MIT PhD hallgatója, kifejlesztettek egy megfejtési algoritmust, mely képes kezelni a lehetséges átalakulások hatalmas tengerét és a bemeneti adatok rendezőelvének hiányosságát. Az algoritmus megtanulja beilleszteni a nyelv hangjait egy többdimenziós térbe, ahol a kiejtésbeli különbségek a megfelelő vektorok közötti távolságban tükröződnek. Ez a szerkezeti kialakítás lehetővé teszi a nyelvváltozás releváns mintáinak megragadását és számítási előírásként való kifejezését.

A kapott modell képes elkülöníteni az egyes szavakat az ősi nyelven, és leképezheti, gyakorlatilag lefordíthatja őket egy rokon nyelv megfelelőire.


Az MY Oe 106 lineáris B tábla (előlap) a Görög Nemzeti Régészeti Múzeumban. (Kép: Wikipédia)

Maga a projekt Barzilay és Luo tavalyi tanulmányára épít, amiben főpróbaként megfejtették az ugarit és a lineáris B holt nyelveket. Ez utóbbi megfejtése az emberek számára évtizedekig tartott. Ezeknél a nyelveknél azonban a csapat tudta, hogy összefüggenek a héber, illetve a görög korai formáival.

Nyomoz a szoftver

Az új rendszer működése során a nyelvek közötti kapcsolatra már pusztán csak az algoritmus következtet. Ez a jellemző egyébként az egyik legnagyobb kihívás a hasonló feladványok megfejtésében. A lineáris B esetében például több évtized kellett a leszármazott nyelv helyes azonosításához. Az ibér nyelvvel kapcsolatban pedig még ma sincs elfogadott konszenzus a tudósok között, a hozzá kapcsolódó nyelvről: vannak, akik a baszk mellett érvelnek, mások azt állítják, hogy az ibér nyelv nem kapcsolódik egyetlen ismert nyelvhez sem. 

Az új algoritmus képes felmérni két emberi nyelv valós közelségét. Ismert nyelveken futtatva, tesztelve a képességeit, pontosan képes volt azonosítani az érintett nyelvcsaládokat.

 


A legtöbb fennmaradt írás Lineáris B írás Knósszoszból (Kréta szigetéről), illetve Püloszból (a Pelloponészoszi félszigetről) került elő. A fennmaradt szövegek mükénéi görög nyelvűek, mely a mai görög egy korai változata. (Kép: Wikipédia)

A jövőbeni feladatokról szólva, a kutatók remélik, hogy kibővíthetik a munkát azon túl is, hogy a szövegeket összekapcsolják az ismert nyelvű kapcsolódó szavakkal, amit „rokon alapú megfejtésnek” neveznek. Ez a paradigma azon alapszik, hogy létezik egy ilyen ismert nyelv, de az ibér nyelv példája megmutatta, hogy ez talán nincs mindig így. A kutatók ezért egy új megközelítést is javasolnak, ami magában foglalja a szavak szemantikai jelentésének azonosítását, még akkor is, ha nem tudják, hogyan kell elolvasni őket.

"Például azonosíthatjuk a dokumentumban szereplő összes emberre vagy helyszínre történő hivatkozást, amelyet aztán az ismert történelmi bizonyítékok fényében tovább vizsgálhatunk. Ezeket az entitásfelismerésen alapuló módszereket manapság gyakran használják a különböző szövegfeldolgozó alkalmazásokban, és nagyon pontosak, de a legfontosabb kutatási kérdés az, hogy a feladat megvalósítható-e az ősi nyelv algoritmusba táplálandó tréning adatai nélkül" - vázolta a dolog nehézségeit Barzilay. A projektet részben az Intelligence Advanced Research Projects Activity (IARPA) támogatta.

(Kép: Wikipédia, Needpix)

https://www.iarpa.gov/


AKCIÓS ÚJ ÉPÍTÉSŰ LAKÁSOK BUDAPESTEN AKÁR 27 915 000 Ft-tól. TÉLI AKCIÓ A CORDIÁTÓL
Legyen a leggyorsabbak között, és szerezze meg álmai otthonát egyedülálló kedvezménnyel! 2020. december 31-ig kiemelt kedvezménnyel, akár 9% árelőnnyel vásárolhatja meg az ideális lakást kínálatunkból.
Először vagy itt? Ez itt a Rakéta!
Olvasd el főszerkesztőnk beköszönőjét, mire számíthatsz tőlünk!
Ezek is érdekelhetnek

Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.