Holt nyelveket fejtenek meg, fordítanak le a gépi tanulás algoritmusai

2020 / 10 / 25 / Justin Viktor

#gépi tanulás #algoritmus #holt nyelvek #ibér nyelv

Holt nyelveket fejtenek meg, fordítanak le a gépi tanulás algoritmusai

Az MIT Számítástechnikai és Mesterséges Intelligencia Laboratóriumának (CSAIL) kutatói a közelmúltban jelentős előrelépést értek el a holt nyelvek gépi tanulással történő megfejtésében. Megalkottak egy olyan új rendszert, ami képes automatikusan megfejteni a történelem kútjában elveszett nyelveket, és lefordítani őket egy mai rokon nyelvre.

Legújabb cikkeinkért kövess minket a Rakéta Google News oldalán is!

Holt nyelvek társasága

A legtöbb valaha létezett nyelvet ma már nem beszélik az emberek. Az eltűnt, halott nyelvek között főképp olyanokat találhatunk, melyeket elveszettnek vagy „megfejtetlennek” tekintünk, nem tudunk eleget a nyelvtanukról, szókincsükről szintaxisukról ahhoz, hogy megértsük a szövegeiket.

Az MIT kutatói a héber vonatkozású ugarit nyelvet tanulmányozták, melyet a nyelvészek korábban már megfejtettek, hogy olyan rendszert alkothassanak, mely alkalmas az elveszett nyelvek megfejtésére. (Fotó: SRK Branavan)

Az elveszett nyelvek kutatása azért szükséges, mert e nélkül az egész hajdan élt népcsoport tudása elveszik az emberiség számára. Sajnos a legtöbbjükről olyan keveset tudunk, hogy a tudósok még az olyan fejlett gépi tanulási algoritmusok használatával sem tudják megfejteni őket, mint a Google Translate. Néhányuknak alaposan kutatott rokonnyelve sincs, amihez hasonlítható lenne, és gyakran hiányoznak a szóközökhöz és az írásjelekhez hasonló hagyományos elválasztók.

Péladkéntképzeljükelhogyezegyidegenszövegamitmegkellenetudnunkfejtenidesemmitöbbnemállnarendelkezésrecsakezamondat.

Kétnyelvű proto-elamita akkád felirat Kutik-Inshushinak királyról, az Oroszlán tábláról (Kép: Wikipédia, Louvre Múzeum)

Az MIT Számítástechnikai és Mesterséges Intelligencia Laboratórium (CSAIL) kutatóinak rendszere úgy képes automatikusan megfejteni egy holt nyelvet, hogy a többi nyelvhez való viszonya ismert lenne. Az ibér és a baszk nyelv közötti kapcsolódás kizárásával demonstrálták azt is, hogy az új rendszer önállóan is képes a nyelvek közötti kapcsolatok meghatározására.

A kutatók célja az, hogy a rendszerük képes legyen néhány ezer szó felhasználásával megfejteni egy tetszőleges holt nyelvet, ami évtizedek óta ellenáll a nyelvészek próbálkozásának.

Lineáris B írás, egy szótagírás, a mükénéi görög civilizáció használta i.e. 1450-tól. (kép: Wikipédia)

Az ördög a részletekben

"A rendszer számos, a történeti nyelvészet meglátásain nyugvó alapelvre támaszkodik, például arra, hogy a nyelvek általában csak bizonyos kiszámítható módon fejlődhetnek. Például, amíg egy adott nyelv ritkán egészít ki vagy töröl egy egész hangot, bizonyos hanghelyettesítések valószínűleg bekövetkeznek. A szülő nyelv „p” betűvel rendelkező szava „b” betűt tartalmazóra változhat a leszármazott nyelvben, de a „k” -betűre váltás kevésbé valószínű a jelentős kiejtési rés miatt" - állapította meg Regina Barzilay, az MIT professzorának vezetésével a kutatócsoport.

Az ehhez hasonló egyéb nyelvi korlátok beépítésével Barzilay és Jiaming Luo az MIT PhD hallgatója, kifejlesztettek egy megfejtési algoritmust, mely képes kezelni a lehetséges átalakulások hatalmas tengerét és a bemeneti adatok rendezőelvének hiányosságát. Az algoritmus megtanulja beilleszteni a nyelv hangjait egy többdimenziós térbe, ahol a kiejtésbeli különbségek a megfelelő vektorok közötti távolságban tükröződnek. Ez a szerkezeti kialakítás lehetővé teszi a nyelvváltozás releváns mintáinak megragadását és számítási előírásként való kifejezését.

A kapott modell képes elkülöníteni az egyes szavakat az ősi nyelven, és leképezheti, gyakorlatilag lefordíthatja őket egy rokon nyelv megfelelőire.

Az MY Oe 106 lineáris B tábla (előlap) a Görög Nemzeti Régészeti Múzeumban. (Kép: Wikipédia)

Maga a projekt Barzilay és Luo tavalyi tanulmányára épít, amiben főpróbaként megfejtették az ugarit és a lineáris B holt nyelveket. Ez utóbbi megfejtése az emberek számára évtizedekig tartott. Ezeknél a nyelveknél azonban a csapat tudta, hogy összefüggenek a héber, illetve a görög korai formáival.

Nyomoz a szoftver

Az új rendszer működése során a nyelvek közötti kapcsolatra már pusztán csak az algoritmus következtet. Ez a jellemző egyébként az egyik legnagyobb kihívás a hasonló feladványok megfejtésében. A lineáris B esetében például több évtized kellett a leszármazott nyelv helyes azonosításához. Az ibér nyelvvel kapcsolatban pedig még ma sincs elfogadott konszenzus a tudósok között, a hozzá kapcsolódó nyelvről: vannak, akik a baszk mellett érvelnek, mások azt állítják, hogy az ibér nyelv nem kapcsolódik egyetlen ismert nyelvhez sem.

Az új algoritmus képes felmérni két emberi nyelv valós közelségét. Ismert nyelveken futtatva, tesztelve a képességeit, pontosan képes volt azonosítani az érintett nyelvcsaládokat.

A legtöbb fennmaradt írás Lineáris B írás Knósszoszból (Kréta szigetéről), illetve Püloszból (a Pelloponészoszi félszigetről) került elő. A fennmaradt szövegek mükénéi görög nyelvűek, mely a mai görög egy korai változata. (Kép: Wikipédia)

A jövőbeni feladatokról szólva, a kutatók remélik, hogy kibővíthetik a munkát azon túl is, hogy a szövegeket összekapcsolják az ismert nyelvű kapcsolódó szavakkal, amit „rokon alapú megfejtésnek” neveznek. Ez a paradigma azon alapszik, hogy létezik egy ilyen ismert nyelv, de az ibér nyelv példája megmutatta, hogy ez talán nincs mindig így. A kutatók ezért egy új megközelítést is javasolnak, ami magában foglalja a szavak szemantikai jelentésének azonosítását, még akkor is, ha nem tudják, hogyan kell elolvasni őket.

"Például azonosíthatjuk a dokumentumban szereplő összes emberre vagy helyszínre történő hivatkozást, amelyet aztán az ismert történelmi bizonyítékok fényében tovább vizsgálhatunk. Ezeket az entitásfelismerésen alapuló módszereket manapság gyakran használják a különböző szövegfeldolgozó alkalmazásokban, és nagyon pontosak, de a legfontosabb kutatási kérdés az, hogy a feladat megvalósítható-e az ősi nyelv algoritmusba táplálandó tréning adatai nélkül" - vázolta a dolog nehézségeit Barzilay. A projektet részben az Intelligence Advanced Research Projects Activity (IARPA) támogatta.

(Kép: Wikipédia, Needpix)

https://www.iarpa.gov/

Itt állíthatod be, hogy a Rakéta az elsők között legyen a Google keresőben

Sportfotózás mobillal? Ezzel a Leica-kamerás Xiaomi-telefonnal bámulatos képeket lehet lőni

Profi Leica Summilux-optika, 5-szörös optikai zoom és akár 120-szoros AI-nagyítás: vége a fényképezőgép felesleges cipelésének és a lemaradt pillanatoknak, a Xiaomi és a Leica partnersége szintet lépett, a 17T Pro pedig olyan kamerát ad a kezedbe, amivel a sportakciókat és az emberi érzelmeket is profi minőségben kaphatod el, akár a pálya széléről, akár a lelátóról.

A budapesti Holisticrm vállalat mesterséges intelligenciával kapcsolja össze a földi és űrbeli adatokat, lehetővé téve a valós idejű döntéstámogatást

A vállalat szerint éppen ez a keresztiparági MI-megközelítés jelenti a technológia legnagyobb előnyét.

Ezek is érdekelhetnek