Holt nyelveket fejtenek meg, fordítanak le a gépi tanulás algoritmusai

2020 / 10 / 25 / Justin Viktor
Holt nyelveket fejtenek meg, fordítanak le a gépi tanulás algoritmusai
Az MIT Számítástechnikai és Mesterséges Intelligencia Laboratóriumának (CSAIL) kutatói a közelmúltban jelentős előrelépést értek el a holt nyelvek gépi tanulással történő megfejtésében. Megalkottak egy olyan új rendszert, ami képes automatikusan megfejteni a történelem kútjában elveszett nyelveket, és lefordítani őket egy mai rokon nyelvre.

Holt nyelvek társasága

A legtöbb valaha létezett nyelvet ma már nem beszélik az emberek. Az eltűnt,  halott nyelvek között főképp olyanokat találhatunk, melyeket elveszettnek vagy „megfejtetlennek” tekintünk, nem tudunk eleget a nyelvtanukról, szókincsükről szintaxisukról ahhoz, hogy megértsük a szövegeiket.


Az MIT kutatói a héber vonatkozású ugarit nyelvet tanulmányozták, melyet a nyelvészek korábban már megfejtettek, hogy olyan rendszert alkothassanak, mely alkalmas az elveszett nyelvek megfejtésére. (Fotó: SRK Branavan)

Az elveszett nyelvek kutatása azért szükséges, mert e nélkül az egész hajdan élt népcsoport tudása elveszik az emberiség számára. Sajnos a legtöbbjükről olyan keveset tudunk, hogy a tudósok még az olyan fejlett gépi tanulási algoritmusok használatával sem tudják megfejteni őket, mint a Google Translate. Néhányuknak alaposan kutatott rokonnyelve sincs, amihez hasonlítható lenne, és gyakran hiányoznak a szóközökhöz és az írásjelekhez hasonló hagyományos elválasztók. 

Péladkéntképzeljükelhogyezegyidegenszövegamitmegkellenetudnunkfejtenidesemmitöbbnemállnarendelkezésrecsakezamondat.


Kétnyelvű proto-elamita akkád felirat Kutik-Inshushinak királyról, az Oroszlán tábláról (Kép: Wikipédia, Louvre Múzeum)

Az MIT Számítástechnikai és Mesterséges Intelligencia Laboratórium (CSAIL) kutatóinak rendszere úgy képes automatikusan megfejteni egy holt nyelvet, hogy a többi nyelvhez való viszonya ismert lenne. Az ibér és a baszk nyelv közötti kapcsolódás kizárásával demonstrálták azt is, hogy az új rendszer önállóan is képes a nyelvek közötti kapcsolatok meghatározására. 

A kutatók célja az, hogy a rendszerük képes legyen néhány ezer szó felhasználásával megfejteni egy tetszőleges holt nyelvet, ami évtizedek óta ellenáll a nyelvészek próbálkozásának.


Lineáris B írás, egy szótagírás, a mükénéi görög civilizáció használta i.e. 1450-tól. (kép: Wikipédia)

Az ördög a részletekben

"A rendszer számos, a történeti nyelvészet meglátásain nyugvó alapelvre támaszkodik, például arra, hogy a nyelvek általában csak bizonyos kiszámítható módon fejlődhetnek. Például, amíg egy adott nyelv ritkán egészít ki vagy töröl egy egész hangot, bizonyos hanghelyettesítések valószínűleg bekövetkeznek. A szülő nyelv „p” betűvel rendelkező szava „b” betűt tartalmazóra változhat a leszármazott nyelvben, de a „k” -betűre váltás kevésbé valószínű a jelentős kiejtési rés miatt" - állapította meg Regina Barzilay, az MIT professzorának vezetésével a kutatócsoport.

Az ehhez hasonló egyéb nyelvi korlátok beépítésével Barzilay és Jiaming Luo az MIT PhD hallgatója, kifejlesztettek egy megfejtési algoritmust, mely képes kezelni a lehetséges átalakulások hatalmas tengerét és a bemeneti adatok rendezőelvének hiányosságát. Az algoritmus megtanulja beilleszteni a nyelv hangjait egy többdimenziós térbe, ahol a kiejtésbeli különbségek a megfelelő vektorok közötti távolságban tükröződnek. Ez a szerkezeti kialakítás lehetővé teszi a nyelvváltozás releváns mintáinak megragadását és számítási előírásként való kifejezését.

A kapott modell képes elkülöníteni az egyes szavakat az ősi nyelven, és leképezheti, gyakorlatilag lefordíthatja őket egy rokon nyelv megfelelőire.


Az MY Oe 106 lineáris B tábla (előlap) a Görög Nemzeti Régészeti Múzeumban. (Kép: Wikipédia)

Maga a projekt Barzilay és Luo tavalyi tanulmányára épít, amiben főpróbaként megfejtették az ugarit és a lineáris B holt nyelveket. Ez utóbbi megfejtése az emberek számára évtizedekig tartott. Ezeknél a nyelveknél azonban a csapat tudta, hogy összefüggenek a héber, illetve a görög korai formáival.

Nyomoz a szoftver

Az új rendszer működése során a nyelvek közötti kapcsolatra már pusztán csak az algoritmus következtet. Ez a jellemző egyébként az egyik legnagyobb kihívás a hasonló feladványok megfejtésében. A lineáris B esetében például több évtized kellett a leszármazott nyelv helyes azonosításához. Az ibér nyelvvel kapcsolatban pedig még ma sincs elfogadott konszenzus a tudósok között, a hozzá kapcsolódó nyelvről: vannak, akik a baszk mellett érvelnek, mások azt állítják, hogy az ibér nyelv nem kapcsolódik egyetlen ismert nyelvhez sem. 

Az új algoritmus képes felmérni két emberi nyelv valós közelségét. Ismert nyelveken futtatva, tesztelve a képességeit, pontosan képes volt azonosítani az érintett nyelvcsaládokat.

 


A legtöbb fennmaradt írás Lineáris B írás Knósszoszból (Kréta szigetéről), illetve Püloszból (a Pelloponészoszi félszigetről) került elő. A fennmaradt szövegek mükénéi görög nyelvűek, mely a mai görög egy korai változata. (Kép: Wikipédia)

A jövőbeni feladatokról szólva, a kutatók remélik, hogy kibővíthetik a munkát azon túl is, hogy a szövegeket összekapcsolják az ismert nyelvű kapcsolódó szavakkal, amit „rokon alapú megfejtésnek” neveznek. Ez a paradigma azon alapszik, hogy létezik egy ilyen ismert nyelv, de az ibér nyelv példája megmutatta, hogy ez talán nincs mindig így. A kutatók ezért egy új megközelítést is javasolnak, ami magában foglalja a szavak szemantikai jelentésének azonosítását, még akkor is, ha nem tudják, hogyan kell elolvasni őket.

"Például azonosíthatjuk a dokumentumban szereplő összes emberre vagy helyszínre történő hivatkozást, amelyet aztán az ismert történelmi bizonyítékok fényében tovább vizsgálhatunk. Ezeket az entitásfelismerésen alapuló módszereket manapság gyakran használják a különböző szövegfeldolgozó alkalmazásokban, és nagyon pontosak, de a legfontosabb kutatási kérdés az, hogy a feladat megvalósítható-e az ősi nyelv algoritmusba táplálandó tréning adatai nélkül" - vázolta a dolog nehézségeit Barzilay. A projektet részben az Intelligence Advanced Research Projects Activity (IARPA) támogatta.

(Kép: Wikipédia, Needpix)

https://www.iarpa.gov/


Bárki is lesz az amerikai elnök, a Google és a Facebook nem fognak túl jól járni
Bárki is lesz az amerikai elnök, a Google és a Facebook nem fognak túl jól járni
Donald Trump alelnök-jelöltje, J. D. Vance, és a legvalószínűbb demokrata elnökjelölt, Kamala Harris sem lenne könnyű ellenfél a Szilícium-völgy nagyvállalatainak.
Átírhatja az élet keletkezését az óceán mélyén talált sötét oxigén
Átírhatja az élet keletkezését az óceán mélyén talált sötét oxigén
A bolygón a jelenleg ismert élethez szükséges az oxigén, ami biológiai úton keletkezett fény segítségével fotoszintézissel. Vagy mégsem? Egy mostani, döbbenetes felfedezés szerint az oxigén előállításához sem fényre, sem biológiai folyamatokra nincs feltétlen szükség. Az óceán mélye olyan titkát fedte fel, ami mindent megkérdőjelez.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.