A gépi fordítással foglalkozók ezt a kérdést már majdnem száz évre próbálják megválaszolni, és 1954-ben úgy tűnt, egészen közel kerültek a megoldáshoz.
"Az elektronikus agy közel jár ahhoz, hogy fordítóvá váljon"
- harangozta be a szenzációs hírt a Los Angeles Times '54 januárban - "Az új mechanikus fordító végül elgördítheti a nyelvi akadályokat egy elektronikus szempillantás alatt." - szólt a beszámoló a híres Georgetown-IBM kísérletről, aminek során a behatárolt (250 szavas) szókincsű, ám hatékony számítógép orosz mondatokat fordított le angolra önállóan, mindössze néhány másodperc alatt. Az IBM 701-es, nagy reményeket keltve, igen magasra tette a lécet a gépi fordítás terén, de később kiderült, hogy a nyelvek között tökéletesen közvetítő gépek kora messze van még. Közel fél évszázad után, 2006-ban aztán megérkezett a Google Translate, és az események jelentősen felgyorsultak: ez a statisztikai gépi fordítási program szerény kezdetekről indulva mára mindenki ismert alkalmazássá vált, ami akár a szuszu, a ga vagy éppen az inuktitut nyelvekkel is megbirkózik.
De hogyan működik valójában a gépi fordítás, és milyen viszonyban áll a mesterséges intelligenciával? Megértheti-e a bonyolult emberi nyelvet, és miben tud segíteni a fordítóknak? A téma részleteibe Kis Balázs, a fordítástámogató szoftvert készítő memoQ társalapítója avatott be minket, és azt is elárulta, melyik a legígéretesebb iránya a fejlesztéseknek.
Gépi tanulás, mélytanulási rendszerek, neurális hálók, mesterséges intelligencia algoritmusok, nagy nyelvi modellek - azok számára, akik nem szakértői a területnek, nehéz lehet kiigazodni a különböző, mesterséges intelligenciához köthető kifejezések között. Mesélne nekünk arról, hogy a gépi fordítás kifejezés mit takar pontosan?
A gépi fordítás a számítógép által, mindenféle emberi felügyelet nélkül végzett fordítást jelenti. Azóta foglalkoznak vele, amióta számítógép van, bár az automatikus gépi fordítás a hidegháború idején, az 1960-as évek elején kapott először nagyobb figyelmet. Akkoriban azonban arra jutottak a döntéshozók, hogy a teljesen automatizált fordításnak nincs perspektívája, mert sem tartalmilag, sem nyelvileg nem éri el azt a szintet, hogy lényeges javítás nélkül fel lehessen használni. Ennek annak idején írásos nyoma is keletkezett, a Pentagon által 1966-ban kiadott úgynevezett ALPAC-jelentés formájában.
A jól működő gépi fordítás a számítógépes fordítási rendszerekkel foglalkozók régi álma. Mára eljutottunk oda, hogy valóban működőképes megoldást jelent a fordítás terén?
Sok esetben igen. A legtöbbször csak azért van szükségünk fordításra, hogy megértsük, mit mond a beszélgetőpartnerünk, vagy el tudjunk olvasni egy idegen nyelvű weboldalt vagy dokumentációt – erre a ma elérhető automatikus eszközök (Google-fordító, DeepL és társaik) tökéletesen alkalmasak.
Amikor azonban a fordításnak tétje van, mert fontos a pontossága vagy meghatározott nyelvi stílust kell követnie, más a helyzet.
Mivel a gép nem tudja egy fordítás tartalmi helyességét ellenőrizni, a jogi dokumentumok, gyógyszerismertetők stb. fordítását mindenképpen embernek kell jóváhagynia. De ilyen a videojátékok fordítása is – az ott megjelenő tartalomnak illeszkednie kell a játékban megjelenő világhoz és a játékosok által használt nyelvezethez is. Ezeket az automatikus gépi eszközök nem tudják megbízhatóan nyújtani.
Az emberi nyelv rendkívül bonyolult konstrukció. Meg tudja ezt "érteni", illetve képes ezzel megbirkózni egy számítógépes program?
Megérteni nem tudja, a megbirkózásnak azonban számos különböző szintje van. A mai gépi fordítási modellek, illetve nagy nyelvi modellek már rendkívül sok szöveget (teljes dokumentumokat) "látnak" egyszerre. Ezeket – a tanításukhoz használt rendkívül sok adatnak köszönhetően – sokféleképpen fel tudják dolgozni: képesek többnyire pontos, nyelvileg jól formált fordításokat készíteni, illetve kérdésekre, kérésekre adekvát vagy adekvátnak tűnő válaszokat adni. Ezért a felhasználó számára sokszor tűnik úgy, hogy a gép "érti" a szöveget, érti a kérdést – amíg aztán el nem árulja magát egy helytelen, pontatlan vagy oda nem illő válasszal.
Milyen segítséget nyújt a gépi fordítási technológia a fordítók számára?
A fordítók munkáját számos gépi erőforrás segíti. Ezek közül a legegyszerűbb a fordítómemória, amely a korábbi fordítások újrahasznosítását teszi lehetővé. A fordítók használnak terminológiai adatbázist is, amely azt segíti elő, hogy a fordítás szóhasználata egységes és a megrendelő igényeinek megfelelő legyen.
A gépi fordítás egy ezek közül: akkor hasznos, ha a fordítást fel kell gyorsítani, ám nem áll rendelkezésre elegendő korábbi, "újrahasznosítható" fordítás.
Ma már gyakori az a munkafolyamat, amikor a lefordítandó tartalmat gépi fordítással készítik elő, a fordító pedig ezeket a gép által ajánlott fordításokat ellenőrzi és javítja ki. Ez ugyanakkor jelentősen megváltoztatta a fordítók munkakörülményeit, és ehhez még a fordításvásárlóknak, a fordítóirodáknak és maguknak a fordítóknak is alkalmazkodniuk kell.
A gépi fordítás minősége sokszor még ma sem eléggé jó ahhoz, hogy egyfajta utószerkesztéssel ki lehessen javítani. Ilyenkor a fordítónak újra kell fordítania az adott részt, ami időveszteséget jelent, ha előtte még arra is rá kell jönnie, hogy a gép által ajánlott fordítás most épp nem elég jó. Ezért arra is létezik – természetesen mesterséges intelligenciára épülő – technológia, hogy megbecsülje: az adott helyzetben lehet-e elég jó automatikus fordításra számítani, vagy lásson neki máris a fordító.
Túlzás azt állítani, hogy a nagy nyelvi modellek forradalmat hoztak a gépi fordítás terén, vagy valóban hatalmas minőségi ugrás következett be az LLM-eknek köszönhetően? Hogyan teszik jobbá, hatékonyabbá a nagy nyelvi modellek a gépi fordítási programokat?
Röviden: igen, túlzás – és forradalomról nem beszélhetünk, többek között azért, mert az úgynevezett neurális gépi fordítás (NMT) már 2014 óta meglepően jó eredményeket ad. Ha figyelembe vesszük, hogy a nagy nyelvi modellek ugyanarra a technológiára, ugyanazokra a matematikai alapokra épülnek, mint az NMT, ez nem is annyira meglepő.
Ugyanakkor nagy nyelvi modelleknek igenis van szerepük a fordításban.
Általában ők maguk is tudnak fordítani, bár az NMT-modellek sokszor még mindig jobbak. Az LLM-ek azonban sokkal hasznosabbak a fordítás utófeldolgozásakor, mert sokféle feladatot lehet nekik adni. Meg lehet őket kérni arra, hogy javítsák ki a fordítást az ügyfél igényeinek megfelelően, írják át a fordítást tegezőről magázóra, vagy igazítsák át az újrahasznosított, ám nem teljesen pontos fordítást, hogy megfeleljen az épp fordítandó tartalomnak. Ezek sokszor monoton, lélekölő feladatok, és épp ezek nagy részét vehetik le a fordító vagy a lektor válláról az LLM-ek (ez nagy segítség lett volna, amikor – húsz évvel ezelőtt – kiadói lektorként is dolgoztam).
Ez azonban nem változtat a lényegen: az LLM-nek továbbra sincs fogalma a minőségről; nincs kapcsolata a külvilággal, ezért nem tudhatja, hogy a fordítás tartalmilag megfelelő-e; és ami a legfontosabb, nem képes felelősséget vállalni a kimenetért. Annyira tud jó eredményt adni, amennyire a tanítóadata lehetővé teszi. Röviden ez azt jelenti, hogy hibázhat, és hibázik is, méghozzá a legváratlanabb helyzetekben: ezért a végső szót ilyenkor is az embernek kell kimondania.
Hogyan tudják kihasználni a fordítók az MI-ben rejlő lehetőségeket a fordítás során?
Mivel az LLM-eknek sokféle feladatot lehet adni, használhatók a fordítás előkészítése és utógondozása során is. Meg lehet kérni őket arra, mutassák meg a fontosabb terminológiai elemeket, adjanak jelzést, ha hibát gyanítanak a fordításban (vagy épp a forrásszövegben), és használhatók az újrahasznosított fordítások (a fordítómemória-találatok) átigazítására is, amint korábban említettük.
Fontos azonban ügyelni az LLM-ek felelős használatára: mielőtt pl. a ChatGPT-nél rákérdezünk az aktuális fordítanivaló valamilyen problémájára, ellenőrizzük, hogy az ügyféllel kötött titoktartási szerződésünk ezt megengedi-e (és ezt lehetőleg ne a ChatGPT-től kérdezzük meg). Azt is érdemes tudni, hogy az LLM-ek nem működnek egyformán jól minden nyelven, mert ez attól függ, az adott nyelven mennyi és milyen minőségű tanítóadatot kaptak.
Az LLM kezelésében a megfelelő promptok, azaz utasítások kiválasztása kulcsfontosságú, de néha nem is olyan egyszerű. Meg kell tanulni úgymond az "MI nyelvén beszélni" a fordítóknak vagy az alkalmazása könnyen és intuitív módon működik a fordítás terén?
Általában elmondhatjuk, hogy a promptképzést tanulni és gyakorolni kell. Az LLM-eknek adott "valódi" promptok nem olyan egyszerűek, mint amilyeneket a ChatGPT-vel folytatott párbeszédekben látunk. Amikor a ChatGPT-től kérdezünk valamit, egy előfeldolgozó modul először szétszedi a kérdésünket, a weben kikeres bizonyos kifejezéseket, majd összeállít egy hosszú és bonyolult promptot, amelyben a webes keresés eredménye és számos más részletes instrukció szerepel – csupa olyan, amit a felhasználó nem írt be az eredeti kérdésében. Az átlagfelhasználó ritkán kerül olyan helyzetbe, hogy közvetlenül adjon promptot az LLM-nek – az mindig valamilyen alkalmazáson keresztül történik, amely feldúsítja a kérdést, és más rendszerekben való keresésen keresztül további alapadatokat ad a prompthoz. Ez utóbbit nevezik különben visszakeresés-alapú generálásnak (RAG).
Összefoglalva: a "promptmérnökség" valódi szakma, tanulni kell, de az átlagfelhasználó ritkán van kitéve annak, hogy közvetlenül kelljen promptot adnia egy nyelvi modellnek.
Ezért nem kell mindenkinek "promptmérnöknek" lennie.
Milyen újdonságot hoz a memoQ fordítástámogató rendszerében a nemrégen felvásárolt globalese by memoQ?
A globalese by memoQ olyan gépi fordítási rendszer, amely az ügyfélre szabott tanítóadatokból állít össze ügyfélre szabott modellt,
ugyanakkor LLM-mel utógondozott fordításokat is vissza tud adni, csökkentve az utólagos javításhoz szükséges időt.
A globalese by memoQ jóvoltából a memoQ fordításkezelő rendszer a fordítás automatizálásának teljes spektrumát fel tudja kínálni, anélkül hogy külső rendszert kelljen igénybe vennie: teljesen kézi fordítást, teljesen automatikus fordítást, és természetesen a számtalan köztes megoldást is. A memoQ erőforráskezelő rendszere pedig képes lesz (és nagyrészt már ma is képes) arra, hogy kiválassza az adott helyzetben legjobb megoldást.
A jövőben igyekszünk szorosan integrálni a globalese by memoQ-ot a memoQ fordításkezelő rendszerben meglevő erőforrásokkal (fordítómemóriákkal, LiveDocs-korpuszokkal stb), hogy az ügyféladatokra épülő újratanítás és LLM-alapú javítás minél zökkenőmentesebb, lehetőleg észrevehetetlen legyen. (Az ügyféladatokból természetesen az ügyfél birtokában levő modellt tanítjuk újra, azokat nem keverjük össze más ügyfelek adataival.)
Hogyan kapcsolódik a globalese by memoQ az AGT-hez (Adaptive Generative Translation), és mit tart Ön a globalese legfontosabb vagy érdekesebb funkciójának?
A globalese és a memoQ AGT különböző helyzetekben használható: a memoQ AGT olyankor a leghasznosabb, amikor "hagyományos" erőforrásokból (fordítómemóriából, LiveDocs-korpuszból) érkező találatokat kell feljavítani. Ezzel szemben a globalese by memoQ akkor is hatékony, amikor nem állnak rendelkezésre megfelelő erőforrások, vagy az ügyfélnek egyáltalán nem áll rendelkezésére a memoQ fordításkezelő rendszer.
A globalese legértékesebb funkciója az, hogy hatékonyan működik akkor is, ha korlátozott mennyiségű adat áll rendelkezésre, illetve amikor az ügyfél nem fordulhat felhős rendszerekhez. A szigorodó információbiztonsági előírások miatt arra számítunk, erre a jövőben még több igény lesz.
Ön szerint mit hozhat még a jövő a gépi fordítási technológia területén, és milyen újabb fejlesztéseket terveznek a memoQ háza táján?
A gépi fordítási technológia körül a mérnököknek talán az a legfontosabb feladatuk most, hogy csökkentsék a modellek adat- és energiaigényét, mert a jelenlegi technológia nem fenntartható – különösen akkor nem, ha az igény folyamatosan növekszik, a jó minőségű, ember által ellenőrzött tanítóadatok köre pedig egyre szűkül. Látunk már törekvést erre: jelentek meg pl. AI-segédprocesszorok, amelyek csökkentik a modellek működtetésének energiaigényét, és mi magunk is dolgozunk olyan gépi fordítási modelleken (és remélhetőleg hamarosan nyelvi modelleken is), amelyek kevés adatból is sokat hoznak ki.
A közeljövőben tehát arra számítok, hogy hatékonyabbá válik a meglevő technológiák üzemeltetése, és kialakul a működtetésükkel kapcsolatos gyakorlat.
A gépi fordítás világában egyelőre uralkodó marad az NMT és az LLM együttes használata, illetve az LLM-ek használata a fordítások előkészítésében és utógondozásában. Nem számítok arra, hogy az LLM-ekből egyszer csak Star Trek-féle "univerzális fordító" lesz: a mostani technológiát zsákutcának tartom – ha az a cél, hogy általános mesterséges intelligenciát hozzunk létre. A mostani modellekkel nem tartok valószínűnek újabb jelentős áttörést.
A memoQ-nak az ügyfél – a memoQ fordításkezelő rendszert használó szervezet és a memoQ fordítási környezetet használó fordító – a legfontosabb, ezért minden jövőbeli fejlesztés azt a célt szolgálja, hogy a felhasználó a lehető legjobban tudja birtokolni a fordítással kapcsolatos tevékenységét, adatait, vállalkozását. A vállalati felhasználók – az üzleti igényeiknek megfelelően – választhatnak a fordítástechnológiai ipar legnagyobb felhős infrastruktúrája vagy a helyben telepített kiszolgáló közül. Az egyéni fordítók számára pedig továbbra is az iparág vezető fordítási környezetét nyújtjuk.
Dolgozunk a felhasználói élmény "áramvonalasításán", az alapműveletek egyszerűsítésén, és készülünk arra a világra, amelyben már az összes vagy majdnem az összes művelet webes felületen zajlik.
A cikk elkészítésében együttműködő partnerünk volt a memoQ, a világ egyik vezető fordítástámogató szoftverének készítője.