Új módon használja fel az MI eszközeit a profi fordításokhoz a memoQ

2023 / 11 / 21 / Támogatott Tartalom

#MI #mesterséges intelligencia #ai #szponzorált tartalom

Új módon használja fel az MI eszközeit a profi fordításokhoz a memoQ

Idén novemberben a mesterséges intelligenciát választotta az Év szavának a brit Collins szótárak kiadója, az indoklásban pedig külön kiemelték a nagy nyelvi modelleket is, amelyek mindenki számára hozzáférhetővé tették az MI-t. Rengeteg hírt, jóslatot, félreértést, és kommentárt láttunk, olvastunk 2023-ban, ezért leültünk beszélgetni Kis Balázzsal, a memoQ társalapítójával, társügyvezetőjével, akinek a cége szinte minden tudhatót tud MI és fordítástechnológia ügyében. Megtudtuk, hogyan hallucinálnak a nagy nyelvi modellek, miért fogyhat ki a számukra szükséges adatmennyiség, és azt is, hogy a közeljövőben az ember továbbra is fókuszban marad a fordítástechnológia folyamatában. Interjú.

Nemrég írt egy remek angol nyelvű összefoglalót MI-ről, gépi fordításról és nagy nyelvi modellekről. Ezt magyarból fordították géppel vagy eleve angolul írta meg?

Angolul írok: a memoQ-nál a munkatársaim mintegy harmada nem beszél magyarul, a cég munkanyelve az angol, és jellemzően mindenki tud úgy angolul írni, hogy nem kell magyarból fordítania.

A neurális háló matematikai konstrukciója már az 1940-es években létezett, a második világháború után pedig az akkori legjobb szakértők úgy gondolták, könnyen eljutunk a gépi fordításig – írja az említett blogposztban. Ehhez képest a neurális gépi fordítást (Neural Machine Translation, NMT) csak 2015-ben vezették be. Miért tartott ilyen hosszú ideig az út?

A neurális háló és a gépi fordítás gondolata már Alan Turing korában is létezett – aki maga is részt vett gépi fordítással kapcsolatos kísérletekben –, de a kettő külön vágányon haladt egészen a 2010-es évekig. A gépi fordítást először szabály alapon, algoritmusokkal, szinte logikai úton próbálták meg programozni, ugyanakkor az emberi gondolkodás folyamatainak modellezésére, tanulási folyamatokra és bizonyos számítási feladatok megkönnyítésére már a negyvenes években kidolgozták a neurális háló modelljét. Ez azonban tisztán elmélet volt, mert nem létezett az a számítástechnikai kapacitás, amivel meg lehetett volna valósítani. Csak 2005-2006 óta tudják, hogyan lehet hatékonyan számítógépre vinni egy komplex neurális hálót, addig nem volt egyszerű.

Miért jelent minőségi különbséget a neurális háló a statisztikai gépi fordításhoz képest?

A minőségi különbségnek sok összetevője van; aki számítógéppel dolgozik, valószínűleg tudja, milyen volt a Google Translate 2016 előtt és milyen lett utána, vagy milyen a DeepL. A neurális háló olyan egységekből áll, amelyek bizonyos szempontból hasonlóan működnek az emberi idegrendszer alkotóelemeihez. Mindegyiknek vannak számbeli paraméterei, amelyek a neurális háló betanításakor állnak be – a kulcs a betanítás, azaz nagy mennyiségű tartalomból be lehet tanítani egy neurális hálót, hogy milyen jellegű válaszokat adjon.

A neurális gépi fordítás és szöveggenerálás minősége a attól lesz jobb, hogy a neurális modellek sokkal többet látnak előre a szövegből, mint a statisztikai modell. Míg egy statisztikai gépi fordító három–hét szót (számot, központozási jelet, kisebb nyelvi egységet, stb.) lát előre, a ChatGPT körülbelül négyezret.

Két dologból adódik a minőségi különbség: egy neurális hálóban a „szótár” egyes elemei nagyon-nagyon sok paramétert kapnak, amelyek a statisztikai megközelítésben egyáltalán nem is léteznek. A másik ok, hogy egy neurális háló olyan mennyiségű szöveget lát át, ami már értelmes kommunikációs egység, és nem csak pár szó. A lényeg, hogy a neurális háló egy bonyolult, sok részből álló, tanítható matematikai modell.

Hogyan dolgozik a nyelvvel egy neurális háló?

A felszínen az történik, hogy a neurális háló kap valamilyen bemenetet (jellemzően egy kérdést), amit a felfogása szerint folytatnia kell. Ezért hívjuk a kérdést prompt-nak (“súgás”), a választ pedig completionnek (“befejezés”): kvázi súgok neki, és ő erre befejezi azt a szöveget. Ha kérdezem, akkor a befejezés egy válasz. Neurális háló nagyon sokféle van: adott szöveget adott témába soroló, arcokat felismerő, eldöntendő kérdésekre válaszoló. A szövegeket feldolgozó, bonyolultabb neurális hálók a nagy nyelvi modellek (large language models, LLMs). Ezek kiváló nyelvi minőségű válaszokat adnak. Ám megbízhatóan „csak” a nyelvi megformáláshoz ért: az információ, amit beletesz, lehet halandzsa, mert nem ez a szempont, hanem az, hogy a modell tudja a nyelvet. A ChatGPT-ben működő GPT-4 modell betanításához 2021 előtti szövegeket használtak, ezért maga a modell nem tartalmaz naprakész információkat.

Miben különbözik a ChatGPT a többi LLM-től?

A ChatGPT képes ténylegesen értékelhető információtartalommal bíró válaszokat adni. De a ChatGPT nemcsak nyelvi modell: arra ráépül még egy modul, amely egyfelől emlékszik a párbeszédre (az adott beszélgetési ablakon belül maradva a „magára hagyott” nyelvi modell egy választ tud adni a kérdésre, és nem emlékszik az előzményekre), másfelől válaszadás előtt szétszedi a kérdést, a lényegesnek tűnő részeket megkeresi az interneten, majd újrafogalmazza a kérdést. Kívülről ezt mi nem látjuk, de a ChatGPT felduzzasztja a promptot, valahogy úgy, hogy „ez a felhasználó kérdése, ezt az információt találtam az internneten, ezek felhasználásával fogalmazd meg a választ.” Valójában tehát a nyelvi modell nem arra a kérdésre válaszol, amelyet beírtam, helyette az általa felduzzasztott promptra kapok választ. A lényeg, hogy kapott információ nem a nyelvi modelltől, hanem az internetről jön.

Itt kell keresni a magyarázatot arra a jelenségre, amikor egy-egy területen drámaian visszaesett a ChatGPT teljesítménye, miután más területbe belenyúltak? Mintha nem nagyon lenne kontroll programozói oldalról.

Miután betanítunk egy neurális hálót, nem igazán tudjuk szabályozni, mi történik a belsejében – a modell tulajdonképpen fekete doboz. A tanítóadatok sokértelműsége olyan egybeeséseket hozhat létre, amire az ember nem számít; egyszerűen olyan mennyiségű alkotóelem van, amit az ember már nem tud átfogni, nem látja át a kölcsönhatásokat. A hallucinálás, pedig annak a következménye, hogy a neurális hálóképes korábban nem látott kapcsolatokat létrehozni. Ennek a valószínűségét a neurális háló hőmérséklet nevű paraméterével tudom szabályozni (utóbbi egy 0 és 1 közötti szám).

A neurális háló akkor hallucinál, amikor egy olyan új kapcsolat jön létre benne, amelynek a való világhoz nem sok köze van. Ez mellékhatás, elkerülhetetlen, mert a neurális háló nem érzékeli a való világot.

Neurális hálót azért építünk, hogy legyen egy olyan eszközünk , amely az emberi gondolkodást utánozva olyan kérdésekre is válaszol, amelyekkel korábban nem találkozott. A neurális hálók tanítása lényegében soha nem tekinthető befejezettnek. Mindig dobunk be újabb adatokat, és amikor így finomhangoljuk a tanítást, elromolhatnak dolgok – és el is romlanak, mivel nincs százszázalékos ellenőrzésünk sem a tanítás folyamata, sem a háló belső működése fölött.

De a nyelvi modellen nem igazságos matematikai tudást számonkérni, mert ez sohasem tartozott az elvárt funkciók vagy a betanítás fő szempontjai közé.

Ezt látom, amikor építészetről írok: az angol forrásokban a kisebb területet négyzetlábban, a nagyobbat acre-ben adják meg, ami nálunk négyzetméter, illetve hektár. Igen ám, de van váltószám, száz sf nem száz m², és száz acre sem száz hektár, hanem csak 40. Ha a nyelvi modellek folyamatosan tanulnak, fejlődnek, akkor miért nem tanulják meg ezt?

Itt muszáj megjegyeznem, hogy mi a memoQ-nál készítettünk egy LLM-re épülő technológiát, ami pont a hasonló eseteknek próbálja meg elejét venni. A memoQ fordításmenedzsment-rendszer, ami – sok más funkció mellett – azt jelenti, hogy egyfelől gyűjti, amit korábban lefordítottak (kifejezések, mondatok vagy akár komplett szövegek fordításait), és ha valami újra előfordul, akkor azt felajánlja a felhasználónak az adatbázisból. A nagy újításunk pedig az, amikor a memoQ egy nagy nyelvi modellnek mondja azt a promptban, hogy „szeretném ezt a mondatot lefordítani angolról franciára, de az korábbi fordítások között ezt és ezt találtam, kérlek vedd figyelembe, és ennek felhasználásával készítsd el a legjobb fordítást.” Erre válaszul a nagy nyelvi modell a találatokat átigazítja úgy, hogy a kapott fordítás megfeleljen az éppen fordítandónak. Ezt az új funkciót adaptive generative translationnek (memoQ AGT) neveztük el. A memoQ-nak olyan funkciója is van, mégpedig régóta, hogy észrevesz mértékegységeket, és átszámolja őket, nemcsak a nevüket fordítja le. Ilyeneket a memoQ felhasználója is be tud állítani, úgynevezett automatikus fordítási szabályok formájában. Ez azért érdekes, mert erre továbbra is szükség lesz: a nagy nyelvi modellek ugyanis nem tudnak jól számolni (betanításkor nem matematikát tanulnak, hanem nyelvet). Egy LLM-től nem lehet elvárni, hogy felismerje a matematikai, számszaki összefüggéseket, ez nincs benne a munkaköri leírásában. Ha véletlenül mégis helyesen számol ki valamit vagy ismer fel egy összefüggést, az a betanítás mellékhatása.

Mi a helyzet a szaknyelvekkel, a speciális tudással? Ezt is tanulja az MI?

Strukturáltan nem tanulja. Akkor tanulja, ha történetesen benne van a szövegben, amiből tanítják, de nem kapcsolja össze a szaktudással. Ha a tanítóadatban következetesen használták, akkor ő is következetesen használja majd a kimenetében, de nem azért, mert ért a szaknyelvhez (vagy a szakmához): számára ez csak része a nyelvi adatnak, amit kapott. Ha nagyon speciális tudást szeretnél viszontlátni, akkor azt egy külső rendszerben (például az interneten) meg kell keresned, utána beépítheted a promptba.

Hogyan lehet versenyképes a Szilícium-völgy cégeivel egy magyar fejlesztés? Milyen speciális képességei vannak a memoQ-nak?

Mi nem készítünk gépi fordító rendszert, nem készítünk nagy nyelvi modellt, ezt rábízzuk azokra, akiknek sokkal több adatuk van. Viszont időről időre kitalálunk alkalmazásokat, amelyen az említett memoQ AGT is, és ezekben új módon használjuk fel a mesterséges intelligencia eszközeit. Ehhez nem kell szilícium-völgyi cégnek lenni – bár ők se csinálnának nagyon mást, mint mi. Mivel az LLM-ek első működését nehéz átlátni vagy irányítani, sok esetben nem tudjuk, hogyan fognak viselkedni, ezért a legtöbb szakember sötétben tapogatózik, ha az a kérdés, hogy ezeket a rendszereket hogyan lehet a leghatékonyabban felhasználni. Amikor egy szakma ennyire gyerekcipőben jár, akkor nem annyira nehéz olyan új és jó ötletekkel előrukkolni, amik aztán később elterjednek, szakmai és üzleti sikert hoznak. A közel húszéves memoQ azért van jó helyzetben, mert olyan rendszert épített, amely kifejezetten az ember által létrehozott nyelvi adatok gondozására szolgál. Úgy segít különböző cégeknek, intézményeknek, profi fordítóknak, magánszemélyeknek fordítást előállítani, hogy az konzisztens legyen a céges/intézményi nyelvezettel és szabályokkal, jó minőségű legyen – evégett beépítettünk különböző minőségbiztosítási funkciókat is –, és nem utolsósorban háromféle nyelvi adatbázist is tud kezelni. A fordításmenedzsment-rendszerek az MI tanítása, felhasználása szempontjából nagyon jó helyzetben vannak, mert a fordításmenedzsment-rendszer tonnaszámra tartalmaz autentikus, jó minőségű, ember által jóváhagyott többnyelvű adatot. Nálunk, pontosabban a felhasználóinknál van az adatforrás, amiből különösen szakmai felhasználásra értelmesen lehet MI-t (és azon belül neurális gépi fordítást és/vagy LLM-et) tanítani.

Mi pontosan a különbség a neurális gépi fordítás és az LLM között?

A kettő matematikailag nagyon közel áll egymáshoz, csak az LLM-et univerzálisabb célra alkották, és sokkal bonyolultabb, sokkal több alkotóeleme van, mint a neurális gépi fordításnak. Mivel az utóbbit kimondottan fordításra tanították, nagyon sok esetben fordítási feladatokra alkalmasabb, mint a nagy nyelvi modell, már ha a nagy nyelvi modellnek csak annyit mondasz, hogy „fordítsd le ezt”. Ha már beleteszel adatot a promptba, például így: „ezt a korábbi fordítást és ezeket a kifejezéseket használd, és úgy fordíts”, akkor már fordulhat a kocka. De ha pusztán fordításra kérjük, a neurális gépi fordítás egyelőre jobb, különösen ha alulreprezentált, erőforrásokkal nem gazdagon rendelkező nyelvről vagy nyelvre fordítasz. Az LLM-et ugyanis sok különböző nyelvű, de nem párhuzamosított adatból tanítják (nemcsak fordításokból). Ennek az a következménye, hogy a nyelvi modellt nyelvenként nagyon eltérő mennyiségű szövegből tanítják.

Ezért egy LLM sokkal jobban fordít angolról franciára, mint mondjuk magyarról mongolra.

Ezzel szemben a neurális gépi fordító rendszereket csak kimondottan fordításokból lehet tanítani, vagyis mindennek van fordítása, amit beletesznek egy forrásnyelven. Ha tehát szakmai fordításra használom, akkor az angol-francia nyelvpárból ugyanannyi szöveg kerül bele, mint a magyar-mongolból, azaz sokkal kiegyenlítettebb lesz a teljesítménye a tanításkor felhasznált nyelvpárokban.

Kifogyhatunk-e az LLM tanításához szükséges adatokból?

Egy nyelvi modell tanításához embertől származó szöveges adatot kell felhasználni, azokat megfelelően annotálni kell, ami szintén sok munka, végül biztosítani kell, hogy jogtisztán lehessen felhasználni. Az ember által létrehozott, jó minőségű szövegek halmaza pedig véges, és a nyelvi modellek adatigénye mára összemérhető az emberiség számára rendelkezésre álló szövegmennyiséggel. Ráadásul évekig tart ilyen mennyiségű adattal előtanítani egy LLM-et. Nem véletlen, hogy a ChatGPT alapjául szolgáló GPT-4 tanítását 2021-ben befejezték, azóta legfeljebb finomhangolják. Ennek a finomhangolásnak lehet egyébként a része, hogy úgy tűnik, a ChatGPT elfelejtett számolni, bár sokkal valószínűbb, hogy soha nem is tudott. (Az interjú készítése óta jött a hír, hogy az OpenAI – a ChatGPT és a GPT-4 fejlesztője – hivatalosan is elkezdett dolgozni a GPT-5-ön, és olyan felhívást is közzétett, amelyben a publikumtól adatközlést kér.)

A hasonló csapdák viszont a memoQ-kal elkerülhetőek. Milyen ügyfelek igénylik a szolgáltatásaikat?

Prémium fordítást igénylő ügyfeleink vannak, akinek nagyon fontos a fordítás minősége, mert következménye van: gyógyszeripari cégek, orvosi műszert gyártók, pénzügyi, ügyvédi irodák, intézmények, autógyártók, de a játékfejlesztők is nagyon szeretik a memoQ-ot, többnyire globális cégek. És ha már a következmények szóba kerültek:

ezeken a területeken a hibás fordítás emberéletekbe kerülhet, tehát az embert nem lehet kihagyni a képletből.

És nem lehet kihagyni a fordítási folyamatból sem: folyamatosan nő a fordítandó tartalom mennyisége, miközben nem enyhült a nyomás, hogy olcsóbban és gyorsabban fordítsunk le mindent. Az új technológia, amellyel az LLM-et úgy kapcsoljuk be a fordításba, hogy felhasználjuk a fordításmenedzsment-rendszer gazdájának korábbi fordításait – méghozzá betanítási igény nélkül –, szerintünk a gépi fordítás új útja. Fordulóponthoz értünk: sok olyan kérdés van az iparágban, ami bizonytalanná teszi, merre tartunk pontosan. Egy biztos: az LLM-et igénylő profi felhasználók fogják kideríteni, mire lehet használni az új technológiát – és mire nem.

Vagyis az emberi munkára továbbra is szükség lesz a fordításhoz?

A belátható jövőben mindenképpen. Nagyon fontos, hogy az LLM csak a nyelvet tudja – meg tud fogalmazni egy szöveget – de naprakész információja, speciális tudása nincs, a formális logikát nem érti, számolni nem tud, és nincs közvetlen kapcsolata a való világgal. Továbbá, hacsak nem az erőforrásokkal legjobban ellátott nyelveket használod, akkor a szöveg folyékonyságával is lehetnek problémák. Lesznek olyan esetek, amikor a nyelvi megformálás folyékonynak látszik, de nem érthető.

Továbbra is szükség van az ember szövegírási, fordítási tudásának minden rétegére ahhoz, hogy ezeken a szövegeken javítani tudjon, mert ezeket nehezebb javítani, mint a régi, rosszabb gépi fordításokat.

Ugyanakkor muszáj javítani, mert a gép nem lett kreatív az LLM-től. Ellenben az író munkája gyorsabbá és tervezhetőbbé válik, mert az LLM-nek az ismétlődő, gépies feladatok láttán a szeme sem rebben. De a gépnek nincs személyisége, nem ismeri a külvilágot, így felelőssége sincs – vagyis az embernek minden betűt el kell olvasnia.

A cikk elkészítésében együttműködő partnerünk volt a memoQ, a világ egyik vezető fordítástámogató szoftverének készítője.

(Fotó: memoQ, Unsplash)