A Verskorpuszról Palkó Gábor, az ELTE Digitális Bölcsészet Tanszék egyetemi docense beszélt a Tudás.hu-nak – ezt foglaljuk össze röviden az alábbiakban. Kezdjük az elején: a korpusz egy nyelvészeti szakkifejezés, és egy adott nyelv adott időpontban használt változatára vonatkozó szövegek összességét jelenti. Ezeket a korpuszokat betáplálhatjuk egy számítógépbe, és ezek vizsgálatával olyan mintázatok felismerésére nyílik mód, melyek a korábbi, spekulatív jellegű nyelvészeti modellek előtt rejtve maradtak. Olyan kutatások, melyek számítógép segítségével dolgoztak fel hatalmas mennyiségű, összegyűjtött, természetes nyelvi szöveget, már a hatvanas évek óta léteznek – hazánkban ilyen a Magyar Nemzeti Szövegtár. A Verskorpusz alapelve pedig megegyezik az előbbivel, csak természetes nyelvi szövegek helyett költői életműveket használ fel, célja pedig a magyar költészet nyelvét reprezentáló szöveggyűjtemény létrehozása, majd ezt gépi úton felcímkézni, és a keresésekkel rejtett mintázatokat feltárni. Annyiban nem újdonság ez sem, hogy a csehek már egy évtizede végeznek hasonló kísérleteket.
A magyar Verskorpuszban eddig 45 költő életművét dolgozták fel, és jelenleg a várólistán Radnóti Miklós és Juhász Gyula szerepelnek. Palkó Gábor elmondása alapján a kiválasztás szempontjai a következők voltak: a versek forrásai a Magyar Elektronikus Könyvtár számos, szerzői jogi védelem alatt már nem álló költői életművek (mivel arra is szükség volt technikai szempontból, hogy a digitális szövegek megfelelő formátumban és jó minőségben álljanak rendelkezésre), a másik szempont pedig az volt, hogy az adott költő az iskolai kánonhoz tartozik-e. A docens elismeri, hogy ennek hátránya, hogy így a szerzők döntő többsége férfi – mivel a nemi arányok a NAT-ot tükrözik, de a remények szerint épp a Verskorpusz további építése akár a kánon átrendeződéséhez is vezethet.
Ami a mesterséges intelligencia szerepét illeti, Palkó szerint ezek bár rendkívül komplex szoftverek, de (elsősorban a magyar nyelv egyedisége és összetettsége okán) ezek kevésbé hatékonyan működnek nyelvünk esetén. A helyzetet orvosolandó jött létre 2020-ban az ELTE vezetésével a Digitális Örökség Nemzeti Laboratórium, amely a mesterséges intelligencia eszközeinek hatékonyságát és elterjedtségét kívánja előmozdítani, és ennek első lépése a most szóban forgó Verskorpusz. Ez utóbbi „motorja” egyébként a Nyelvtudományi Intézetben fejlesztett e-magyar program, amely segítségével automatizált módon meg tudjuk adni a versekben szereplő szavak szótári alakját, szófaját és morfológiai jellemzőit. A mintázatok létrehozására pedig gyakorisági listákat is létrehoz a szoftver, így gyorsan összeálltható például a költők által használt leggyakoribb főnevek listája, de az is látható, hogy a hazai költészetben miként változott meg a jelen és múlt idejű igék aránya, vagy épp a megszólítás, a második személyű igealakok használati gyakorisága. De a szoftver a hangzásjellemzőket is figyelembe veszi, így akár a sorok időmértékes ritmusképletét is ellenőrizhetjük.
Április 11-e van, József Attila születésnapja, egyben a magyar költészet napja, és a Verskorpusz József Attila életművét is tartalmazza – egész pontosan a költő 585 verse tanulmányozható. Az életművel kapcsolatban pedig több érdekesség is kiderült: József Attila verseiben több mint 10 ezer szó szótári alakjára visszavezethető 61 ezer szóalak fordul elő, és a költő a létige és a „tud” ige után a „szeret” igét szerepeltette a leggyakrabban – összesen 179 alkalommal. Ugyanakkor a „tepsi” és a „harkály” szavak egyaránt mindössze egyszer szerepeltek az életműben.
Habár a verskorpusz összetett eszköz, és az alaposabb használatához egy gyors kipróbálás alapján nem árt némi irodalmi és nyelvészeti előképzettség, és bevallottan inkább kutatóknak és egyetemi hallgatóknak készült, viszont a docens szerint szerephez juthat akár egy középiskolai irodalomóra vagy verselemzési feladat keretében. Palkó a Molnár Gábor Tamás vezetésével működő Digitális Írástudás és Irodalomoktatás Kutatócsoport kvantitatív vizsgálataira hivatkozik, melyek alapján „az irodalomórán az interaktív digitális eszközök használata növeli a diákok bevonásának lehetőségét, a motivációt, illetve elősegíti az irodalmi szöveg értelmezését.”
A Docens azt is hozzátette, hogy az említett, Digitális Írástudás és Irodalomoktatás Kutatócsoport a magyartanárok képzésébe is beépítené ezeket a fejlesztéseket méghozzá több módon is: akkreditált tanártovábbképzés, iskolai kísérleti órák, kvantitatív és kvalitatív vizsgálatokat lefolytatása, tanulmányköteteket publikálása. Palkó beszélt a fejlesztések jövőjéről is, elmondása alapján ez a „már említett, kánontágító bővítésen túl a mind komplexebben elemezhető poétikai jellemzők: strófaszerkezetek, ütemhangsúlyok, szimultán verselés irányába mutat. A szóbeágyazások és a neurális hálózatok új gépi tanulási technológiái olyan területekre is utat nyithatnak – mint például a költői alakzatok gépi elemzése –, melyek a régebbi, szabályalapú eljárások idején még elképzelhetetlenek voltak.”
(Kép: József Attila Múzeum, forrás: Flickr/chalkahlom)
Melyik a világ legfiatalabb nyelve? Eszperantó, afrikaans, tünde? Vagy valami egészen más?