Óriási fordulat jön a Wikipédiás szócikkeresőnél

2019 / 11 / 10 / Perei Dóra
A Wikipédia és az Internet Archive közösen szeretnék elérni, hogy az online enciklopédia szócikkeiből eltűnjenek a nem létező hivatkozások.

A Wikipédia egyik legnagyobb hátulütője a szócikkek elavulása: 2013-as adatok szerint az online lexikonban a hivatkozások fele nem elérhető, az oldalt működtető Wikimédia Alapítványnak pedig nincs kapacitása az összes szócikk rendszeres ellenőrzésére. Ez nem is meglepő, hiszen a Wikipédia adatai szerint a lexikonban 304 nyelven összesen több mint 50 millió szócikket találunk, ennyi bejegyzést pedig még a többé vagy kevésbé aktív 77 millió szerkesztő sem tud folyamatosan gondozni.

A probléma nem elhanyagolható, hiszen a Wikipédiát egyre többen használják nem csak tájékozódásra, de kutatómunkára is, márpedig az elavult linkek között szép számmal megtalálhatók hivatalos szervek hivatkozásai, például legfelsőbb bírósági határozatok is. A helyzet megoldása érdekében a Wikipédia az Internet Archive-val közösen próbál lépéseket tenni, akiknek munkatársai és automatizált algoritmusai felkutatják a szócikkek könyves hivatkozásait, majd digitálisan hozzáférhető példányok linkjeire cserélik a forráslinkeket. Munkájuk eredményeképpen az elmúlt három évben több mint kilencmillió elavult vagy nem létező oldalra mutató linket állítottak helyre.

Az Internet Archive 1996 óta őriz másolatokat weboldalakról, így gyűjteménye már elérte a 338 milliárd archív oldalt. A szervezet az elmúlt öt évben azon dolgozott, hogy a Wikipédiához tartozó 300 különböző oldalon URL hivatkozást archiváljon a linkek hozzáadásakor vagy megváltoztatásakor. Heti lebontásban ez körülbelül húszmillió URL-t jelent.

A digitális enciklopédia nemrég újabb lépést tett afelé, hogy felvegye a versenyt a hagyományos lexikonok hitelességével, mivel a felhasználók ezentúl hozzáférést kapnak az Internet Archive Wayback Machine nevű könyvarchívumához is. Ez a gyakorlatban annyit tesz, hogy ha egy könyves hivatkozáshoz digitalizált példány kapcsolódik, akkor annak linkje megjelenik a források közt, ha pedig konkrét oldalszámot is megadtak, a hivatkozás automatikusan a keresett oldalra visz. A módszerrel mostanáig 50 ezer könyvre mutató 130 ezer hivatkozást helyeztek el a szócikkekben.

A linkelést emberek és algoritmusok végzik közösen, az új hivatkozások viszont egyelőre csak az angol, görög és arab szócikkekre vonatkoznak. Ha a felhasználó a teljes könyvre kíváncsi, két hétre kikölcsönözheti a Controlled Digital Lending (CDL) szolgáltatáson keresztül, ami pont úgy működik, mint egy klasszikus könyvtár: van olvasójegy, és előjegyzést is kérhetünk, ha éppen kivették a keresett könyvet. A két szervezet folyamatosan bővíti a hivatkozások körét a szócikkekben, illetve könyvek szkennelését is tervezik, amit adományokból finanszíroznának.

Az Internet Archive célja, hogy a következő években négymillióra emeljék a digitalizált könyvek számát, amiből jelenleg 3,8 milliónál tartanak, a példányok száma pedig naponta tízezerrel emelkedik. Mindemellett a Wikipédiához tartozó InternetArchiveBot (IABot) nevű program négy éve kutatja a hibás linkeket a webes archívumban, ha pedig talál egyet, akkor megkeresi annak megfelelőjét az archívumhoz tartozó Wayback Machine rendszerben. Az IABot ezután kicseréli az elavult linket működő hivatkozásra. Életbe lépése óta több mint hatmillió 404-es külső oldalra mutató hivatkozást, míg a Wikipédia önkéntesei (manuálisan) hárommillió linket cseréltek ki. Sajnos ezzel sincs megoldva minden probléma, hiszen ha egy hivatkozás nem szűnik meg, csak a tartalma változik, a felhasználók nem tudhatják, hogy nem az eredeti tartalmat olvassák, így könnyű őket félrevezetni. Érdekesség, hogy a Wikimédia méri a külső linkekre mutató átkattintások arányát (egyelőre csak az angol nyelvű Wikipédián), melyekből az derült ki, hogy a felhasználók legnépszerűbb célforrása a Wayback Machine; naponta átlagosan 25 ezer alkalommal kattintanak át a Wikipédiáról a Wayback Machine-ra.

Hogy gyorsabban reagálhassanak az elavult hivatkozásokra, a külső forrásokat már az EventStreams szolgáltatásán keresztül ellenőrzik, az archívumot pedig a jövőben az említett digitális könyvek mellett más forrásokra (publikációkra, weboldalakra) is kiterjesztik, illetve új módszerekkel kísérleteznek, hogy a felhasználók könnyebben használhassák az archívumot és valóban hiteles információt kapjanak.

(Források: Wired, Wikimedia, Wikimedia, Wikimedia/ArchiveBot, CDL, The Atlantic, Internet Archive BlogsFotók: Unsplash, Pixabay)


Hello Szülő! Ha a gyereked nem tud valamit, akkor téged fog kérdezni. De ha te szülőként nem tudsz valamit, akkor kihez fordulsz?
A digitális kor szülői kihívásairól is találhattok szakértői tippeket, tanácsokat, interjúkat, podcastokat a Telekom családokat segítő platformján, a https://helloszulo.hu/ oldalon.
Hogyan válasszunk külföldi egyetemet? És mennyibe fog ez kerülni a családnak?
Hogyan válasszunk külföldi egyetemet? És mennyibe fog ez kerülni a családnak?
Repül már a vén diák. Hová? Hová?
Hogyan vélekednek a magyarok a net veszélyeiről – és kik a leginkább fenyegetettek?
Hogyan vélekednek a magyarok a net veszélyeiről – és kik a leginkább fenyegetettek?
Hogy áll a magyar lakosság generációkra bontva a kiberbiztonsághoz? – Erről szól az ESET rendkívül átfogó felmérése, amelyből olyan meglepő eredmények is kiderülnek, hogy kik a romantikus csalások legfőbb célpontjai, miközben az adott csoport nem is nagyon ismeri ezt a fenyegetést.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.