Óriási fordulat jön a Wikipédiás szócikkeresőnél
Óriási fordulat jön a Wikipédiás szócikkeresőnél
2019 / 11 / 10 / Perei Dóra
A Wikipédia és az Internet Archive közösen szeretnék elérni, hogy az online enciklopédia szócikkeiből eltűnjenek a nem létező hivatkozások.

A Wikipédia egyik legnagyobb hátulütője a szócikkek elavulása: 2013-as adatok szerint az online lexikonban a hivatkozások fele nem elérhető, az oldalt működtető Wikimédia Alapítványnak pedig nincs kapacitása az összes szócikk rendszeres ellenőrzésére. Ez nem is meglepő, hiszen a Wikipédia adatai szerint a lexikonban 304 nyelven összesen több mint 50 millió szócikket találunk, ennyi bejegyzést pedig még a többé vagy kevésbé aktív 77 millió szerkesztő sem tud folyamatosan gondozni.

A probléma nem elhanyagolható, hiszen a Wikipédiát egyre többen használják nem csak tájékozódásra, de kutatómunkára is, márpedig az elavult linkek között szép számmal megtalálhatók hivatalos szervek hivatkozásai, például legfelsőbb bírósági határozatok is. A helyzet megoldása érdekében a Wikipédia az Internet Archive-val közösen próbál lépéseket tenni, akiknek munkatársai és automatizált algoritmusai felkutatják a szócikkek könyves hivatkozásait, majd digitálisan hozzáférhető példányok linkjeire cserélik a forráslinkeket. Munkájuk eredményeképpen az elmúlt három évben több mint kilencmillió elavult vagy nem létező oldalra mutató linket állítottak helyre.

Az Internet Archive 1996 óta őriz másolatokat weboldalakról, így gyűjteménye már elérte a 338 milliárd archív oldalt. A szervezet az elmúlt öt évben azon dolgozott, hogy a Wikipédiához tartozó 300 különböző oldalon URL hivatkozást archiváljon a linkek hozzáadásakor vagy megváltoztatásakor. Heti lebontásban ez körülbelül húszmillió URL-t jelent.

A digitális enciklopédia nemrég újabb lépést tett afelé, hogy felvegye a versenyt a hagyományos lexikonok hitelességével, mivel a felhasználók ezentúl hozzáférést kapnak az Internet Archive Wayback Machine nevű könyvarchívumához is. Ez a gyakorlatban annyit tesz, hogy ha egy könyves hivatkozáshoz digitalizált példány kapcsolódik, akkor annak linkje megjelenik a források közt, ha pedig konkrét oldalszámot is megadtak, a hivatkozás automatikusan a keresett oldalra visz. A módszerrel mostanáig 50 ezer könyvre mutató 130 ezer hivatkozást helyeztek el a szócikkekben.

A linkelést emberek és algoritmusok végzik közösen, az új hivatkozások viszont egyelőre csak az angol, görög és arab szócikkekre vonatkoznak. Ha a felhasználó a teljes könyvre kíváncsi, két hétre kikölcsönözheti a Controlled Digital Lending (CDL) szolgáltatáson keresztül, ami pont úgy működik, mint egy klasszikus könyvtár: van olvasójegy, és előjegyzést is kérhetünk, ha éppen kivették a keresett könyvet. A két szervezet folyamatosan bővíti a hivatkozások körét a szócikkekben, illetve könyvek szkennelését is tervezik, amit adományokból finanszíroznának.

Az Internet Archive célja, hogy a következő években négymillióra emeljék a digitalizált könyvek számát, amiből jelenleg 3,8 milliónál tartanak, a példányok száma pedig naponta tízezerrel emelkedik. Mindemellett a Wikipédiához tartozó InternetArchiveBot (IABot) nevű program négy éve kutatja a hibás linkeket a webes archívumban, ha pedig talál egyet, akkor megkeresi annak megfelelőjét az archívumhoz tartozó Wayback Machine rendszerben. Az IABot ezután kicseréli az elavult linket működő hivatkozásra. Életbe lépése óta több mint hatmillió 404-es külső oldalra mutató hivatkozást, míg a Wikipédia önkéntesei (manuálisan) hárommillió linket cseréltek ki. Sajnos ezzel sincs megoldva minden probléma, hiszen ha egy hivatkozás nem szűnik meg, csak a tartalma változik, a felhasználók nem tudhatják, hogy nem az eredeti tartalmat olvassák, így könnyű őket félrevezetni. Érdekesség, hogy a Wikimédia méri a külső linkekre mutató átkattintások arányát (egyelőre csak az angol nyelvű Wikipédián), melyekből az derült ki, hogy a felhasználók legnépszerűbb célforrása a Wayback Machine; naponta átlagosan 25 ezer alkalommal kattintanak át a Wikipédiáról a Wayback Machine-ra.

Hogy gyorsabban reagálhassanak az elavult hivatkozásokra, a külső forrásokat már az EventStreams szolgáltatásán keresztül ellenőrzik, az archívumot pedig a jövőben az említett digitális könyvek mellett más forrásokra (publikációkra, weboldalakra) is kiterjesztik, illetve új módszerekkel kísérleteznek, hogy a felhasználók könnyebben használhassák az archívumot és valóban hiteles információt kapjanak.

(Források: Wired, Wikimedia, Wikimedia, Wikimedia/ArchiveBot, CDL, The Atlantic, Internet Archive BlogsFotók: Unsplash, Pixabay)

Ismerd meg a ROADSTER magazint!
AUTÓK - DESIGN - GASZTRO - KULT - UTAZÁS - TECH // Ha szereted a minőséget az életed minden területén, páratlan élmény lesz!
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.