Óriási fordulat jön a Wikipédiás szócikkeresőnél

2019 / 11 / 10 / Perei Dóra
A Wikipédia és az Internet Archive közösen szeretnék elérni, hogy az online enciklopédia szócikkeiből eltűnjenek a nem létező hivatkozások.

A Wikipédia egyik legnagyobb hátulütője a szócikkek elavulása: 2013-as adatok szerint az online lexikonban a hivatkozások fele nem elérhető, az oldalt működtető Wikimédia Alapítványnak pedig nincs kapacitása az összes szócikk rendszeres ellenőrzésére. Ez nem is meglepő, hiszen a Wikipédia adatai szerint a lexikonban 304 nyelven összesen több mint 50 millió szócikket találunk, ennyi bejegyzést pedig még a többé vagy kevésbé aktív 77 millió szerkesztő sem tud folyamatosan gondozni.

A probléma nem elhanyagolható, hiszen a Wikipédiát egyre többen használják nem csak tájékozódásra, de kutatómunkára is, márpedig az elavult linkek között szép számmal megtalálhatók hivatalos szervek hivatkozásai, például legfelsőbb bírósági határozatok is. A helyzet megoldása érdekében a Wikipédia az Internet Archive-val közösen próbál lépéseket tenni, akiknek munkatársai és automatizált algoritmusai felkutatják a szócikkek könyves hivatkozásait, majd digitálisan hozzáférhető példányok linkjeire cserélik a forráslinkeket. Munkájuk eredményeképpen az elmúlt három évben több mint kilencmillió elavult vagy nem létező oldalra mutató linket állítottak helyre.

Az Internet Archive 1996 óta őriz másolatokat weboldalakról, így gyűjteménye már elérte a 338 milliárd archív oldalt. A szervezet az elmúlt öt évben azon dolgozott, hogy a Wikipédiához tartozó 300 különböző oldalon URL hivatkozást archiváljon a linkek hozzáadásakor vagy megváltoztatásakor. Heti lebontásban ez körülbelül húszmillió URL-t jelent.

A digitális enciklopédia nemrég újabb lépést tett afelé, hogy felvegye a versenyt a hagyományos lexikonok hitelességével, mivel a felhasználók ezentúl hozzáférést kapnak az Internet Archive Wayback Machine nevű könyvarchívumához is. Ez a gyakorlatban annyit tesz, hogy ha egy könyves hivatkozáshoz digitalizált példány kapcsolódik, akkor annak linkje megjelenik a források közt, ha pedig konkrét oldalszámot is megadtak, a hivatkozás automatikusan a keresett oldalra visz. A módszerrel mostanáig 50 ezer könyvre mutató 130 ezer hivatkozást helyeztek el a szócikkekben.

A linkelést emberek és algoritmusok végzik közösen, az új hivatkozások viszont egyelőre csak az angol, görög és arab szócikkekre vonatkoznak. Ha a felhasználó a teljes könyvre kíváncsi, két hétre kikölcsönözheti a Controlled Digital Lending (CDL) szolgáltatáson keresztül, ami pont úgy működik, mint egy klasszikus könyvtár: van olvasójegy, és előjegyzést is kérhetünk, ha éppen kivették a keresett könyvet. A két szervezet folyamatosan bővíti a hivatkozások körét a szócikkekben, illetve könyvek szkennelését is tervezik, amit adományokból finanszíroznának.

Az Internet Archive célja, hogy a következő években négymillióra emeljék a digitalizált könyvek számát, amiből jelenleg 3,8 milliónál tartanak, a példányok száma pedig naponta tízezerrel emelkedik. Mindemellett a Wikipédiához tartozó InternetArchiveBot (IABot) nevű program négy éve kutatja a hibás linkeket a webes archívumban, ha pedig talál egyet, akkor megkeresi annak megfelelőjét az archívumhoz tartozó Wayback Machine rendszerben. Az IABot ezután kicseréli az elavult linket működő hivatkozásra. Életbe lépése óta több mint hatmillió 404-es külső oldalra mutató hivatkozást, míg a Wikipédia önkéntesei (manuálisan) hárommillió linket cseréltek ki. Sajnos ezzel sincs megoldva minden probléma, hiszen ha egy hivatkozás nem szűnik meg, csak a tartalma változik, a felhasználók nem tudhatják, hogy nem az eredeti tartalmat olvassák, így könnyű őket félrevezetni. Érdekesség, hogy a Wikimédia méri a külső linkekre mutató átkattintások arányát (egyelőre csak az angol nyelvű Wikipédián), melyekből az derült ki, hogy a felhasználók legnépszerűbb célforrása a Wayback Machine; naponta átlagosan 25 ezer alkalommal kattintanak át a Wikipédiáról a Wayback Machine-ra.

Hogy gyorsabban reagálhassanak az elavult hivatkozásokra, a külső forrásokat már az EventStreams szolgáltatásán keresztül ellenőrzik, az archívumot pedig a jövőben az említett digitális könyvek mellett más forrásokra (publikációkra, weboldalakra) is kiterjesztik, illetve új módszerekkel kísérleteznek, hogy a felhasználók könnyebben használhassák az archívumot és valóban hiteles információt kapjanak.

(Források: Wired, Wikimedia, Wikimedia, Wikimedia/ArchiveBot, CDL, The Atlantic, Internet Archive BlogsFotók: Unsplash, Pixabay)


Tisztelet magunk és mások felé – miért fontos kijelölni a határainkat?
Tisztelet magunk és mások felé – miért fontos kijelölni a határainkat?

A szezon eleganciája nemcsak a megjelenésen múlik, hiszen a figyelmesség, a finom gesztusok és a személyes határok tiszteletben tartása ugyanúgy a harmonikus ünnepek részei, mint egy jól megválasztott összeállítás. Akár családi vacsoráról, baráti összejövetelről vagy évzáró partiról van szó, a megfelelő kommunikáció, illetve az önazonosság megkerülhetetlen ahhoz, hogy mindenki felszabadultan érezhesse magát. A JTI protokoll- és etikett szakértője, Dr. Kibédi-Varga Katalin segít eligazodni abban, hogyan jelöljük ki határainkat úgy, hogy közben az ünnepi események könnyedek és elegánsak maradjanak.

A jövő megérkezett Fehérvárra – az ország egyik legmodernebb BYD szalonjában jártunk
A jövő megérkezett Fehérvárra – az ország egyik legmodernebb BYD szalonjában jártunk
Ha eddig azt hitted, hogy az autóvásárlás a papírmunkáról és a hónapokig tartó várakozásról szól, akkor ideje újra átgondolni. Székesfehérváron olyat mutatott az Autócentrum Szabó, ami téged is érdekelhet, ha a jövő autózását keresed.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.