Testwiki:Sammenligning Caplex – Wikipedia
Sammenligning Caplex – Wikipedia prøver å visualisere problemene med en direkte sammenligning mellom disse to oppslagsverkene. Det er tatt et utvalg av artikler fra speciedaler og til Spitsbergen for å se hva som finnes av artikler. I Wikipedia er ikke omdirigeringer fjernet, noe som gir et langt høyere antall oppføringer. I Caplex er noen oppslagsord lenket på andre begreper der de er funnet å være sammenfallende.
Noen artikler som er rene listeoppføringer er fjernet fra artikler som kommer fra Wikipedia.
Caplex nettleksikon har 64 000 artikler[1] mens Wikipedia har 92 921 artikler[2]. Dette gir at det burde være 145 oppføringer i midtre kolonne når det er 100 i venstre. Faktisk tall er 241 med 144 egentlige artikler, og økningen kan tilbakeføres til omdirigeringer og pekersider som listes som separate oppføringer. (Note: Her er det en liten feil i og med at pekersider regnes som artikler)
Ved 123 339 artikler [3] er antall oppslagsord økt til 403 treff. I dette tallet er det med både omdirigeringer, pekersider og virkelige artikler. Distansen til Caplex øker i kvantitet selv om det er tydelig at vi ikke dekker de samme artiklene, og at begrepsapparatet er avvikende. Antall forventede artikler ved denne størrelsen på basen ved en lineær fremskriving er 190 virkelige artikler, mens antallet påviste artikler er 235. Noe av dette kan forklares med at det i settet er en serie med musikkrelaterte artikler, Spellemannprisen, og en mindre serie om filer, Spider-Man.
Ved 140 500 artikler [4] er antall treff økt til 444 treff innen settets grenser. Antall treff på Caplex sine oppføringer er nå 57, noe som gir at Wikipedia fortsatt mangler 43% av oppføringene. Det er derfor tydelig at Wikipedia nærmer seg settet til Caplex asymptotisk og ikke lineært.
Det er tydelig i sammenligningen at det er et relativt stort antall artikler som ikke finnes på Wikipedia men som finnes i Caplex. Veldig grovt anslått virker det sannsynlig at vi må passere 200 000 artikler før vi når et nivå hvor vi kun har sporadiske røde lenker om vi sammenligner oss med Caplex. Det vil si at selv om vi blir vesentlig større enn caplex så betyr det ikke at vi kan hevde at vi dekker de samme områdene. Hvis vi går ett skritt videre og ser på faktainnhold i artiklene så vil det nok ta enda lengre tid før vi fullt ut dekker omtalte emner i Caplex. Når vi dekker Caplex 100% så vil vi i tillegg dekke vesentlig mye mer som Caplex aldri berører.
Wikipedia har tillatelse fra redaksjonssjef Bjørn Olav Tveit, Kart og Oppslagsverk ved J.W. Cappelens Forlag AS til å gjøre sammenligningen, og om nødvendig øke testsettet.
Det finnes et større sett av rødlenkede på /Datasett. Det er fjernet en stor mengde blå lenker, slik at settet er justert ned fra 9699 oppføringer til omkring 5052 oppføringer. Dette tilsvarer en dekningsgrad på ca. 52%. Det er grunn til å tro at en stor mengde omdirigeringer på biografier manger, at det er feil i forbindelse med form på oppføringer hvor vi bruker ubestemt form mens Caplex bruker bestemt form, og så videre.
Referanser
- ↑ Caplex nettleksikon har 64 000 artikler og Caplex bok 45 000. Boka har standard leksikonartikler, og nettleksikonet har, foruten de samme standardartiklene, også artikler som er spesialskrevne for elektroniske medier og egner seg best for dette (fordi de som oftest starter med årstall eller verktitler). [1]
- ↑ Wikipedia har 92 921 artikler i henhold til Special:Statistics torsdag 4. januar 2007 kl 21:55 lokal tid.
- ↑ Wikipedia har 123 339 artikler i henhold til Special:Statistics torsdag 15. august 2007 kl 23:20 lokal tid.
- ↑ Wikipedia har 140 500 artikler i henhold til Special:Statistics onsdag 21. november 2007 kl 11:20 lokal tid.