27 mei 2006

 

Hoe diep is het wetenschappelijke Web anno 2006

Niet iedere dag wordt er een wetenschappelijke studie over de aard en omvang van het diepe of onzichtbare web geschreven. Alleen al om dit feit is het lezen van dit paper een must. Peter Suber attendeerde me op dit paper in de OA News blog. Deze studie bouwt op de twee bronnen die ik ook altijd bij mijn inleidingen over het diepe web gebruik: Sherman & Price (2001) en Bergman (2001). Omdat de tweede vooral een technische studie is over de omvang van het diepe Web, wordt deze studie vooral op de korrel genomen.
Wat ik echter een probleem vind, is dat zei de definities voor het diepe web van deze twee studies gebruiken, terwijl ik juist denk dat we sinds 2001 beter zijn gaan beseffen wat het diepe web is, en wat niet. Aan de technische limitering van zoekmachines zoals bijvoorbeeld laatst prachtig aangetoond door Drunk Men Work Here voor het zoekgedrag van spiders bij grote sites wordt niet ingegaan. Op dezelfde manier zijn er limiteringen voor grote files. De limiet verschuift, maar op dit moment weten we niet waar die precies ligt. Ook bijvoorbeeld de mededeling dat alle PDF’s geïndexeerd worden is gewoon niet waar. Kijk maar een naar dit patent
Kortom hun definitie van het diepe web is oubollig en achterhaald.
Het tweede punt dat ik wil maken is dat de academische behoefte tegenwoordig juist meer is dan alleen documentaire informatie. Denk eens alleen al aan de verschillende genenbanken voor moleculair biologen en medici. GIS bestanden voor geografen en planners. Er zit juist groei aan de onderkant van de kennispiramide. De basis, de data- en gegevensbestanden, zijn steeds meer van belang aan het worden in het wetenschappelijke onderzoek. Daar lijkt juist een terrein braak te liggen en verdiept het Web zich juist.
Dat de heren kritiek hebben op de studie van Bergman (2001) is op punten van technische uitvoering terecht. Het is altijd een punt van waarschuwing van mij geweest bij een studie als Lyman et al. (2003) die klakkeloos de ratio van 550 overnemen om de omvang van het diepe web, en de totale hoeveelheid informatie op het Internet te schatten. Het is echter jammer dat zij niet tot een beter kwantitatieve studie komen en slechts aantonen wat er vijf jaar geleden fout werd gedaan.
In de afgelopen vijf jaar is er zo ontzettend veel veranderd op het Web. Maar het ondanks het feit dat er heel veel van PubMed door Google geïndexeerd is bestaat er nog steeds een ontzichbaar deel van het web al was het maar omdat de meeste mensen niet verder dan de derde pagina van de zoekresultaten kijken.

Hat Tip: OA News

Literatuur
Bergman, K.T. (2001). The deep web : surfacing hidden value. The Journal of Electronic Publishing 7(1). http://www.press.umich.edu/jep/07-01/bergman.html.
Lewandowski, D. & P. Mayr (2006). Exploring the academic invisible web. http://eprints.rclis.org/archive/00006071/.
Lyman, P. & H.R. Varian (2003). How much information 2003. http://www.sims.berkeley.edu/how-much-info-2003
Sherman, C. & G. Price (2001). The invisible web: Discovering information sources search engines can’t see. Medford NJ, USA, Information today. 439.

Technorati tags: ; ;

Labels:


Comments: Een reactie plaatsen

Links to this post:

Een koppeling maken



<< Home

This page is powered by Blogger. Isn't yours?