12 april 2008
Het diepe Web wordt weer wat minder diep
Soms wordt er gedacht dat alles op het Web geïndexeerd wordt door zoekmachines en dat je met de Google's van deze wereld dus alles kunnen kunt vinden op het Web. Niets is minder waar. Er bestaat ook ook nog zoiets als het diepe Web, soms wel het onzichtbare Web, of het verborgen Web genoemd. In cursussen over beter zoeken op het Web besteed ik daarom vrij veel aandacht aan de problematiek rond de informatie besloten in het diepe Web.
Oorzaken zijn ondermeer dat webpagina's of websites bijvoorbeeld te groot zijn, of de inhoud bestaat uit niet geïndexeerde bestanden zoals .tar .gz of zip, of bijvoorbeeld pagina's die gemaakt zijn met flash. Een andere belangrijke rol spelen de ordinaire tolpoortjes, het prive Web, of staan robots.txt het indexeren van Websites niet toe. Aan de andere kant spelen ook cognitieve factoren een rol bij het diepe Web. Men kijkt niet verder dan pagina drie van de zoekresultaten.
De grootste oorzaak van het diepe Web zit echter in databases. De meeste informatie is opgeslagen in databases. Zoekmachines kunnen niet overweg met de zoekschermen van databases. In welk vakje moeten ze de auteur invullen? Of het jaartal? Welk auteur? Dat lag tot voor kort niet op de weg van zoekmachines. Bergman schatte in 2001 dat het diepe Web ongeveer 500 maal groter is dan wat er door zoekmachines geïndexeerd wordt. We weten ondertussen dat de schatting van Bergman wat grof waren, maar het diepe Web bestaat nog steeds.
Toch zijn zoekmachines steeds beter geworden in het indexeren van database resultaten. Van PubMed zitten tegenwoordig ruime 2 miljoen records in de gewone Google, in Google Scholar de complete (?) Pubmed. Worldcat zit volledig (?) in Google Books. Daarnaast kun je tegenwoordig bijvoorbeeld via het OAI-PMH protocol inhoud aan de Google index toe laten voegen. Allemaal databaseinformatie dat opgenomen wordt in de grote Google. Zoekmachines over het algemeen worden steeds beter in het verkleinen van het diepe Web.
Google gaat nog verder in het stillen van de eeuwige informatiehonger. Gisteren maakte Google bekend dat het begint met het indexeren van de inhoud van databases door zoekformulieren in te vullen. De Google bot vult wat woorden in uit de context van het zoekformulier en gaat vervolgens aan de slag met het indexeren van het zoekresultaatresultaat.
Van dit soort dingetjes wordt ik weer even helemaal stil. Wat knap denk ik dan.
Literatuur
Bergman, K. T. (2001). The deep web : surfacing hidden value. The Journal of Electronic Publishing 7(1). http://dx.doi.org/10.3998/3336451.0007.104
Oorzaken zijn ondermeer dat webpagina's of websites bijvoorbeeld te groot zijn, of de inhoud bestaat uit niet geïndexeerde bestanden zoals .tar .gz of zip, of bijvoorbeeld pagina's die gemaakt zijn met flash. Een andere belangrijke rol spelen de ordinaire tolpoortjes, het prive Web, of staan robots.txt het indexeren van Websites niet toe. Aan de andere kant spelen ook cognitieve factoren een rol bij het diepe Web. Men kijkt niet verder dan pagina drie van de zoekresultaten.
De grootste oorzaak van het diepe Web zit echter in databases. De meeste informatie is opgeslagen in databases. Zoekmachines kunnen niet overweg met de zoekschermen van databases. In welk vakje moeten ze de auteur invullen? Of het jaartal? Welk auteur? Dat lag tot voor kort niet op de weg van zoekmachines. Bergman schatte in 2001 dat het diepe Web ongeveer 500 maal groter is dan wat er door zoekmachines geïndexeerd wordt. We weten ondertussen dat de schatting van Bergman wat grof waren, maar het diepe Web bestaat nog steeds.
Toch zijn zoekmachines steeds beter geworden in het indexeren van database resultaten. Van PubMed zitten tegenwoordig ruime 2 miljoen records in de gewone Google, in Google Scholar de complete (?) Pubmed. Worldcat zit volledig (?) in Google Books. Daarnaast kun je tegenwoordig bijvoorbeeld via het OAI-PMH protocol inhoud aan de Google index toe laten voegen. Allemaal databaseinformatie dat opgenomen wordt in de grote Google. Zoekmachines over het algemeen worden steeds beter in het verkleinen van het diepe Web.
Google gaat nog verder in het stillen van de eeuwige informatiehonger. Gisteren maakte Google bekend dat het begint met het indexeren van de inhoud van databases door zoekformulieren in te vullen. De Google bot vult wat woorden in uit de context van het zoekformulier en gaat vervolgens aan de slag met het indexeren van het zoekresultaatresultaat.
Van dit soort dingetjes wordt ik weer even helemaal stil. Wat knap denk ik dan.
Literatuur
Bergman, K. T. (2001). The deep web : surfacing hidden value. The Journal of Electronic Publishing 7(1). http://dx.doi.org/10.3998/3336451.0007.104
Labels: Diepe Web, Google, Indexeren
Comments:
Links to this post:
<< Home
prachtig plan, dat invullen van zoekformulieren! Denk je dat het aantal zoektermen vooralsnog relatief klein zal blijven zodat de treffers die je straks krijgt in Google himself vooral dienst doen als "ontdekker" van de database? Of zal Google vervolgens zoektermen gaan plukken uit het zoekresultaat dat ze krijgen en zo verder, verder, verder ..
Interessante ontwikkeling inderdaad. Ik vraag me wel eens af waar het ooit zal stoppen...of dat het uberhaupt ooit zal stoppen...
fijn dat google nu zelf dieper gaat graven, maar ik vind het tevens een afgang voor degene die databases met zoveel belangrijke info al jaren verborgen houden, omdat ze te beroerd zijn hun gegevens indexeerbaar te maken. (dit uiteraard onder het mom van geen prioriteit, geen kennis, geen sjoege etc)
hoeveel moeite kost het om een sitemap te maken? of advies in te winnen hoe je je database open kunt stellen voor spiderbots... oh well... een mening. :)
Een reactie plaatsen
hoeveel moeite kost het om een sitemap te maken? of advies in te winnen hoe je je database open kunt stellen voor spiderbots... oh well... een mening. :)
Links to this post:
<< Home

