25 juni 2009
Veranderingen in het diepe Web
Het diepe of onzichtbare Web is ondertussen een begrip dat nog geen tien jaar oud is, maar helaas lijkt de aandacht voor het onderwerp de laatste jaren eerder af dan toe te nemen. Het heilige geloof dat met Google alles te vinden is wordt bij iedere zoekactie verder versterkt wanneer binnen een fractie van een seconde de volgende tienduizenden resultaten op je computerscherm prijken.
Inderdaad zal het diepe Web, sinds Bergman in 2001 voor het eerst de problematiek grondig onderzocht en beschreef, wat minder diep geworden zijn. Ook Google doet er alles aan om de schatten van het diepe Web boven water te krijgen. Sinds vorig jaar indexeert de grote G daarom flash files en ook de externe content van flash files, is het druk bezig om tekst te herkennen in grafische files –ze zijn dus vooral aan het OCR-en van gescande files van snelle en slordige digitaliseringsprojecten- en ze zijn bovenal aan de slag gegaan het invullen van webformulieren om informatie uit databases te trekken, te ontleden en te indexeren.
Google is daar vorig jaar mee begonnen en zal ongetwijfeld voortvarend mee aan de slag zijn gegaan. Maar kunnen we daarom binnenkort verwachten dat Google gaat verklaren dat het probleem van het Diepe Web of Onzichtbare Web opgelost is? Nee. Helaas niet. Het Sociale Web zorgt er juist weer voor dat het Diepe Web op andere plekken juist weer dieper wordt, of onzichtbaarder.
Een social bookmarking website als delicious bijvoorbeeld. Goed voor miljoenen door vrijwilligers geannoteerde websites, wordt door Google of amper geïndexeerd. Het meest populaire sociale netwerk van Nederland: Hyves met bijna 9 miljoen leden, is sinds februari dit jaar slechts deels voor Google toegankelijk. Krabbels, tips en dat soort dingen worden door Google nog niet of slechts zeer spaarzaam geïndexeerd. Een site als Flickr passeerde vorig jaar november de 3 miljard opgeslagen foto’s. Slechts een fractie daarvan is te vinden met Google of de Google image search. En er zijn zoveel verschillende social software sites. Maar allemaal slecht of matig geindexeerd door de gangbare zoekmachines.
Kortom het Diepe Web is here to stay with us. We kunnen daarom beter leren om met gevorderde zoektechnieken en veel bronnenkennis die informatie boven water te krijgen.
Literatuur
Bergman, K.T. (2001). The deep web : surfacing hidden value. The Journal of Electronic Publishing 7(1). http://dx.doi.org/10.3998/3336451.0007.104
Inderdaad zal het diepe Web, sinds Bergman in 2001 voor het eerst de problematiek grondig onderzocht en beschreef, wat minder diep geworden zijn. Ook Google doet er alles aan om de schatten van het diepe Web boven water te krijgen. Sinds vorig jaar indexeert de grote G daarom flash files en ook de externe content van flash files, is het druk bezig om tekst te herkennen in grafische files –ze zijn dus vooral aan het OCR-en van gescande files van snelle en slordige digitaliseringsprojecten- en ze zijn bovenal aan de slag gegaan het invullen van webformulieren om informatie uit databases te trekken, te ontleden en te indexeren.
Google is daar vorig jaar mee begonnen en zal ongetwijfeld voortvarend mee aan de slag zijn gegaan. Maar kunnen we daarom binnenkort verwachten dat Google gaat verklaren dat het probleem van het Diepe Web of Onzichtbare Web opgelost is? Nee. Helaas niet. Het Sociale Web zorgt er juist weer voor dat het Diepe Web op andere plekken juist weer dieper wordt, of onzichtbaarder.
Een social bookmarking website als delicious bijvoorbeeld. Goed voor miljoenen door vrijwilligers geannoteerde websites, wordt door Google of amper geïndexeerd. Het meest populaire sociale netwerk van Nederland: Hyves met bijna 9 miljoen leden, is sinds februari dit jaar slechts deels voor Google toegankelijk. Krabbels, tips en dat soort dingen worden door Google nog niet of slechts zeer spaarzaam geïndexeerd. Een site als Flickr passeerde vorig jaar november de 3 miljard opgeslagen foto’s. Slechts een fractie daarvan is te vinden met Google of de Google image search. En er zijn zoveel verschillende social software sites. Maar allemaal slecht of matig geindexeerd door de gangbare zoekmachines.
Kortom het Diepe Web is here to stay with us. We kunnen daarom beter leren om met gevorderde zoektechnieken en veel bronnenkennis die informatie boven water te krijgen.
Literatuur
Bergman, K.T. (2001). The deep web : surfacing hidden value. The Journal of Electronic Publishing 7(1). http://dx.doi.org/10.3998/3336451.0007.104
Labels: Diepe Web, Social Web, Web 2.0
11 december 2008
Wanneer ik vooruit kijk naar Google door mijn achteruitkijkspiegel
Het is weer de tijd van lijstjes. Van achterom kijken naar de meest populaire zoektermen, in Ask of AOL, maar ook vooruit kijken. Het -hardop- nadenken over wat het volgende jaar ons gaat brengen hoort even goed bij deze tijd van het jaar. Ik wil vanavond stil staan bij Google. Google vierde dit jaar zijn tiende verjaardag. De afgelopen 10 jaar heeft het zich ontwikkeld van een beginnende zoekmachine, tot de meest populaire zoekmachine, met bijna complete werelddominantie. Een bedrijf dat zich verder is gaan ontwikkelen tot compleet multimediabedrijf en een van de grootste uitgeverijen ter wereld. Zeer zeker het grootste reclamebedrijf ter wereld. Een goede analyse van de mogelijke strategieën die aan de schier oneindige expansie van Google ten grondslag liggen werd onlangs gegeven door faberNovel. Een analyse van de businessmodellen van Google die beslist de moeite waard is om goed op je in te laten werken.
Niet over businessmodellen
Ik wil het hebben over de wortels van Google. Het zoeken. Wat ik meen waar te nemen als trend van Google in 2008 is dat ze hun eigen zoekmachine weer serieus zijn gaan nemen. Natuurlijk hebben ze altijd aan hun zoekmachine gewerkt, maar de laatste jaren was Google drukker met allerhande zaken, behalve search. Daar lijkt dit jaar een kentering in gekomen te zijn. Waarschijnlijk zal de economische crises deze trend de komende tijd alleen maar versterken. Versterken van de basis. Doen waar je goed in bent. Dat zal de animo van Google wel eens kunnen verminderen om weer nieuwe soorten bedrijven en activiteiten over te nemen of te starten. Maar gewoon weer werken aan zoektechnologie.
De trends van Google op het gebied van zoeken in 2008
Google is in 2008 serieus begonnen met het verkleinen van het gapende gat aangeduid wordt als het Diepe Web of het Onzichtbare Web. Voor het bestaan van het Diepe Web zijn meerdere oorzaken aan te wijzen. De allergrootste is het feit dat zoekmachines weinig kunnen met databases op het Web. Dit jaar kwam Google echter met het bericht dat het een begin is gaan maken met het indexeren van informatie achter zoekformulieren. Tel daar nog eens bij op dat Google tegenwoordig ook veel beter omgaat met dynamische URL's. Dan lijkt het database probleem op een haar na geveld.
Daarnaast is optische tekst een bekend probleem. Zeker het wetenschappelijke -serieuze?- deel van het Web is vergeven van grafisch tekstbestanden die niet ge-OCR-ed zijn. Een voorbeeld is dit oude patent. Sinds kort is Google begonnen met het indexeren van de teksten in al dit soort grafische bestanden. Voor deze technologie staan er hele rijen met wetenschappelijke tijdschriften bij uitgevers waar de ook oplossing ook op toegepast kan worden. Voor Google Scholar zijn er dus nog volop mogelijkheden.
Als derde trend is er de aankondiging Google is begonnen met het indexeren van flash files. Tot voor kort werden Flash files nog niet geindexeerd maar sinds juni dit jaar is Google er mee begonnen.
Vinden met Google in 2009
Al met al kan je stellen dat Google het afgelopen jaar is gekomen met een reeks van maatregelen om die een serieuze poging zijn om het Diepe Web een stukje te dempen. Het zijn technieken die door Google ontwikkeld zijn om nu en volgende jaren in te zetten en waarvan de resultaten geleidelijk beschikbaar komen. Het Diepe Web bestaat nu nog steeds. Je kunt het ook nog makkelijk zien bij een Flash tijdschrift als Paarsmagazine waarvan Google er op dit moment slechts een twintigtal webpagina's van heeft geindexeerd. Maar wat ik hier schets lijken de opmaten voor Google om Search weer centraal te gaan stellen. In 2009 zullen we van deze technologieën de vruchten gaan plukken.
Kortom, veel plezier met vinden met Google in 2009
Niet over businessmodellen
Ik wil het hebben over de wortels van Google. Het zoeken. Wat ik meen waar te nemen als trend van Google in 2008 is dat ze hun eigen zoekmachine weer serieus zijn gaan nemen. Natuurlijk hebben ze altijd aan hun zoekmachine gewerkt, maar de laatste jaren was Google drukker met allerhande zaken, behalve search. Daar lijkt dit jaar een kentering in gekomen te zijn. Waarschijnlijk zal de economische crises deze trend de komende tijd alleen maar versterken. Versterken van de basis. Doen waar je goed in bent. Dat zal de animo van Google wel eens kunnen verminderen om weer nieuwe soorten bedrijven en activiteiten over te nemen of te starten. Maar gewoon weer werken aan zoektechnologie.
De trends van Google op het gebied van zoeken in 2008
Google is in 2008 serieus begonnen met het verkleinen van het gapende gat aangeduid wordt als het Diepe Web of het Onzichtbare Web. Voor het bestaan van het Diepe Web zijn meerdere oorzaken aan te wijzen. De allergrootste is het feit dat zoekmachines weinig kunnen met databases op het Web. Dit jaar kwam Google echter met het bericht dat het een begin is gaan maken met het indexeren van informatie achter zoekformulieren. Tel daar nog eens bij op dat Google tegenwoordig ook veel beter omgaat met dynamische URL's. Dan lijkt het database probleem op een haar na geveld.
Daarnaast is optische tekst een bekend probleem. Zeker het wetenschappelijke -serieuze?- deel van het Web is vergeven van grafisch tekstbestanden die niet ge-OCR-ed zijn. Een voorbeeld is dit oude patent. Sinds kort is Google begonnen met het indexeren van de teksten in al dit soort grafische bestanden. Voor deze technologie staan er hele rijen met wetenschappelijke tijdschriften bij uitgevers waar de ook oplossing ook op toegepast kan worden. Voor Google Scholar zijn er dus nog volop mogelijkheden.
Als derde trend is er de aankondiging Google is begonnen met het indexeren van flash files. Tot voor kort werden Flash files nog niet geindexeerd maar sinds juni dit jaar is Google er mee begonnen.
Vinden met Google in 2009
Al met al kan je stellen dat Google het afgelopen jaar is gekomen met een reeks van maatregelen om die een serieuze poging zijn om het Diepe Web een stukje te dempen. Het zijn technieken die door Google ontwikkeld zijn om nu en volgende jaren in te zetten en waarvan de resultaten geleidelijk beschikbaar komen. Het Diepe Web bestaat nu nog steeds. Je kunt het ook nog makkelijk zien bij een Flash tijdschrift als Paarsmagazine waarvan Google er op dit moment slechts een twintigtal webpagina's van heeft geindexeerd. Maar wat ik hier schets lijken de opmaten voor Google om Search weer centraal te gaan stellen. In 2009 zullen we van deze technologieën de vruchten gaan plukken.
Kortom, veel plezier met vinden met Google in 2009
Labels: Diepe Web, Google, Zoeken
06 november 2008
Persoonsgegevens zoeken op het Web
Het zoeken naar het adres van een persoon is een zeer populaire zoekvraag. Waar we vroeger alleen beschikten over de telefoongids voor het achterhalen van adressen en telefoonnummers van personen zijn er op het Web tal van mogelijkheden om feiten en adresgegevens van personen na te trekken. Tegenwoordig kan je vaak makkelijk achterhalen wanneer je over een adres, postcode of telefoonnummer beschikt wie er woont. Dit laatste kan met de verschillende tools voor omgekeerd zoeken.
Daarnaast zijn er met de opkomst van de social networking sites een hele reeks aan mogelijkheden bijgekomen om meer te weten te komen over personen, dan alleen hun contactgegevens. Via vrienden en bekenden kan je vaak ook verder komen om meer over een persoon te weten komen.
Adresgegevens en telefoonnummers achterhalen
Klassieke bronnen zijn de telefoongids en de goudengids. Vroeger op papier en thans natuurlijk op het Web. Voor het zoeken naar personen heeft de Gouden gids een zusje, namelijk de nationaletelefoongids.nl. Deze heeft als voordeel over de detelefoongids.nl van de KPN dat er voor een naam door het hele land gezocht kan worden. Dit heeft enkel zin voor namen die minder bekend zijn, maar in een enkel geval kun je er je voordeel mee doen.
Wat men zich wel moet realiseren met de telefoongidsen is dat steeds meer mensen hun vaste KPN abonnement opgezegd hebben en slechts over een mobiele telefoonnummer beschikken. Deze zijn meestal niet opgenomen in de reguliere telefoongidsen. Daarnaast beschikken meer dan een miljoen mensen over een zogenaamd geheimnummer. Dat is niet alleen meer voorbehouden aan artsen of ministers.
Omgekeerd zoeken
Soms heb je alleen een telefoonnummer, of adres en weet niet wie of wat daar bij hoort. Verschillende tools voor omgekeerd zoeken bieden dan uitkomst, nummerboek of omgekeerd zoeken. De laatse is weer gebaseerd op de gegevens van www.telefoonarchief.nl. Deze laatste heeft een wat ouderwetse presentatie van resultaten, maar biedt wel op een pagina maximaal 400 resultaten. Nadeel van deze bronnen is wel dat ze vaak op oudere gegevens zijn gebaseerd, maar de KPN laat dit soort hacks niet toe.
Voor het zoeken naar 06 nummers, omgekeerd dan wel gewoon, bestaat nog geen goede zoekmachine. Wanneer je bijvoorbeeld in de 06gids zoek naar het mobiele nummer van Jansen in Amsterdam, dan worden er slechts 2 vermelding gevonden.
Sociale netwerken
In Nederland is Hyves met meer dan 5 miljoen deelnemers veruit het bekendste sociale netwerk. Populair onder de jeugd maar thans probeert iedereen aan te haken bij dit netwerk. Jan Peter Balkenende en Wouter Bos behoorden bij de vorige verkiezingen tot de meest populaire hyvers. Naast Hyves zijn er een aantal grote internationale sociale netwerken. Voorbeelden hiervan zijn MySpace, LinkedIn of Facebook. Daarnaast zijn er ook een grote verzameling aan kleinere gespecialiseerde sociale netwerken. Voorbeelden daarvan zijn Sugababes en Superdudes en Kaboem voor tieners. Er zijn ook Nederlandse netwerken voor jongere kinderen, zoals Kindertent, of de meidensite Qurlie.
Omdit soort sociale netwerken in een keer af te zoeken zijn er aantal gespecialiseerde zoekmachines.
WieOwie http://www.wieowie.nl
De zoekmachines van Wieowie doorzoekt op dit moment Hyves, Linkedin, Schoolbank.nl, YouTube, Google, de nationale telefoongids, Faceboook, MySpace, Netlog en Xing. De site is opgezet door Centroid Media. Met deze zoekmachine richt Centroidmedia zich op de HRM markt, maar voor journalisten een tool om in een klap meer gegevens boven tafel te krijgen. Nadeel van WieOwie is dat je in de vrije versie maar 15 zoekacties per dag mag uitvoeren.
Pipl http://www.pipl.com
Een vergelijkbare personenzoekmachine als WieOwie is Pipl uit de Verenigde. Pipl lijkt de meeste bronnen van WieOwie ook te doorzoeken plus nog een aantal meer. Het vormt een aanvulling op WieOwie.
Internet adressbook http://www.internetaddressbook.com
Is een soortgelijke site als WieOwie en ook van Nederlandse signatuur. Het Internet adressboek doorzoekt een langere lijst aan sociale netwerken maar is minder sterk in het achterhalen van e-mail adressen en telefoonnummers zoals WieOwie
ZoomInfo http://www.zoominfo.com
ZoomInfo is een zoekmachine voor personen en bedrijven. In de index voor personen zaten in November 2008 ruim 44 miljoen namen. De personenzoekmachine werkt het nauw samen met de social networking site Xing en heeft een sterk Amerikaans profiel.
Meer informatie:
Marcus. P. Zillman, Finding people http://findingpeople.blogspot.com
Wanneer je een lange lijst aan personenzoekers wilt hebben. Meestal Amerikaans georiënteerd van zeer verschillende kwaliteit.
Update: Een bijgewerkte versie van deze post is te vinden op mijn wiki
Daarnaast zijn er met de opkomst van de social networking sites een hele reeks aan mogelijkheden bijgekomen om meer te weten te komen over personen, dan alleen hun contactgegevens. Via vrienden en bekenden kan je vaak ook verder komen om meer over een persoon te weten komen.
Adresgegevens en telefoonnummers achterhalen
Klassieke bronnen zijn de telefoongids en de goudengids. Vroeger op papier en thans natuurlijk op het Web. Voor het zoeken naar personen heeft de Gouden gids een zusje, namelijk de nationaletelefoongids.nl. Deze heeft als voordeel over de detelefoongids.nl van de KPN dat er voor een naam door het hele land gezocht kan worden. Dit heeft enkel zin voor namen die minder bekend zijn, maar in een enkel geval kun je er je voordeel mee doen.
Wat men zich wel moet realiseren met de telefoongidsen is dat steeds meer mensen hun vaste KPN abonnement opgezegd hebben en slechts over een mobiele telefoonnummer beschikken. Deze zijn meestal niet opgenomen in de reguliere telefoongidsen. Daarnaast beschikken meer dan een miljoen mensen over een zogenaamd geheimnummer. Dat is niet alleen meer voorbehouden aan artsen of ministers.
Omgekeerd zoeken
Soms heb je alleen een telefoonnummer, of adres en weet niet wie of wat daar bij hoort. Verschillende tools voor omgekeerd zoeken bieden dan uitkomst, nummerboek of omgekeerd zoeken. De laatse is weer gebaseerd op de gegevens van www.telefoonarchief.nl. Deze laatste heeft een wat ouderwetse presentatie van resultaten, maar biedt wel op een pagina maximaal 400 resultaten. Nadeel van deze bronnen is wel dat ze vaak op oudere gegevens zijn gebaseerd, maar de KPN laat dit soort hacks niet toe.
Voor het zoeken naar 06 nummers, omgekeerd dan wel gewoon, bestaat nog geen goede zoekmachine. Wanneer je bijvoorbeeld in de 06gids zoek naar het mobiele nummer van Jansen in Amsterdam, dan worden er slechts 2 vermelding gevonden.
Sociale netwerken
In Nederland is Hyves met meer dan 5 miljoen deelnemers veruit het bekendste sociale netwerk. Populair onder de jeugd maar thans probeert iedereen aan te haken bij dit netwerk. Jan Peter Balkenende en Wouter Bos behoorden bij de vorige verkiezingen tot de meest populaire hyvers. Naast Hyves zijn er een aantal grote internationale sociale netwerken. Voorbeelden hiervan zijn MySpace, LinkedIn of Facebook. Daarnaast zijn er ook een grote verzameling aan kleinere gespecialiseerde sociale netwerken. Voorbeelden daarvan zijn Sugababes en Superdudes en Kaboem voor tieners. Er zijn ook Nederlandse netwerken voor jongere kinderen, zoals Kindertent, of de meidensite Qurlie.
Omdit soort sociale netwerken in een keer af te zoeken zijn er aantal gespecialiseerde zoekmachines.
WieOwie http://www.wieowie.nl
De zoekmachines van Wieowie doorzoekt op dit moment Hyves, Linkedin, Schoolbank.nl, YouTube, Google, de nationale telefoongids, Faceboook, MySpace, Netlog en Xing. De site is opgezet door Centroid Media. Met deze zoekmachine richt Centroidmedia zich op de HRM markt, maar voor journalisten een tool om in een klap meer gegevens boven tafel te krijgen. Nadeel van WieOwie is dat je in de vrije versie maar 15 zoekacties per dag mag uitvoeren.
Pipl http://www.pipl.com
Een vergelijkbare personenzoekmachine als WieOwie is Pipl uit de Verenigde. Pipl lijkt de meeste bronnen van WieOwie ook te doorzoeken plus nog een aantal meer. Het vormt een aanvulling op WieOwie.
Internet adressbook http://www.internetaddressbook.com
Is een soortgelijke site als WieOwie en ook van Nederlandse signatuur. Het Internet adressboek doorzoekt een langere lijst aan sociale netwerken maar is minder sterk in het achterhalen van e-mail adressen en telefoonnummers zoals WieOwie
ZoomInfo http://www.zoominfo.com
ZoomInfo is een zoekmachine voor personen en bedrijven. In de index voor personen zaten in November 2008 ruim 44 miljoen namen. De personenzoekmachine werkt het nauw samen met de social networking site Xing en heeft een sterk Amerikaans profiel.
Meer informatie:
Marcus. P. Zillman, Finding people http://findingpeople.blogspot.com
Wanneer je een lange lijst aan personenzoekers wilt hebben. Meestal Amerikaans georiënteerd van zeer verschillende kwaliteit.
Update: Een bijgewerkte versie van deze post is te vinden op mijn wiki
Labels: Diepe Web, NAW gegevens, personenzoekers
Wat nu WieOwie?

Vandaag moest ik even aan mijn cursusmateriaal werken over zoeken op het diepe Web. Wieowie is sinds kort een leuke zoekmachine die onder andere de nationale telefoongids ook meeneemt wanneer je zoekt naar persoonsgegevens van iemand. Vandaag probeerde ik WieOwie even op mijn werk te gebruiken. Maar wie schetst mijn verbazing toen ik bovenstaande mededeling kreeg. Het IP adres waar ze naar refereren is het IP adres van de firewall van de universiteit. Daar werken een paar duizend mensen, en evenzoveel studenten. Tja, dan is 15x gebruiken wel heel weinig. Maakt zo'n product in elk geval niet populair hier.
Wat ga ik dus in mijn komende cursussen gebruiken als alternatief? Pipl.com doet een soortgelijke service, zelfs wat beter, alleen niet de nationale telefoongids. Of anders het Internet adressbook deze laatste is in tegenstelling tot Pipl en het .com adres doen vermoeden een Nederlands initiatief.
Daaaag WieOwie
Labels: Diepe Web, Internet Adressbook, personenzoekers, pipl, Wieowie
12 april 2008
Het diepe Web wordt weer wat minder diep
Soms wordt er gedacht dat alles op het Web geïndexeerd wordt door zoekmachines en dat je met de Google's van deze wereld dus alles kunnen kunt vinden op het Web. Niets is minder waar. Er bestaat ook ook nog zoiets als het diepe Web, soms wel het onzichtbare Web, of het verborgen Web genoemd. In cursussen over beter zoeken op het Web besteed ik daarom vrij veel aandacht aan de problematiek rond de informatie besloten in het diepe Web.
Oorzaken zijn ondermeer dat webpagina's of websites bijvoorbeeld te groot zijn, of de inhoud bestaat uit niet geïndexeerde bestanden zoals .tar .gz of zip, of bijvoorbeeld pagina's die gemaakt zijn met flash. Een andere belangrijke rol spelen de ordinaire tolpoortjes, het prive Web, of staan robots.txt het indexeren van Websites niet toe. Aan de andere kant spelen ook cognitieve factoren een rol bij het diepe Web. Men kijkt niet verder dan pagina drie van de zoekresultaten.
De grootste oorzaak van het diepe Web zit echter in databases. De meeste informatie is opgeslagen in databases. Zoekmachines kunnen niet overweg met de zoekschermen van databases. In welk vakje moeten ze de auteur invullen? Of het jaartal? Welk auteur? Dat lag tot voor kort niet op de weg van zoekmachines. Bergman schatte in 2001 dat het diepe Web ongeveer 500 maal groter is dan wat er door zoekmachines geïndexeerd wordt. We weten ondertussen dat de schatting van Bergman wat grof waren, maar het diepe Web bestaat nog steeds.
Toch zijn zoekmachines steeds beter geworden in het indexeren van database resultaten. Van PubMed zitten tegenwoordig ruime 2 miljoen records in de gewone Google, in Google Scholar de complete (?) Pubmed. Worldcat zit volledig (?) in Google Books. Daarnaast kun je tegenwoordig bijvoorbeeld via het OAI-PMH protocol inhoud aan de Google index toe laten voegen. Allemaal databaseinformatie dat opgenomen wordt in de grote Google. Zoekmachines over het algemeen worden steeds beter in het verkleinen van het diepe Web.
Google gaat nog verder in het stillen van de eeuwige informatiehonger. Gisteren maakte Google bekend dat het begint met het indexeren van de inhoud van databases door zoekformulieren in te vullen. De Google bot vult wat woorden in uit de context van het zoekformulier en gaat vervolgens aan de slag met het indexeren van het zoekresultaatresultaat.
Van dit soort dingetjes wordt ik weer even helemaal stil. Wat knap denk ik dan.
Literatuur
Bergman, K. T. (2001). The deep web : surfacing hidden value. The Journal of Electronic Publishing 7(1). http://dx.doi.org/10.3998/3336451.0007.104
Oorzaken zijn ondermeer dat webpagina's of websites bijvoorbeeld te groot zijn, of de inhoud bestaat uit niet geïndexeerde bestanden zoals .tar .gz of zip, of bijvoorbeeld pagina's die gemaakt zijn met flash. Een andere belangrijke rol spelen de ordinaire tolpoortjes, het prive Web, of staan robots.txt het indexeren van Websites niet toe. Aan de andere kant spelen ook cognitieve factoren een rol bij het diepe Web. Men kijkt niet verder dan pagina drie van de zoekresultaten.
De grootste oorzaak van het diepe Web zit echter in databases. De meeste informatie is opgeslagen in databases. Zoekmachines kunnen niet overweg met de zoekschermen van databases. In welk vakje moeten ze de auteur invullen? Of het jaartal? Welk auteur? Dat lag tot voor kort niet op de weg van zoekmachines. Bergman schatte in 2001 dat het diepe Web ongeveer 500 maal groter is dan wat er door zoekmachines geïndexeerd wordt. We weten ondertussen dat de schatting van Bergman wat grof waren, maar het diepe Web bestaat nog steeds.
Toch zijn zoekmachines steeds beter geworden in het indexeren van database resultaten. Van PubMed zitten tegenwoordig ruime 2 miljoen records in de gewone Google, in Google Scholar de complete (?) Pubmed. Worldcat zit volledig (?) in Google Books. Daarnaast kun je tegenwoordig bijvoorbeeld via het OAI-PMH protocol inhoud aan de Google index toe laten voegen. Allemaal databaseinformatie dat opgenomen wordt in de grote Google. Zoekmachines over het algemeen worden steeds beter in het verkleinen van het diepe Web.
Google gaat nog verder in het stillen van de eeuwige informatiehonger. Gisteren maakte Google bekend dat het begint met het indexeren van de inhoud van databases door zoekformulieren in te vullen. De Google bot vult wat woorden in uit de context van het zoekformulier en gaat vervolgens aan de slag met het indexeren van het zoekresultaatresultaat.
Van dit soort dingetjes wordt ik weer even helemaal stil. Wat knap denk ik dan.
Literatuur
Bergman, K. T. (2001). The deep web : surfacing hidden value. The Journal of Electronic Publishing 7(1). http://dx.doi.org/10.3998/3336451.0007.104
Labels: Diepe Web, Google, Indexeren
11 januari 2006
Enkele suggesties voor aanvullende bibliografieën
Jos gaat in op mijn vorige post over ArticleFinder, en is vooral enthousiast over het techniek deel van deze bibliografie. Ik moest meteen aan EEVL denken, maar misschien rekent hij dat meer tot ‘gateway’ of ‘internet guide’ dan een formele bibliografie. Hoewel in EEVL extra, zitten volgens mij ook behoorlijk wat tijdschriften. Maar eigenlijk wil ik het hier niet over hebben, ik wil het over zijn lijstje hebben.
Jos is dapper begonnen met een lijstje van betrouwbare vrij toegankelijke bibliografische databases op het Web. Ik ben zelf dol op dit soort lijstjes, en wil best wat helpen. Maar eerst even een plooi gladstrijken in het huidige lijstje.
Als eerst staat daar informatiewetenschappen. Als voorbeeld komt Jos met Darlin. Ik heb nu al een paar keer met die repository gevochten, want dat was het, maar ik heb nooit handig naar wat artikelen uit de Informatie Professional terug kunnen vinden. Het is nou precies een voorbeeld waarvan ik denk dat als dat de stand van Informatie Nederland is, dan hebben we nog een heel eind te gaan. Jos je gebruikt dat toch niet echt als voorbeeld voor je studenten om het zoeken op hun vakgebied bij te brengen?
Zijn er alternatieven? LISTA, mischien? Ik blogde er al eerder over en Jos gaat heel terecht in op de vergissing die ze bij de redaktie van de IP maakte door LISTA en LISA met elkaar te verwarren. Trouwens, een Nederlandse repository alleen voor dit vakgebied heb ik altijd een beetje zielig gevonden. Ik zou liever een en ander aangevuld zien met informatie uit drie andere repositories op ons vakgebied, bijvoorbeeld DLIST, DoIS en E-LIS. De eerste en laatste doen al een en ander samen. Darlin moet daar ook maar eens aanhaken, of zichzelf opheffen.
Maar Jos, wat ik tot nu toe allemaal opkalkte is eigenlijk niet mijn vakgebied, kijk er dus gerust kritisch naar.
Nog een laatste kritische opmerking, wanneer je Citeseer noemt, moet je ook SMEALSearch noemen. Deze database is gebaseerd op dezelfde technologie, ook met prachtige citatie-linking maar dan voor de Management en Business studies.
Waar blijven dan mijn suggesties?
Mijn roots liggen in de tropische landbouw, daar zijn niet één, twee, drie, vrij toegankelijke bibliografieën voor handen (niet helemaal waar, ILEIA is er nog), maar ik neem je uitdaging op en ga eens ordinair reclame te maken voor een paar prachtige databases die we hier maken.
Artik
Artik is een bibliografie dat zo’n 120 vaktijdschriften dekt op het gebied van landbouw, natuurbeheer, milieu, visserij, groene ruimte, bodem en voeding. Meer informatie kan je hier vinden.
Artik+
Artik+ is sterk gebaseerd op ARTIK, maar aangevuld met Nederlandstalige elektronisch publicaties uit onze catalogus. Het wordt primair gemaakt voor het agrarisch beroepsonderwijs en daarvoor worden er zeer regelmatig elektronische bronnen geselecteerd over specifieke onderwerpen.
Kennisbank biologisch landbouw en voeding
Deze bibliografie bevat zo compleet mogelijk alle Nederlandse informatie over biologische landbouw en voeding die voor een groot deel voorzien zijn van de elektronische fulltext. Naast de standaard zoekingang zijn er een dertiental thematisch ingangen.
Land Soil en Water database
De Land, Soil and Water database (Land, bodem, water) dekt literatuur met betrekking tot de groene wereld rondom ons en het duurzaam gebruik van onze levende omgeving. De geografische dekking is internationaal, maar met nadruk op Nederland.
Consumer en Household Studies
De database Consumer and Household Studies bevat ca. 33.000 bibliografische beschrijvingen, met korte abstracts, op het terrein van huishoudstudies, gezinssociologie en consumentenstudies.
Milieuliteratuurbestand
Alles over milieu wordt niet alleen in Wageningen gemaakt. Het MLB bevat meer dan tweehonderdduizend beschrijvingen van milieupublicaties die bijeen zijn gebracht door de bibliotheek- en documentatieafdelingen van ministeries, universiteiten, onderzoeksinstituten, milieuorganisaties en adviesbureau's.
TUiN
De databank TUiN biedt specialistische informatie over historische en bestaande Nederlandse tuin- en landschapsarchitectonische objecten: tuinen, parken, buitenplaatsen, begraafplaatsen, en andersoortige 'groene monumenten', landschapsplannen en ruilverkavelingen.
Tuinpad
TuinPad is een bibliografische databank met een selectie van specialistische publicaties over de geschiedenis van tuinen en tuin- en landschapsarchitectuur in Nederland, gepubliceerd in Nederland of daarbuiten.
Nawoord, met dit soort blogposts krijg ik nooit mijn analyse van de biblioblogosphere in Nederland (en België) af. Maar het schiet op. Het weekend misschien.....
Technoratie tags: bibliographies; Deep Web
Waar blijven dan mijn suggesties?
Mijn roots liggen in de tropische landbouw, daar zijn niet één, twee, drie, vrij toegankelijke bibliografieën voor handen (niet helemaal waar, ILEIA is er nog), maar ik neem je uitdaging op en ga eens ordinair reclame te maken voor een paar prachtige databases die we hier maken.
Artik
Artik is een bibliografie dat zo’n 120 vaktijdschriften dekt op het gebied van landbouw, natuurbeheer, milieu, visserij, groene ruimte, bodem en voeding. Meer informatie kan je hier vinden.
Artik+
Artik+ is sterk gebaseerd op ARTIK, maar aangevuld met Nederlandstalige elektronisch publicaties uit onze catalogus. Het wordt primair gemaakt voor het agrarisch beroepsonderwijs en daarvoor worden er zeer regelmatig elektronische bronnen geselecteerd over specifieke onderwerpen.
Kennisbank biologisch landbouw en voeding
Deze bibliografie bevat zo compleet mogelijk alle Nederlandse informatie over biologische landbouw en voeding die voor een groot deel voorzien zijn van de elektronische fulltext. Naast de standaard zoekingang zijn er een dertiental thematisch ingangen.
Land Soil en Water database
De Land, Soil and Water database (Land, bodem, water) dekt literatuur met betrekking tot de groene wereld rondom ons en het duurzaam gebruik van onze levende omgeving. De geografische dekking is internationaal, maar met nadruk op Nederland.
Consumer en Household Studies
De database Consumer and Household Studies bevat ca. 33.000 bibliografische beschrijvingen, met korte abstracts, op het terrein van huishoudstudies, gezinssociologie en consumentenstudies.
Milieuliteratuurbestand
Alles over milieu wordt niet alleen in Wageningen gemaakt. Het MLB bevat meer dan tweehonderdduizend beschrijvingen van milieupublicaties die bijeen zijn gebracht door de bibliotheek- en documentatieafdelingen van ministeries, universiteiten, onderzoeksinstituten, milieuorganisaties en adviesbureau's.
TUiN
De databank TUiN biedt specialistische informatie over historische en bestaande Nederlandse tuin- en landschapsarchitectonische objecten: tuinen, parken, buitenplaatsen, begraafplaatsen, en andersoortige 'groene monumenten', landschapsplannen en ruilverkavelingen.
Tuinpad
TuinPad is een bibliografische databank met een selectie van specialistische publicaties over de geschiedenis van tuinen en tuin- en landschapsarchitectuur in Nederland, gepubliceerd in Nederland of daarbuiten.
Nawoord, met dit soort blogposts krijg ik nooit mijn analyse van de biblioblogosphere in Nederland (en België) af. Maar het schiet op. Het weekend misschien.....
Technoratie tags: bibliographies; Deep Web
Labels: Bibliografieën, Databases, Diepe Web, Nederland
