13 januari 2010

 

Zoektips van de zoekmachine experts: Henk van Ess

Dit is de eerste post, in wat een serie moet gaan worden over zoektips van de zoekmachine experts op het gebied van zoeken en vinden van informatie op het Web. In deze eerste aflevering onthullen we de belangrijkste zoekstrategie van Henk van Ess. Henk is de drijvende kracht achter voelspriet en heeft onlangs de Google Code geschreven. De Google Code is zijn boek waarin hij zijn beste advies voor het efficiënt vinden van informatie op het Web prijsgeeft.

De Google Code
Henk van Ess omschrijft de code zelf als volgt: ‘Ga niet uit van wat je zoekt, maar van je wilt vinden. Stel geen vraag, maar voorspel het antwoord. Visualiseer wat je zoekt. Je probeert beredeneerd te gokken hoe informatie is opgeschreven. Je leert met verstand te raden hoe mensen dingen opschrijven. De beste manier om de juiste woorden te vinden, is te doen alsof je zelf de schrijver bent.’ Hij heeft het ook wel over denken als een document. In feite doet Van Ess zijn methode een tikkeltje tekort wanneer hij het op deze manier samenvat.

Zijn Google code bestaat in feite uit drie stappen. De eerste stap is de conceptuele stap, waarin je bedenkt wat je eigenlijk wilt vinden en hoe die informatie ergens op het Web geformuleerd zal staan. De tweede stap is het uitvoeren van een zoekactie, waarbij verschillende zoektechnieken helpen om het resultaat in te perken. Van Ess is terecht fan van het gebruik van aanhalingstekens om met hele korte –ingehouden– zinnetjes precies dat te vinden wat hij wil weten. De derde stap van de Google Code is de controlestap. Deze stap komt in het boek, helaas, niet zo uitgebreid aan bod, maar vormt wel een onlosmakelijk geheel met de twee eerdere stappen.

In de praktijk
Voor de conceptuele stap moet je je realiseren dat wanneer je de verjaardag van Jan Peter Balkenende zoekt, je niet moet zoeken als [Wanneer is Jan Peter Balkenende jarig]. Nee dit soort informatie staat in biografieën meestal vermeld in een zin als "Jan Peter Balkenende is geboren op … in het Zeeuwse …..". Van die kennis moet je volgens de code van van Ess gebruik maken. Je moet je afvragen hoe het resultaat dat je zoekt er uit zal zien. Wanneer je dat eenmaal bedacht hebt, kun je veel sneller tot het juiste resultaat doordringen.

De zoekactie noemt van Ess ook wel de invultruc. Wanneer je in Google zoekt met de zinsnede ["Jan Peter Balkenende is geboren"] krijg je een kleinere en meer relevante resultatenset dan met de eerder geformuleerde zoekvraag. Let op het feit dat de aanhalingstekens een essentieel onderdeel zijn van de zoekactie. Op de resultatenpagina laat Google in de snippets vele malen zien dat het de geboortedatum van JP zeer waarschijnlijk 7 mei 1956 is. Toch is het verstandig om ook de derde stap te ondernemen en de controle op de kwaliteit uit te voeren met het gevonden resultaat.

In de controlestap ga je na wat de betrouwbaarheid van de gevonden informatie is. Door in Google te met het gevonden antwoord ["Jan Peter Balkenende" "7 mei 1956"] komen er verwijzingen naar het resultaten van het ministerie van Algemene Zaken en Parlement.com, een site van het Parlementair documentatie centrum van de Universiteit van Leiden.

Onderhand mag je dus wel stellen dat Balkenende zijn 54ste verjaardag komende 7e mei gaat vieren.

Werkt deze methode altijd?
Deze eenvoudige zoekstrategie van Henk van Ess lijkt prachtig te werken. Maar kun je hiermee ook alles vinden? Helaas niet. De aanpak werkt alleen voor informatie die letterlijk op deze wijze gepubliceerd is op webpagina’s. Veel informatie is echter opgeslagen in databases, het zogenaamde diepe of onzichtbare web. Daarnaast zijn de echte zoekvragen van het dagelijkse leven complexer dan de verjaardag van de MP. In dat geval zal er een grondiger analyse van de facetten van de zoekvraag aan vooraf moeten gaan.

Toch is het devies van "denken als een document" een heel sterke eerste stap om gerichter relevante informatie op het Web te vinden.

Meer zoektips van Henk van Ess
Van Ess, H. (2005?). Google vindt (bijna) alles! Zoeken kan echt op alle mogelijke manieren. http://www.zoekzone.com/google1.pdf en aanvullende tips.

Labels: , , , ,


19 januari 2009

 

Van zoeken naar vinden: van informatievaardig naar mediawijs

Vandaag mocht ik voor de docenten van de HAN faculteit economie en management 2 uur lang een presentatie geven over zoeken op het Web en een verbinding leggen naar informatievaardigheden voor hun studenten. Een lang verhaal over zoeken kan wat saai worden wanneer er geen oefeningen tussendoor gegeven kunnen worden. Toch ben ik wel geslaagd om hun aandacht voor die tijdspannen vast te houden met de volgende presentatie.

Van Zoeken Naar Vinden
View SlideShare presentation or Upload your own. (tags: mediatheken onderwijs)


Wanneer ik naar de reacties van Masja van Fruchten en Hans (Mestrum) on Experience geven zij ook aan dat ik in die opzet gslaagd ben. Hans heeft ook foto's, video en een podcast online staan. De links naar allerhande dingen staan trouwens ook online op mijn wiki.

Pas tegen het einde van de presentatie ging in op een wat meer formeel plan van informatievaardigheden. Maar naar mijn mening is dat niet voldoende. De docenten en studenten moeten ook beter gebruik gaan maken van allerhande Web 2.0 tools om te leren hun eigen informatie te kanaliseren te regiseren en te aggregeren in hun eigen kenniswereld.

Wanneer ik luisterde naar de verschillen in inzcht tussen docenten en mediatheken van de HAN, realiseerde ik me dat daar nog heel veel werk aan de winkel is.

Labels: , , ,


28 november 2008

 

Google nog niet overal de grootste

Vandaag kwam de Telegraaf met een verhaal over de cijfers van Comscore over het marktaandeel van zoekmachines in Japan. In het tweede deel van het artikel in de Telegraaf gaat de journalist in de fout. Hij of zij schrijft:
Waarom Yahoo zo populair is in het land van de rijzende zon, vermeldt het rapport niet. Het is op zijn minst opvallend, gezien de dominante positie van Google wereldwijd. In de Verenigde Staten was Google in dezelfde maand namelijk goed voor een marktaandeel van 62,9 procent, tegenover Yahoo's 20,2 procent.
Maar in het geval van Japan is de vergelijking met de rest van de wereld misschien niet helemaal terecht. Wanneer je kijkt naar China, dan  zie je dat daar Baidu nog steeds de populairste zoekmachine is (dat was daar ooit Google). Terwijl in het nabij gelegen Zuid Korea Naver de meest populaire zoekmachine is. Ook in Rusland hebben ze het niet zo op Google, daar is Яндексde de meest populaire zoekmachine.

Echt verbaasd ben ik daarom niet over de cijfers van Comscore over de zoekmachine markt in Japan. Dat de cijfers die ik zo snel even opduikel over andere landen niet de allerlaatste zullen zijn, geef ik meteen toe. Maar ze bevestigen het beeld dat de zoekmachinemarkt in het Oosten anders in elkaar zit dan de rest van de wereld.

En voor journalisten? Beter onderzoeken voor je wat schrijft?

Labels: , , , , ,


24 maart 2008

 

Digitale bibliotheken en Google

Over het algemeen hebben bibliotheken een haat liefde verhouding met zoekmachines en zeker de crawlers van zoekmachines. Nadat wij de databases net een beetje meer hadden opengesteld voor de crawlers was het systeem zo traag geworden omdat een bot door de databases dol aan het draaien was, dat die optie weer uitgezet werd. Maar toch zouden we graag in de zoekmachineindexen voorkomen, en het liefst hoog ranken.

Goede sitemaps, statische browse pagina's, allemaal mogelijk. Maar wat is nu het beste?

In het laatste issue van het Code4Lib journal zit een leuk artikel dat hierover gaat. Jody L. DeRidder (2008) Googlizing a Digital Library geeft hierover wat meer inzicht. Uit haar conclusie:
Although the full-text version of the static files is less user-friendly
than the dynamically-delivered versions, an added link to the latter can help to
ameliorate the pain of this trade-off. In addition, browse indexes which serve
to increase page ranking in search engine results, also increase usability to
consumers. A surprise benefit of the static browse pages has been their success
in channeling other crawlers to the static finding aids, which serves to further
advertise their existence via various search engines. Thus, the static browse
system enables crawling and indexing even by search engines which do not support
sitemaps, and hence complements the sitemap method.
Een browse ingang op de catalogus. Ik pleit er al jaren voor. Misschien dat dit helpt wanneer we ook een uitgebreide sitemap implementeren. Er zit trouwens veel meer leuke artikelen in dit relatief jonge Code4Lib Journal.

Labels: , ,


26 november 2007

 

Verder dan het geavanceerd zoekformulier

Vandaag mocht ik tijdens de Vogin cursus een en ander vertellen over de wat meer geavanceerde zoektechnieken die er met de gewone zoekmachines mogelijk zijn. Toch had ik vandaag een korte tijd dat er iets niet helemaal overkwam. Dat kan je ook met het geavanceerd zoekformulier kwam er soms uit de zaal. Dat was waar.
Ik stak nog in op de toegevoegde waarde die je als informatiespecialist hebt, door het grondig kennen van de zoekmachines. Weten hoe de opties uit het zoekformulier vertaald worden in kleine wijzigingen in de zoekbox van het gewone zoekformulier, of de URL van de zoekmachine. Daar kun je dan weer je voordeel mee doen was mijn redenatie. Toch leek het te blijven hangen en had ik nog niet het overtuigende argument geleverd voor mijn cursusten om verder te kijken dan het geavanceerd zoekformulier.
Het is natuurlijk al een hele stap vooruit wanneer je dat formulier weet te vinden en te gebruiken. Je bent dan meestal al mijlenver vooruit op je gebruikers. Maar ik vind dat je als informatieprofessional een stapje verder kunt zetten.
Het kwartje viel toen ik wilde laten zien hoe je informatie kon zoeken over bodemvervuiling met zware metalen. In het Engels natuurlijk. Probeer maar eens of je iets simpels als twee phrases kunt combineren in het geavanceerd zoekformulier. Dan moet je toch echt kennis hebben van de methode waarop je een wat meer complexe zoekvraag rechtstreeks in de zoekbox ingevuld kunnen worden of in de URL aangepast kunnen worden. In feite is de zoekopdracht heel simpel ["soil pollution" "heavy metal"]. Toen was de zaal om.
Altijd weer fijn om zo'n moment mee te maken tijdens een cursus. Zo'n kwartje dat valt.

Labels: ,


02 juni 2006

 

De volgende slag om de rangorde

Vandaag kwam mijn artikel uit in de IP met en prachtige illustratie van Henk Ruitenbeek. De aanleiding om dit artikel te gaan schrijven was een post van Jim Hedger op Search Engine Guide over nieuwe patenten van Google die Eric Sieverts aan mij doorspeelde.
In mijn bedankje voor de nuttige link liet ik aan Eric zo mijn gedachten gaan over hoe dit past in het perspectief van de ontwikkelingen van zoekmachines om spammers voor te blijven. Waarop Eric vroeg daar eens wat uitgebreider over te schrijven in de IP.
Wanneer je daar dan ja op zegt, moet je vervolgens wel wat meer studie verrichten om het allemaal onderbouwd op een rijtje te krijgen. Het artikel van Gyöngyi en Garcia-Molina (2005) helpt goed om de spam typeringen op orde te krijgen. Metaxas en DeStefano (2005) beschrijven hoe de zoekmachines op spam gereageerd hebben. Zij schetsen nog een ontwikkelingen extra rond het link spammen, maar dat vond ik te ver voeren voor mijn artikel. De oplossing tegen linkspammers die zij aandragen vind ik wat minder, en het is voor mij allang duidelijk dat Google met Google Personal ook een andere kant op beweegt.
Een discussie op het forum van webmasterworld die genoemd wordt in de post van Jim Hedger, kon ik rond die periode ook zomaar bij, terwijl dat normaal achter een wachtwoord zit. Ik denk dat de essentie van deze discussie zit in het feit dat de meeste mensen denken dat Google (of Yahoo!, MSN, Ask etc.) pas wat van je gedrag te weten komt wanneer je iets intikt, of op een advertentie klikt. Het vilein zit echter in het feit dat je surfgedrag al wordt geregistreerd wanneer je een pagina opvraagt waarop advertenties staan of wanneer er een (onzichtbaar) tellertje opzit zoals voor Google Analytics. De meeste mensen realiseren zich dat niet.
Wakker worden! Zouden Theo Huibers en Nart Wiellaard zeggen.

Referenties
Gerritsma, W. (2006). Zoekmachines de volgende slag om de rangorde. Informatie Professional 10(6): 26-28. http://www.wowter.nl/articles/zoekmachines%20de%20volgende%20slag%20om%20de%20rangorde.pdf.
Gyöngyi, Z. & H. Garcia-Molina (2005). Web Spam Taxonomy. First International Workshop on Adversarial Information Retrieval on the Web (at the 14th International World Wide Web Conference), Chiba, Japan. http://www-db.stanford.edu/~zoltan/publications/gyongyi2005web.pdf.
Metaxas, P.T. & J. DeStefano (2005). Web spam, propaganda and trust. AIRWeb05, Chiba, Japan. http://cs.wellesley.edu/~pmetaxas/TR28-2004/spamPropTrust.pdf.

technorati tags: ; ; ;

Labels: , ,


This page is powered by Blogger. Isn't yours?