06 februari 2010

 

De Google Code gekraakt?


Het woordje 'code' in de titel zet me even op het verkeerde been. Betreft het een vervolg op het fameuze boek Google Hacks van Tara Calishain en Rael Dornfest uit 2003? Het gaat hier echter om een heel ander soort uitgave. In De Google Code presenteert Henk van Ess een eenvoudige zoekstrategie om efficiënt met Google op het web te kunnen zoeken. Hoewel zijn methode van zoeken – de code – in feite ook toepasbaar is bij andere zoekmachines zoals Yahoo!, Bing of Ask, siert Googles naam (marketingmagie!) de omslag.

De Google Code is opmerkelijk dun voor een uitgave over zoeken op het web: 136 pagina’s met heel veel illustraties, veelal kleine schermafbeeldingen van zoekacties en het eerste resultaat. Het werkje is vlot geschreven en na pakweg drie à vier uur lezen heb je het uit. Van Ess raadt trouwens aan om het boek niet te lezen met de pc erbij – en vanwege de overvloed aan illustraties is dat ook niet nodig. Bovendien wordt ook wel heel simplistisch uitgelegd wat het idee achter iedere zoekactie is en vervolgens wordt de zoekactie ook nog eens visueel getoond.

Denken als een document
Goed, je hebt het boekje uit. Wat heb je nu geleerd? Henk van Ess omschrijft de code zelf als volgt: ‘Ga niet uit van wat je zoekt, maar van je wilt vinden. Stel geen vraag, maar voorspel het antwoord. Visualiseer wat je zoekt. Je probeert beredeneerd te gokken hoe informatie is opgeschreven. Je leert met verstand te raden hoe mensen dingen opschrijven. De beste manier om de juiste woorden te vinden, is te doen alsof je zelf de schrijver bent.’ Hij heeft het ook wel over denken als een document. In feite doet Van Ess zijn methode een tikkeltje tekort wanneer hij het op deze manier samenvat.

Zijn code bestaat uit drie stappen. De eerste is de conceptuele stap, waarin je bedenkt wat je eigenlijk wilt vinden en hoe die informatie ergens op het web geformuleerd zal staan. De tweede stap is het uitvoeren van een zoekactie, waarbij verschillende zoektechnieken helpen om het resultaat in te perken. Van Ess is terecht fan van het gebruik van aanhalingstekens om met hele korte – ingehouden – zinnetjes precies dat te vinden wat hij wil weten.

De derde stap van de code is de controlestap. Deze stap komt in het boek niet zo uitgebreid aan bod, maar vormt wel een onlosmakelijk geheel met de twee eerdere stappen.

Werkt het altijd?
De eenvoudige zoekstrategie van Henk van Ess lijkt prachtig te werken. Maar kun je hiermee ook alles vinden? Helaas niet. De aanpak werkt alleen voor informatie die letterlijk gepubliceerd is op webpagina’s. Veel informatie is echter opgeslagen in databases, het zogenaamde diepe of onzichtbare web. Google is slechts zeer mondjesmaat in staat om die data boven tafel te krijgen. Van Ess geeft dat zelf ook aan in het hoofdstuk over Google-geheimen. Hij suggereert in dat hoofdstuk zelfs dat zijn volgende boek daar misschien over moet gaan.

De Google Code – Stop met zoeken, begin met vinden
Henk van Ess / Pearson Education Uitgeverij / 136 p. / ISBN 9789043019088 / € 14,95

Deze recenssie verscheen eerder als:
Gerritsma, W. (2010) De Google code gekraakt? Informatieprofessional, 02/2010 p.35

Gerelateerd: Zoektips van zoekmachine experts: Henk van Ess

Labels: , , ,


01 januari 2010

 

Zoeken naar getallen met Google

In het leuke nieuwe boekje van Henk van Ess, werd ik even in verwarring gebracht omdat van Ess in de Google code adviseert om met drie puntjes naar getallenreeksen en rijen te zoeken. Drie puntjes? Het waren er toch twee?

Even wat heen en weer twitteren met @Henkvaness waarin hij mij wees op een pareltje van een discussie op Google Blogscoped van Philipp Lenssen.

Officieel zou het zoeken naar getallenreeksen inderdaad met twee puntjes moeten werken. Het gaat ook meestal goed bijvoorbeeld ["digitale spiegelreflexcamera" 300..500] om camera's tussen de 300 en 500 te vinden. Dat zijn dus ook allerhande 500 tips. Met euro's werkt deze operator nog steeds niet, met dollars daarentegen wel ["digitale spiegelreflexcamera" $300..500].

Er blijken echter uitzonderingen te zijn. Bij de reeks [1000000..10000000000] blijkt het niet goed te werken. Het geeft zelfs een foutmelding. Het lijkt er op dat 99999 met maximale minimum getal voor een reeks is. Maar wanneer je de search in de URL programmeert blijkt dat weer niet zo te zijn. De URL http://www.google.com/search?as_q=&as_nlo=1000000&as_nhi=10000000000&start=0 laat zien dat het minimum nummer wel degelijk groter mag zijn dan 9999. Maar deze URL is lastig te onthouden om op dit soort getallenreeksen te gaan zoeken. De oplossing zijn de drie puntjes [1000000...10000000000] die lijken altijd te werken.

Onze conclusie. Luie zoekers blijven gewoon twee puntjes gebruiken, maar wil je meer zekerheid gebruik dan drie puntjes. Zo leer ik dus ook weer wat bij tijdens het recenseren van een boekje over Google.

Overigens ook aardig is om te zien dat wanneer je creditcardnummers probeert te zoeken [4049000000000000...4049999999999999], Google die niet lijkt te tonen. Gelukkig lijkt het wel goed gaan voor logische reeksen van Nederlandse mobiele telefoonnummers [0653000000...0653999999]

References
Henk Van Ess (2009). De Google code. Amsterdam, Pearson Education. 136 pp.

Labels: , , ,


10 augustus 2009

 

Waarom bibliotheken met hun informatie op Google cs moeten inzetten

Collega Sieverts wil het maar niet met mijn pleidooi eens zijn dat het verstandig is voor bibliotheken om hun waren met Google en soortgelijke zoekmachines doorzoekbaar te maken. Hoewel hij lijkt voor een type zoekactie een uitzondering te willen maken. Zijn pleidooi ligt misschien iets anders voor de zogenaamde "known item" zoekacties, zoals hijzelf aangeeft. Wanneer ik naar de log files van onze catalogus kijk valt het juist op hoeveel van dit soort zoeken naar de bekende weg plaats vindt. Zo gauw iemand een regeltje met 6 titelwoorden in een zoekmachine klopt, wordt de zin al zo specifiek dat de kansen van catalogusrecords om boven komen te drijven alweer behoorlijk toenemen. Als het dan ook nog eens om rapportliteratuur gaat dat niet in de reguliere boekhandel te krijgen is, dan nemen de kansen nog meer toe. Afijn, zo kan je dit naar hele specifieke gevallen toe redeneren, maar dat wil ik hier niet doen. Mij gaat het om het principe dat Google de favoriete zoekingang is van veruit de meeste mensen en onze studenten en onderzoekers zijn in wezen ook mensen. Dus wil je gevonden worden dan moet je in Google zitten.

Mijn redenering werd van de week weer kracht bijgezet door een grote wetenschappelijke uitgever. Wij werden door Wiley geattendeerd op het feit dat tot hun schande de gebruiksstatistieken van de elektronisch tijdschriften en boeken over mei en juni zwaar zouden tegenvallen omdat de indexeerregels van Google waren veranderd.

"Google excluded all Wiley InterScience content from its search results. As Google is a key driver of users to content this had a significant impact on usage of our journals in May and June 2009".


Het is een geluid dat mij niet onbekend voorkomt. Op het oude platform van BioOne werden er nog statistieken verstrekt over de herkomst van bezoekers die artikelen downloaden. Daar bleek dat van onze gebruikers 76% gebruik maakte van Google om tot die tijdschriften te komen. Met de nieuwe opzet van het BioOne platform kan ik deze getallen helaas niet meer actualiseren. Wel is het zo dat ik soortgelijke geluiden ook al eens bij Elsevier te horen heb gekregen, hoewel je het daar ook niet via de gebruikersstatistieken zelf kunt bekijken.

Ik denk dat het belangrijk is om te leren dat uitgevers er duidelijk baat bij hebben dat hun inhoud terug te vinden is in Google. Wat voor uitgevers geldt, geldt mijns inziens ook voor bibliotheken. Vervolgens kunnen we natuurlijk bakkeleien over de vraag of dat dan in de gewone Google moet zijn, Google Scholar of Google Books. Moeten bibliotheken het eigen kracht doen of via een koepel organisaties zoals OCLC met zijn vlaggenschip Worldcat? Het zijn allemaal keuzes en opties waar wel over nagedacht dient te worden. En een passende strategie voor ontwikkeld dient te worden. Niets doen op dit vlak is geen optie.

Overigens de veranderde indexeerregels van Google hebben ook ons ernstig parten gespeeld. We zijn teruggezet van zo'n 700,000 items een paar maanden terug naar ruim 400,000 op dit moment. Even ter geruststelling van Eric, het zijn juist de kale catalogusrecords die gewipt zijn. Onze documentatierecords, dissertaties en WUR publicaties zitten er nog netjes in. Toch eens zien of we in de toekomst dingen kunnen verbeteren zodat we wel weer naar de 800,000 items in Google door kunnen groeien.

Labels: , , ,


25 januari 2009

 

Een voordeel van je catalogus in Google

De afgelopen tijd hebben we behoorlijk ons best gedaan onze catalogus en documentatiebestanden zo goed mogelijk door Google geïndexeerd te krijgen. Nog lang niet alles zit er in –daar kwam ik achter voordat ik deze post ging schrijven- maar wel behoorlijk wat. Ruim 781.000 items. Voorzover dit soort cijfers wat zeggen, maar voorwaar een hele hoop. Het is in elk geval heel veel meer dan ik voor andere Nederlandse bibliotheekwebsites vind.

Onze rationale hierachter is dat onze gebruikers de grote G nu eenmaal graag gebruiken. En omdat wij moeten gaan waar onze gebruikers gaan, is het daarom logisch om zoveel mogelijk van onze catalogus en documentatiebestanden in de Google index te krijgen. Een voorbeeld van dat belang wordt onderstreept door de gebruiksstatistieken van een –prijzig– tijdschriftenpakket waarin keurig vermeld waar de gebruikers vandaan komen. Voor dat bewuste pakket staat al jarenlang steevast bekend bij ons dat tussen de 75-80% van de bezoekers via Google binnenkomen, en slechts voor de overige 20-25% via onze eigen digitale bibliotheek bronnen. De desbetreffende tijdschriften zitten op titel en abstract niveau al jaar en dag in Google –maar de volledigheid heb ik nog nooit gecheckt– en het gebruik van de artikelen is prima. Althans, wanneer we kijken naar de kosten per download gerekend over het totale pakket. Dus wie zou er mopperen?

Een klein stemmetje zegt me, dat wanneer alle uitgevers zouden besluiten dat ze hun artikelen op titel en abstract niveau door de gewone Google laten indexeren, dat we dan wel kunnen ophouden met secundaire bronnen aan te bieden in de digitale bibliotheek voor resource discovery. Oftewel, we een begin kunnen maken met het afbreken van die zorgvuldig gebouwde digitale bibliotheek.

Maar afgezien van dit relevante bezwaar en gevaar, bieden wij dus zoveel mogelijk van onze eigen bronnen aan in Google. En deze week hadden we er een groot voordeel mee. Onze eigen systeem had afgelopen week veel last van storingen. Website, catalogus, uitleningen van alles dat er niet werkte. Maar gelukkig beschikten we wel over de Google cache.

Een boektitel opzoeken in Google, met site:library.wur.nl. In de Google cache kijken. Magazijnnummer op een briefje schrijven. Briefje in de boekenlift, en het boek kon opgehaald worden. Uitlening op papier noteren, en zo kon ook de fysieke bibliotheek tijdens de storingen toch nog een beetje doorwerken. Een jaar geleden had digicmb al eens op de toolbars en netvibes gewezen als bakcup voor de bibliotheeksystemen, de Google cache hoort daar in ons geval dus ook bij.

Nu maar hopen dat komende week de storingen van de lucht zijn. Dan kunnen wij eens nadenken over mogelijke backupsystemen, voor het geval ons systeem weer eens kuren vertoont.

Trouwens, nu wel zoveel in de Google index hebben zitten, begint de echte uitdaging pas. Hoe zorg je ervoor dat die 781.000 biblioteek records ook in Google bij de juiste zoekvragen naar boven komen? Hoe optimaliseer je 781.000 "dunne" metadata items voor zoekmachines. Daar hebben we nog een hele hoop te leren. SEO bedrijven trouwens ook.

Labels: , , , ,


11 december 2008

 

Wanneer ik vooruit kijk naar Google door mijn achteruitkijkspiegel

Het is weer de tijd van lijstjes. Van achterom kijken naar de meest populaire zoektermen, in Ask of AOL, maar ook vooruit kijken. Het -hardop- nadenken over wat het volgende jaar ons gaat brengen hoort even goed bij deze tijd van het jaar. Ik wil vanavond stil staan bij Google. Google vierde dit jaar zijn tiende verjaardag. De afgelopen 10 jaar heeft het zich ontwikkeld van een beginnende zoekmachine, tot de meest populaire zoekmachine, met bijna complete werelddominantie. Een bedrijf dat zich verder is gaan ontwikkelen tot compleet multimediabedrijf en een van de grootste uitgeverijen ter wereld. Zeer zeker het grootste reclamebedrijf ter wereld. Een goede analyse van de mogelijke strategieën die aan de schier oneindige expansie van Google ten grondslag liggen werd onlangs gegeven door faberNovel. Een analyse van de businessmodellen van Google die beslist de moeite waard is om goed op je in te laten werken.

Niet over businessmodellen
Ik wil het hebben over de wortels van Google. Het zoeken. Wat ik meen waar te nemen als trend van Google in 2008 is dat ze hun eigen zoekmachine weer serieus zijn gaan nemen. Natuurlijk hebben ze altijd aan hun zoekmachine gewerkt, maar de laatste jaren was Google drukker met allerhande zaken, behalve search. Daar lijkt dit jaar een kentering in gekomen te zijn. Waarschijnlijk zal de economische crises deze trend de komende tijd alleen maar versterken. Versterken van de basis. Doen waar je goed in bent. Dat zal de animo van Google wel eens kunnen verminderen om weer nieuwe soorten bedrijven en activiteiten over te nemen of te starten. Maar gewoon weer werken aan zoektechnologie.

De trends van Google op het gebied van zoeken in 2008
Google is in 2008 serieus begonnen met het verkleinen van het gapende gat aangeduid wordt als het Diepe Web of het Onzichtbare Web. Voor het bestaan van het Diepe Web zijn meerdere oorzaken aan te wijzen. De allergrootste is het feit dat zoekmachines weinig kunnen met databases op het Web. Dit jaar kwam Google echter met het bericht dat het een begin is gaan maken met het indexeren van informatie achter zoekformulieren. Tel daar nog eens bij op dat Google tegenwoordig ook veel beter omgaat met dynamische URL's. Dan lijkt het database probleem op een haar na geveld.

Daarnaast is optische tekst een bekend probleem. Zeker het wetenschappelijke -serieuze?- deel van het Web is vergeven van grafisch tekstbestanden die niet ge-OCR-ed zijn. Een voorbeeld is dit oude patent. Sinds kort is Google begonnen met het indexeren van de teksten in al dit soort grafische bestanden. Voor deze technologie staan er hele rijen met wetenschappelijke tijdschriften bij uitgevers waar de ook oplossing ook op toegepast kan worden. Voor Google Scholar zijn er dus nog volop mogelijkheden.

Als derde trend is er de aankondiging Google is begonnen met het indexeren van flash files. Tot voor kort werden Flash files nog niet geindexeerd maar sinds juni dit jaar is Google er mee begonnen.

Vinden met Google in 2009
Al met al kan je stellen dat Google het afgelopen jaar is gekomen met een reeks van maatregelen om die een serieuze poging zijn om het Diepe Web een stukje te dempen. Het zijn technieken die door Google ontwikkeld zijn om nu en volgende jaren in te zetten en waarvan de resultaten geleidelijk beschikbaar komen. Het Diepe Web bestaat nu nog steeds. Je kunt het ook nog makkelijk zien bij een Flash tijdschrift als Paarsmagazine waarvan Google er op dit moment slechts een twintigtal webpagina's van heeft geindexeerd. Maar wat ik hier schets lijken de opmaten voor Google om Search weer centraal te gaan stellen. In 2009 zullen we van deze technologieën de vruchten gaan plukken.

Kortom, veel plezier met vinden met Google in 2009

Labels: , ,


25 juli 2008

 

Google kent een biljoen pagina's

Op de officiële Googleblog werd zojuist gewag gemaakt van het feit dat Google een Amerikaanse trillion pagina's geïndexeerd heeft. Een Amerikaanse trillion 1,000,000,000,000 (10^12) is in goed Nederlands echter een biljoen. Dat is een miljoen keer een miljoen pagina's.

Da's heel veel. Maar zeer zeker nog niet het hele Web. Er blijven altijd gaatjes. Al worden ze kleiner.

Tegenwoordig kan Google zonder vrezen dit soort cijfers naar buiten brengen. Bijna drie jaar geleden spraken we over de volgende ronde in de zoekmachine oorlog toen er met veel trommelgeroffel over de omvang van de verschillende zoek indexen werd gesproken. Tegenwoordig lijkt er geen zoekmachine meer in de buurt te komen van Google.

Labels: ,


23 april 2008

 

Whois WoW!ter?

Sinds een paar dagen ondersteunt Google een nieuw commando. Het whois commando.
Werkt allemaal prima wanneer wat meer wilt weten van .com .net .org .edu type domeinen en wanneer je het commando opgeeft in google.com in plaats van google.nl. Wanneer je aan die voorwaarden voldoet kun je dus nagaan wie er achter wowter.net schuil gaat.

Voor Nederlandse domeinen is de bron nog altijd SIDN

Labels: , ,


12 april 2008

 

Het diepe Web wordt weer wat minder diep

Soms wordt er gedacht dat alles op het Web geïndexeerd wordt door zoekmachines en dat je met de Google's van deze wereld dus alles kunnen kunt vinden op het Web. Niets is minder waar. Er bestaat ook ook nog zoiets als het diepe Web, soms wel het onzichtbare Web, of het verborgen Web genoemd. In cursussen over beter zoeken op het Web besteed ik daarom vrij veel aandacht aan de problematiek rond de informatie besloten in het diepe Web.

Oorzaken zijn ondermeer dat webpagina's of websites bijvoorbeeld te groot zijn, of de inhoud bestaat uit niet geïndexeerde bestanden zoals .tar .gz of zip, of bijvoorbeeld pagina's die gemaakt zijn met flash. Een andere belangrijke rol spelen de ordinaire tolpoortjes, het prive Web, of staan robots.txt het indexeren van Websites niet toe. Aan de andere kant spelen ook cognitieve factoren een rol bij het diepe Web. Men kijkt niet verder dan pagina drie van de zoekresultaten.

De grootste oorzaak van het diepe Web zit echter in databases. De meeste informatie is opgeslagen in databases. Zoekmachines kunnen niet overweg met de zoekschermen van databases. In welk vakje moeten ze de auteur invullen? Of het jaartal? Welk auteur? Dat lag tot voor kort niet op de weg van zoekmachines. Bergman schatte in 2001 dat het diepe Web ongeveer 500 maal groter is dan wat er door zoekmachines geïndexeerd wordt. We weten ondertussen dat de schatting van Bergman wat grof waren, maar het diepe Web bestaat nog steeds.

Toch zijn zoekmachines steeds beter geworden in het indexeren van database resultaten. Van PubMed zitten tegenwoordig ruime 2 miljoen records in de gewone Google, in Google Scholar de complete (?) Pubmed. Worldcat zit volledig (?) in Google Books. Daarnaast kun je tegenwoordig bijvoorbeeld via het OAI-PMH protocol inhoud aan de Google index toe laten voegen. Allemaal databaseinformatie dat opgenomen wordt in de grote Google. Zoekmachines over het algemeen worden steeds beter in het verkleinen van het diepe Web.

Google gaat nog verder in het stillen van de eeuwige informatiehonger. Gisteren maakte Google bekend dat het begint met het indexeren van de inhoud van databases door zoekformulieren in te vullen. De Google bot vult wat woorden in uit de context van het zoekformulier en gaat vervolgens aan de slag met het indexeren van het zoekresultaatresultaat.

Van dit soort dingetjes wordt ik weer even helemaal stil. Wat knap denk ik dan.

Literatuur
Bergman, K. T. (2001). The deep web : surfacing hidden value. The Journal of Electronic Publishing 7(1). http://dx.doi.org/10.3998/3336451.0007.104

Labels: , ,


01 april 2008

 

Kijkje achter de schermen bij Google in HBR

Deze maand is het april nummer van Harvard Business Review (HBR) vrij on-line toegankelijk. HBR is een van die top management bladen, dat normaal niet op mijn leeslijst staat.

Toch wil ik jullie het artikel over geleide en doelgerichte innovatie bij Google niet onthouden. Google is immers het grootste informatiebedrijf in de wereld. Wat de grote Google doet gaat ons allemaal aan.

Labels: ,


01 februari 2008

 

Wie verslaat Google?

Dat was de vraag die Eric Sievert zich stelde in zijn laatste column in de Informatie Professional. Vandaag kwam het antwoord. Eric wordt op zijn wenken bediend. Microsoft biedt maar liefst € 30 miljard voor zoekmachine gigant Yahoo!

Het bedrag is teveel om te bevatten. Ondertussen was het slechts een bijzin in het 8 uur journaal, maar
dit bericht zal de blogwereld nog wel even bezig houden.

Ik was twee of drie weken geleden al verbaasd over de aankondiging van Microsoft dat ze Fast gingen kopen . Maar dat zag ik wel als een logisch stap. Na even zovele pogingen van Microsoft om zelf een goede zoekmachine te bouwen, om dan maar de op een na beste speler op dit gebied in te lijven. Fast stond destijds aan de wieg van AllTheWeb (de link verwijst naar echt een goede serie over Fast en AllTheWeb om te verder lezen). Terwijl AllTheWeb via Overture in bezit kwam van Yahoo! -die er te weinig mee heeft gedaan- komt Fast nu weer samen met zijn oude erfenis van AllTheWeb. Dat was nog eens een zoekmachine!

Ik ben werkelijk heel benieuwd of het Microsoftlukt het bod gestand te doen. En of ze daarna in staat zijn om eindelijk een serieus antwoord te maken op het gebied van websearch. Het wordt maar al te vaak vergeten dat de kracht van de Google zoekmachine allang niet meer zit in een superieur algorithme, maar vooral dat het een sterk merk is en daarnaast beschikt over een vaak vergeten hardware infrastrutuur, die zijn weerga in de wereld niet kent.

Toch is Google niet op alle internet terreinen de marktleider. Wat betreft mail en chat bijvoorbeeld zijn Microsoft en Yahoo! elk alleen al groter dan GTalk.

Kortom wordt vervolgd.

Labels: , , ,


02 november 2007

 

Google spam (2)


In mei berichtte ik al eens eerder over de spam van Google, volgens Google. Vandaag zijn de problemen nog niet opgelost. De Google Earth newsletter werd weer als spam herkend in Gmail. Toen ik de mail op de juiste plek gezet had en opende werd ik alsnog uitdrukkelijk gewaarschuwd over het feit dat de inhoud toch niet te vertrouwen is en dat ik vooral moet oppassen met het volgen van de links.
Ach ja, het is vrijdag denk ik dan....

Labels: ,


29 oktober 2007

 

De gevolgen van de PageRank update voor dit weblog

Natuurlijk had ik het oververdovende gekrakeel over de nieuwste pagerank update van Google ook gehoord maar ik had er tot nu toe geen serieuze aandacht aan besteed omdat ik had begrepen dat het vooral om websites met veel 'paid-links' zou gaan waar Google nu tegen optrad. Wel, tot zo juist dacht ik dat dan. Bij Pierre las ik net dat hij ook getroffen was door de PR update van Google. Hem had ik er nooit van verdacht om op grote schaal links in te kopen om kunstmatig een hoge PR te krijgen. Nee, zoiets past Pierre niet. Pierre is gewoon een liefhebber van eerlijk bloggen, podkasten en informatie delen.
Ik begon dus nattigheid te voelen. Daarom besteede ik allereerst serieus aandacht aan de Google Toolbar PageRank. Die is voor mijn blog inderdaad omlaag gegaan, van 5 naar 4. Serieuzer verder controleren met Dig Pagerank, dan kom ik bij alle datacenters ook op 4. Dus zowaar, ik word dus ook getroffen door de laatste PageRank update van Google. Niet dramatisch, maar toch omlaag.
Snel eens wat zoekacties controleren [liefde op het platteland] nog steeds op 1 of [overzicht biblioblogosphere] of voor [gelinieerd papier] kom je nog steeds bij mijn blog als eerste terecht. Nee echt zorgen maak ik me dus niet.
Wat wel te voorzien is dat ik door de PR update in de nieuwe versie van Marcom top 100, later deze week en de blog top 50 (ook later deze week?) wel behoorlijk wat plekken zal duidkelen. Maar daar lig ik niet echt wakker van. Wel stel ik me voor dat er weer een heel tumult los breekt wanneer blijkt dat er meer kleine blogjes zijn die een lagere pagerank hebben gekregen in de huidige ronde van PR updates. Oude discussies zullen weer opbloeien.
Gelukkig is mijn Technorati rank weer iets gestegen in vergelijk met vorige maand. Dus wie weet wat er uit de verschillende rankings naar voren komt.

Labels: , , ,


10 oktober 2007

 

Soms snap ik er niets van

Vandaag mocht ik cursus geven over het zoeken van wetenschappelijke informatie op het Web, met gebruik van vrij beschikbare bronnen. Ik denk wel eens wat van zoekmachines of onderzoekers in welke combinatie dan ook te begrijpen. Die twee met elkaar in contact te brengen is erg leuk.
Maar soms...

Soms snap ik er helemaal niets van. Vandaag had ik dat weer eens met Google. Ik pochte gisteren nog dat ik snel op 1 zou komen met de zoekactie "liefde op het platteland". Het lijkt er op dat dat is gelukt, nog sneller dan ik dacht -hoewel ik dat nog even moet boekstaven op een publieks-pc-. Alleen wanneer ik goed naar het resultaat op Google kijk dan snap ik het niet. Er staat een link onder naar bommie. Een site waar ik nog nooit eerder van gehoord heb. Toch linkt het mooi door naar mijn post. Maar de filosofie achter het een en ander kan ik niet rond krijgen. Wat is hier aan de hand?

Labels:


09 oktober 2007

 

Liefde op het platteland

De post gaat niet over Boer zoekt Vrouw laat staan Yvon Jaspers. Nee het gaat om records van onze documentatiebestanden in Google. Dit mooie record "Liefde op het platteland" dat momenteel no. 1 rankt in Google, op precies diezelfde zoekvraag, is daar een voorbeeld van. Het zal trouwens niet lang duren dat dit rerecod niet meer op 1 staat, want ik denk dat deze post snel hoger zal scoren. Daar staat net geen weddenschap op, maar toch.

Vorige week was onze bibliotheek website en onze eigen systemen een draak qua prestatie. De Googlebot had onze website totaal gevloerd. Knock out waren we. Een simpele zoekactie duurde soms wel 10 minuten voordat er resultaten kwamen. Dus op een gegeven moment is de Googlebot hardhandig de toegang ontzegd. De oorzaak -bleek achteraf- was de tijdschriftenlijst van het documentatiebestand Artik dat voor ons enkele belangrijke vakbladen dekt. De Googlebot was die vrolijk gaan indexeren, op een niet zo efficiente wijze. Neem bijvoorbeeld het tijdschrift de Boerderij -lekker Wagenings- op de bijbehorende zoekvraag worden meteen ongeveer 6000 records gevonden. De google bot ging steeds een pagina verder via de "volgende" link, maar om de set 5901-6000 op te halen begon het weer op de eerste pagina, en volgende pagina, en de zoveel volgende links tot het bij 5901 was aangekomen. Wat de robots.txt ook zei de bot ging vrolijk door.

Mixed feelings in de bibliotheek. Er zijn mensen die al jaren aanhangen dat dit een hele goede zaak zou zijn. Ik bijvoorbeeld. Onder het credo "breng de bibliotheek daar waar de gebruikers zijn" is dit het credo in de praktijk gebracht ten voete uit. Aan de andere kant waren systeembeheerders altijd al bevreesd voor dit soort lamleggen van het systeem door bots ten koste van de gebruikers.

De systeembouwers en beheerders hebben hun gelijk ruimschoots gehaald. Toegegeven. Maar dat neemt niet weg dat we nog steeds een hele grote wens hebben van de vindbaarheid in Google. Waarbij Google voorbeeld is voor dat kleine staartje van Yahoo, Live, Ask, Ilse en wat al dies meer zij.

Toch hebben wij ook ons gelijk gekregen. Er was deze maand al 11 keer gezocht op "liefde op het platteland" op Google en doorgeklikt op het betreffende record. Er waren meer populaire records, maar geen mooiere titels dan "liefde op het platteland". De hamvraag is natuurlijk of de gebruikers er mee geholpen zijn? Sommige collega's denken van niet. Toch denk ik dat het betreffende record wel precies inzicht geeft in waar het betreffende special issue van de Boerderij over gaat. Waaschijnlijk relevant materiaal wanneer je de vraag stelt. Of je de moeite wilt doen het betreffende issue van de Boerderij op te vragen is vers twee. Maar dat is via IBL mogelijk vanuit iedere bibliotheek van Nederland.

Waarom ik het een mooi record vind?
Kijk een naar de titel tag. Daar staat keurig netjes de titel vermeld. Dat is toch heel wat mooier een resultaat dat een paar regels lager staat van Darenet -het origineel daarvan uit Groningen is trouwens al stukken beter- Daarnaast wordt in ons record keurig aangegeven dat het record uit Artik komt. Ach het zijn slechts details, maar geeft wel aan dat we op de goede weg zijn.

Nu alleen het Google monster nog temmen.

Labels: , ,


27 september 2007

 

Gefeliciteerd Google !

Labels:


20 juli 2007

 

Google in Netwerk

Weer eens een portret van Google op TV vandaag. Dit keer gaat Netwerk onderzoeken hoe het met de privacy van de gebruikers bij deze mediagigant zit. We hebben al eerder programma's van Zembla en Tegenlicht
of anders het Klokhuis mogen zien. De ene uitzending was minder geslaagd dan de andere, maar ik ben wel benieuwd wat Netwerk er vandaag van gaat maken. Nu maar hopen dat ik dat EO gezicht van die presentator lang genoeg kan verdragen om de uitzending door te komen.
Voor de vakatantiegangers is er altijd nog uitzending gemist.

Labels: ,


05 juli 2007

 

Elsevier en Google zijn er uit gekomen

Google heeft een belangrijke stap gezet. Google heeft een overeenkomst met Elsevier om de inhoud van ScienceDirect in Google (Scholar) op te nemen. Een belangrijk kritiekpunt op Google Scholar wordt nu deels weggenomen. We weten niet precies wat er in zit en de grootste uitgever van wetenschappelijke tijdschriften zat er slechts deels in. Maar de grootste uitgever van wetenschappelijke tijdschriften -ruim 1800 tijdschriften- gaat overstag. de kracht van Google valt schijnbaar ook voor hun niet te ontkennen. Wat zullen de gevolgen zijn voor de strategie van Scopus en Scirus? Wat zij de gevolgen voor Web of Science en Thomson Scientific?
Ik zie alleen bevestiging bij Sidi (ook mijn bron). Ik kijk uit naar de persberichten van Google en Elsevier.
Maar er is wat water door de Rijn gegaan kunnen we wel stellen.

Labels: ,


25 mei 2007

 

Google wat moet ik vandaag bloggen?

Gisteren refereerde Richard Rogers tijdens de IP 10 debat al even naar de uitlatingen van Eric Scmidt, dat Google nog verder je leven in wil kruipen dan het nu al doet. Eric Schmidt (VP Google) stelde in de FT ondermeer het volgende:

gathering more personal data was a key way for Google to expand and the company believes that is the logical extension of its stated mission to organise the world’s information.

“The goal is to enable Google users to be able to ask the question such as ‘What shall I do tomorrow?’ and ‘What job shall I take?’ ”
Wat mij het meest verbaasd is dat er (nog) geen Nederlandse kranten die dit hebben overgenomen. (Bijna) Geen zoek blogs het er over hebben (kom op MarketingFacts!) en er nog geen kamervragen gesteld zijn. De grootste persoonlijke database van de wereld? En wanneer je dan eens wat anders wil komt Google met goed advies?

Phil Bradley linkt vervolgens ook nog eens naar wat Google intresses in Biotech. Dan wordt het inderdaad scary stuff. Ik vermoed dat de politiek het netjes bij het college bescherming persoonsgegevens neerlegt. En wij er vervolgens nooit meer wat van horen.

De wakkere makkers riepen ooit "Wakker worden", maar die zijn ook zachtjes in slaap gesukkeld -dat heb ik ooit al eens voorspeld-. Daarom maar van deze webstek: Wakker worden!

Labels: ,


27 september 2005

 

Google is jarig, maar vooral groot

Google is zeven jaar oud. De felicitaties waard. In echte mensenleeftijd is dit zeer volwassen. Het gaat allemaal zo snel op het Web. Kortom feestje voor Google. Maar er zit in het bericht nog een bottom-line: "this latest expansion of our index, which makes Google more than 3 times larger than any other search engine". Waar Yahoo! nog een maand geleden een robbertje vechten met zijn concurenten aankondigde, door te claimen meer dan 20 miljard items geindexeerd te hebben. Komt Google nu met het antwoord, we zijn 3 keer zo groot als onze dichtsbijzijnde rivaal (Lees Yahoo!).
Om alles kracht bij te zetten is op de voorpagina het aantal geindexeerde documenten komen te vervallen (was ongeveer 8,5 miljard). Die documenten teller heeft altijd een springerig gedrag gehad, en nooit een vloeiend opgaande lijn zoals je zou verwachten. Geen 8,5 miljard dus, maar hoeveel wel? Dat vertellen ze niet. In de meeste blogs wordt het ook afgedaan als niet belangrijk, de maat doet er niet toe, de kwaliteit van de resultaten telt. Relevantie! Wat dat betreft houd ik nog steeds verdomd veel van Google. De ranking van de resultaten is nog steeds ongeevenaard. Toch vind ik de vraag naar de omvang van de index wel spannend. Een indicatie is een negatieve zoekactie op een niet bestaand woord. [-iopuhjklhh] resulteert in ruim 9,5 miljard documenten. Dan hebben we nog Google images, scholar, print, local, video, news, groups, blogsearch en nog veel meer. Die 20 milard items halen ze wel bij Google. Maar drie keer zo groot zou betekenen 60 miljard items! Dat plaatst de laatste -wetenschappelijke- schatting over de omvang van het web in een wel heel vreemd daglicht. Gulli en Signori telden 11,5 miljard pagina's. De wetenschappers gaan waarschijnlijk de fout in omdat zijn alleen html documenten tellen. Terwijl alle plaatjes, mp3's, en video's een vele malen grotere aanspraak maken op de omvang van het web. Google zelf nodigt iedereen uit om een schatting te geven. Ik denk dat ze 9,5 miljard afgezaagd vinden. Maar het blijft een intrigerende vraag. Hoe groot is het Web? En hoe meet je dat, en waarin druk je dat uit.

Anderen die wat zinnigs over dit onderwerp zeiden:
Charlene Li
John Batelle
Danny Sullivan

Labels: ,


26 mei 2005

 

MSN Virtual Earth vs. Google Earth

MSN en GOOG bekampen elkaar op meer terreinen dan alleen gewone zoekmachines. Jammer is natuurlijk wel dat een en ander vooral gedaan wordt met N. Amerkaanse plattegronden en satelietbeelden. De versterking van de MSN positie op dit gebied zal op den duur ook wel consequenties hebben voor kleinere software bedrijven als TomTom die nu popelen om naar de beurs te gaan.

Source: Search Engine Journal

Labels: , , , ,


17 mei 2005

 

De Britten hebben ook een Google bomb

Nadat President Bush succesvol op de hak genomen was met miserable failure en de Nederlandse PM te vinden was met raar kapsel en onze eigen PWA met slechte tanden, blijkt het nu de beurt aan de Britse PM, Tony Blair die te boek staat bij Google.uk als een liar. Nog even afwachten en dan zal Google.com hem ook zo te boek stellen.

Labels:


This page is powered by Blogger. Isn't yours?