25 juli 2008

 

Google kent een biljoen pagina's

Op de officiële Googleblog werd zojuist gewag gemaakt van het feit dat Google een Amerikaanse trillion pagina's geïndexeerd heeft. Een Amerikaanse trillion 1,000,000,000,000 (10^12) is in goed Nederlands echter een biljoen. Dat is een miljoen keer een miljoen pagina's.

Da's heel veel. Maar zeer zeker nog niet het hele Web. Er blijven altijd gaatjes. Al worden ze kleiner.

Tegenwoordig kan Google zonder vrezen dit soort cijfers naar buiten brengen. Bijna drie jaar geleden spraken we over de volgende ronde in de zoekmachine oorlog toen er met veel trommelgeroffel over de omvang van de verschillende zoek indexen werd gesproken. Tegenwoordig lijkt er geen zoekmachine meer in de buurt te komen van Google.

Labels: ,


02 april 2008

 

Het exploderende Web

Wanneer het gaat over de omvang van het Web, dan is mijn intresse gewekt. Goede studies hierover zijn ook betrekkelijk zeldzaam omdat het methdologisch ook een hele lastig materie is. Ga je webpagina's meten? Frames, Websites. De Netcraft studie geeft een hele mooie tijdreeks over de groei van het aantal webservers. Aardig maar het is natuurlijk veel leuker te weten hoeveel er wel niet op die webservers staat. In feite draait de vraag om hoeveel informatie er is.

Een wat oudere study is de 'How much information' studie van Lyman en Varian uit 2003. Een studie die ze eerder ook in 2000 uivoerden, maar helaas nooit meer herhaalden. De schatting van Guli et al. uit 2005 waren eigenlijk geen verbetering. Dat illustreert eens te meer hoe lastig dit onderwerp is. Daarom was ik verrast met het nieuwste rapport van Gantz en kornuiten. Zo heerlijk om te bekijken.

Een van de redenen waarom de hoeveelheid informatie explodeert is onze 'veiligheid'. Alles wat van regeringswege nog een tijd lang vastgelegd moet worden om onze digitale sporen nog eens na te kunnen trekken. Kost een bak aan ruimte. Terecht dat daar vragen over gesteld worden. Het helpt onze veiligheid niet en maakt het Web alleen maar duurder. In het rapport wordt beschreven op hoe een mailtje van 1 MB dat je naar 4 vrienden stuurt aan het eind van de dag ongeveer 51 MB aan opslagcapaciteit in beslag neemt!

Fascinerend zijn de getallen:
  • The digital universe in 2007 — at 2.25 x 1021 bits (281 exabytes or 281 billion gigabytes) — was 10% bigger than we thought.
  • By 2011, the digital universe will be 10 times the size it was in 2006
Gelukkig biedt het rapport ook enige houvast om deze getallen te kunnen interpreteren.

Aardig om te leren dat ze in feite voorspellen dat er straks een tekort aan geheugen opslag komt voor onze digitale productie. Daar gaan de prijzen weer denk je dan. handig zo'n rapport.

Het is lastig om de 2003 en de 2008 studies even naast elkaar te leggen. Dat vergt iets meer tijd. Eerst maar eens gedetailleerd lezen.

Hattip: Gwen Harris

Literatuur


Gulli, A. & A. Signorini (2005). The Indexable Web is more than 11.5 billion pages. Proceedings of the Fourteenth International World Wide Web Conference http://www.cs.uiowa.edu/~asignori/web-size/.
Gantz, J. F., C. Chute, et al. (2008). The Diverse and Exploding Digital Universe: An Updated Forecast of Worldwide Information Growth Through 2011, IDC. http://www.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf
Lyman, P. and H. R. Varian (2003). How much information 2003. http://www.sims.berkeley.edu/how-much-info-2003

Labels: , ,


27 september 2005

 

Google is jarig, maar vooral groot

Google is zeven jaar oud. De felicitaties waard. In echte mensenleeftijd is dit zeer volwassen. Het gaat allemaal zo snel op het Web. Kortom feestje voor Google. Maar er zit in het bericht nog een bottom-line: "this latest expansion of our index, which makes Google more than 3 times larger than any other search engine". Waar Yahoo! nog een maand geleden een robbertje vechten met zijn concurenten aankondigde, door te claimen meer dan 20 miljard items geindexeerd te hebben. Komt Google nu met het antwoord, we zijn 3 keer zo groot als onze dichtsbijzijnde rivaal (Lees Yahoo!).
Om alles kracht bij te zetten is op de voorpagina het aantal geindexeerde documenten komen te vervallen (was ongeveer 8,5 miljard). Die documenten teller heeft altijd een springerig gedrag gehad, en nooit een vloeiend opgaande lijn zoals je zou verwachten. Geen 8,5 miljard dus, maar hoeveel wel? Dat vertellen ze niet. In de meeste blogs wordt het ook afgedaan als niet belangrijk, de maat doet er niet toe, de kwaliteit van de resultaten telt. Relevantie! Wat dat betreft houd ik nog steeds verdomd veel van Google. De ranking van de resultaten is nog steeds ongeevenaard. Toch vind ik de vraag naar de omvang van de index wel spannend. Een indicatie is een negatieve zoekactie op een niet bestaand woord. [-iopuhjklhh] resulteert in ruim 9,5 miljard documenten. Dan hebben we nog Google images, scholar, print, local, video, news, groups, blogsearch en nog veel meer. Die 20 milard items halen ze wel bij Google. Maar drie keer zo groot zou betekenen 60 miljard items! Dat plaatst de laatste -wetenschappelijke- schatting over de omvang van het web in een wel heel vreemd daglicht. Gulli en Signori telden 11,5 miljard pagina's. De wetenschappers gaan waarschijnlijk de fout in omdat zijn alleen html documenten tellen. Terwijl alle plaatjes, mp3's, en video's een vele malen grotere aanspraak maken op de omvang van het web. Google zelf nodigt iedereen uit om een schatting te geven. Ik denk dat ze 9,5 miljard afgezaagd vinden. Maar het blijft een intrigerende vraag. Hoe groot is het Web? En hoe meet je dat, en waarin druk je dat uit.

Anderen die wat zinnigs over dit onderwerp zeiden:
Charlene Li
John Batelle
Danny Sullivan

Labels: ,


This page is powered by Blogger. Isn't yours?