Internet bevat minimaal 88 miljoen websites en 14 miljard webpagina’s

12 juli 2006, 13:09

Internet bevat minimaal 88 miljoen websites en 14 miljard webpagina'sToevallig vroeg mij deze week nog iemand hoeveel webpagina’s er wereldwijd eigenlijk zijn. Dit naar aanleiding van een sheet waarin ik een schatting geef van het aantal websites en weblogs wereldwijd. Op dit moment zijn er wereldwijd ruim 88 miljoen websites (juli 2006) en ongeveer 200 miljoen weblogs (januari 2006).

Nu blijkt dat Maurice de Kunder, student Bedrijfscommunicatie en Digitale Media aan de Universiteit van Tilburg, een scriptieonderzoek heeft gedaan naar de omvang van het internet. De betrouwbaarste eindconclusie die de Kunder kan trekken is dat het internet momenteel minstens 14,3 miljard webpagina’s telt. Het Nederlandse web telt volgens dezelfde veilige ondergrens-schatting minstens 291 miljoen webpagina’s. Wanneer dezelfde automatische meetmethode gedurende een periode van een maand dagelijks wordt uitgevoerd, dan meet de Kunder een groei van ongeveer 2 procent.

De Kunder gebruikte een methode die uitgaat van woord- en documentfrequenties in verschillende tekstverzamelingen. Als een woord dertig keer voorkomt in een verzameling van 30.000 krantenartikelen, dan is de verwachte documentfrequentie van dat woord 1 op 1000. Als Google vervolgens meldt dat het 9 miljoen webpagina’s kent waarop dat woord voorkomt, dan kun je daaruit extrapoleren dat Google mogelijk 9 miljard webpagina’s opgeslagen heeft in zijn database. Door deze rekensom te herhalen voor een groot aantal woorden kon De Kunder de grootte van de database van Google, Yahoo Search, MSN Search, en Ask schatten. Deze vier zoekmachines, de vier grootste op dit moment, dekken voor een groot deel dezelfde webpagina’s af, waardoor de grootte van hun databases niet zomaar opgeteld kan worden. De Kunder heeft daarom ook met een grote steekproef de overlap bepaald tussen de zoekmachines, en de uiteindelijke schatting gecorrigeerd op deze overlap.

Bronnen:

http://news.netcraft.com/archives/2006/06/28/july_2006_web_server_survey.html

http://www.uvt.nl/faculteiten/fcc/nieuws/kunder/

Marco Derksen
Partner bij Upstream

Oprichter/partner Upstream, Marketingfacts, Arnhem Direct, SportNext, TravelNext, RvT VPRO, Bestuur Luxor Live, social business, onderwijs, fotografie en vader!

Categorie
Tags

13 Reacties

    jeroenmirck

    Nee, niet weer die cijfers! 😉


    12 juli 2006 om 13:40
    media

    Haha, maar nu heb ik er een paar aan toegevoegd 😉


    12 juli 2006 om 13:43
    Arnoud Rademaker

    Sjongejonge Marco,

    Je schrijft: 14,3 miljard webpagina’s en 200 miljoen weblogs.

    Zit hier ook een grens aan? Waar moet dat naar toe? Hoe gaan jullie als Marketingdeskundigen om, met dit soor aantallen?

    Op marketingfacts heb je verschillende keren geschreven over het belang en de manier waarop je invulling geeft aan het maken van goede weblogs. Deze onderzoeksresultaten bevestigen dit alleen maar.

    Een goede boom, zo las ik ergens, kun je maar beter in het bos zoeken. Maar nu lijkt het op een oerwoud. Raken mensen het zicht niet kwijt? Versnippert niet alles een beetje teveel?

    Ik ben onder de indruk van dit soort aantallen.

    Ik kan me voorstellen dat nieuwe aanplant al snel wordt overwoekerd door bestaande volwassen bomen.

    Groet,

    Arnoud


    12 juli 2006 om 13:49
    media

    Tsja, en dan te bedenken dat ik die dagelijks allemaal probeer bij te houden 😉


    12 juli 2006 om 13:59
    Erick

    En niemand enige vraagtekens bij dit bericht? Ik bedoel. hoe betrouwbaar is deze ruwe meting?


    12 juli 2006 om 15:42
    media

    Erick, kijk ook even naar de methodiek die is toegepast; daarin wordt de betrouwbaarheid al genoemd. Waar liggen jou twijfels? Is dit aantal te laag of te hoog?


    12 juli 2006 om 15:44
    René

    Ach ja, die absolute aantallen…

    “Een opvallende uitkomst is dat met name Google zeer verschillende resultaten teruggeeft; in een meetperiode van een maand, waarin iedere dag gemeten werd, varieerde de geschatte grootte van de index van Google tussen de 25 en de 45 miljard webpagina’s. Daarnaast lijkt Yahoo Search een veel betere dekking van het WWW te hebben wanneer de dekkingsgraad van willekeurige URLs (adressen van webpagina’s) wordt gemeten.”

    En nu?


    12 juli 2006 om 18:35
    media

    @Peter: goed punt! Toch denk ik dat het vanuit vindbaarheid wel van belang is dat je weet hoe omvangrijk het zoekdomein is. Marketingfacts bevat inderdaad ‘slechts’ 9.500 artikelen maar blijkbaar zijn die wel via 125.000 verschillende ingangen te benaderen (alhoewel ik geen idee heb hoe ze daar nu bij komen; iemand?).

    @Rene: absolute aantallen heb je inderdaad weinig aan. Ze zijn leuk voor verjaardagen en partijtjes (of in een presentatie) omdat ze je snel een beeld geven waarover je praat. Voor de concrete toepassing is het veel belangrijker om te kijken naar relatieve veranderingen (trend). Belangrijk daarbij is wel dat je op dezelfde manier meet anders kun je er nog weinig mee. In dit geval zou het interessant zijn om volgend jaar op dezelfde manier te kijken hoe groot het internet dan is.


    12 juli 2006 om 20:06
    media

    Ben benieuwd of Maurice de Kunder zo af en toe aan egosurfing doet, dit bericht leest en een toelichting kan geven op zijn methodiek. Iemand toevallig een emailadres van ‘m?


    13 juli 2006 om 04:23
    Bas

    Dus, als marketeer, zal Marco wel graag zijn marktaandeel willen weten in Google’s vindbare pagina’s… De cijfers laten nog te wensen over Marco!

    Je kunt het aantal pagina’s ook makkelijk berekenen: 1 / O (<- niet nul, maar het cijfer o).


    13 juli 2006 om 06:58

Marketingfacts. Elke dag vers. Mis niks!