Google-index bereikt mijlpaal van 1 biljoen URL’s

Google-index bereikt mijlpaal van 1 biljoen URL’s
Gisteren maakten Jesse Alpert en Nissan Hajaj, beide software engineers van Google's Web Search Infrastructure Team, bekend dat Google inmiddels meer dan 1 biljoen URL's telt in haar database. De eerste Google-index in 1998 telde al 26 miljoen pagina's. Twee jaar later in 2000 werd de grens van 1 miljard pagina's bereikt.

Alpert en Hajaj leggen ook uit hoe ze aan die 1 biljoen URL's komen:
(...) We start at a set of well-connected initial pages and follow each of their links to new pages. Then we follow the links on those new pages to even more pages and so on, until we have a huge list of links. In fact, we found even more than 1 trillion individual links, but not all of them lead to unique web pages. Many pages have multiple URLs with exactly the same content or URLs that are auto-generated copies of each other. Even after removing those exact duplicates, we saw a trillion unique URLs, and the number of individual web pages out there is growing by several billion pages per day. (...)
Het is dus niet exact bekend hoeveel unieke pagina's het web telt. Bovendien moeten we ons realiseren dat Google ook niet alles indexeert, zodat het totale web waarschijnlijk groter is dan de 1 biljoen die de Google-index nu telt. Zelf gebruik ik vaak de Web Server Survey van Netcraft als indicatie voor de omvang van het web. Op dit moment telt Netcraft ruim 172 miljard websites. Beduidend minder dus dan het aantal URL's dat Google in haar database heeft zitten!


Geplaatst in

Delen

0
0


Er zijn 10 reacties op dit artikel

  • Dat het totale web veel groter is, is logisch. Als je kijkt naar de overlap van zoekresultaten tussen Google, Yahoo en MSN live search zie je dat die er bijna niet is. Slechts een paar procent in de top 100 op sommige zoekopdrachten. Dus het is veel, veel groter nog.

    geplaatst op
  • En wat dacht je van het deepweb ?

    Het feit dat search engines niet alles kunnen indexeren is volgens mij nog steeds niet bij iedere internetgebruiker bekend.

    geplaatst op
  • Netcraft telt sites (domeinen, om precies te zijn), google telt afzonderlijke pagina's. Dat zijn twee hele verschillende zaken.

    geplaatst op
  • @Max: in dit geval gaat het om URL's die Google telt, niet om de pagina's!

    geplaatst op
  • @Max en @Marco: een URL verwijst inderdaad naar een individuele pagina en niet naar een hele website. Volgens mij zijn we dan ook appels met peren aan 't vergelijken, maar daar verschiet ik ook niet van als ik zie hoe de termen "url", "pagina" en "websites" door elkaar gehaald worden.

    geplaatst op
  • @Jeroen: hmmm, ik heb URL's als aparte domeinen geinterpreteerd; als het pagina's zijn, dan is de vergelijking met Netcraft inderdaad onterecht!

    geplaatst op
  • @marco: er kan een verschil zijn in aantal urls en aantal documenten - meerdere urls kunnen naar 1 document verwijzen. Dat werd in het artikel ook al vermeld, en ook dat google die er in hun telling hebben uitgefilterd. En een domein is natuurlijk maar een deel van de url.

    Los daarvan: zolang je de gegevens van netcraft en google los van elkaar blijft zien kunnen ze elkaar wel aanvullen.

    geplaatst op
  • en wat nou als een CMS pakket met smart URL's werkt, hoe wordt er dan geteld? per dir / page, elk dir opent namelijk een page... maar is het dan een zelfstandige url? etc...

    geplaatst op
  • @Jasper: Dat maakt verder niet uit. Het zal Google worst zijn hoe de URL er precies uit ziet (dus of dat nou "smart" is of niet). Het gaat erom waar die URL naar wijst. Als je niet met een CMS werkt kan een dir ogenschijnlijk ook naar een pagina leiden -- de meeste webservers vertallen /mijn/url/ automagisch naar /mijn/url/index.html (en aanverwanten). Google houdt rekening met dat gedrag.

    geplaatst op
  • @jasper, in deze telling geven ze aan dat dit wel zo word opgeslagen, en dat er pas later naar gekeken word op de betreffende pagina al voorkomt.

    Overigens stopt google er al vrij vlot mee als hij in de gaten krijgt hoe dubbel bepaalde URL's zijn... (voorheen supplemental)

    geplaatst op

Plaats zelf een reactie

Log in zodat je (in het vervolg) nóg sneller kunt reageren

Vul jouw naam in.
Vul jouw e-mailadres in. Vul een geldig e-mailadres in.
Vul jouw reactie in.

Herhaal de tekens die je ziet in de afbeelding hieronder


Let op: je reactie blijft voor altijd staan. We verwijderen deze dus later niet als je op zoek bent naar een nieuwe werkgever (of schoonmoeder). Reacties die beledigend zijn of zelfpromotioneel daarentegen, verwijderen we maar al te graag. Door te reageren ga je akkoord met onze voorwaarden.