Miljoenste link voor Startpagina. Of, nou ja…

Miljoenste link voor Startpagina. Of, nou ja…
, Dimmle
@andersfloor

“Vandaag heeft Startpagina de magische grens van de miljoenste hyperlink bereikt.”, stellen Startpagina en search engine mediabureau Checkit in een gezamenlijk persbericht. Gezamenlijk, want alle links van Startpagina worden voortdurend gecontroleerd op dode en gewijzigde links door de LinkChecker software van Checkit.

Een machtig mooi product, al zegt Checkit het zelf: “We gebruiken het bijvoorbeeld ook voor onze Search Engine Ranking klanten. De LinkChecker heeft na 6 jaar zijn bestaansrecht duidelijk nog niet verloren”. Ook Bert Wiggers, directeur van Startpagina, is lovend over de LinkChecker. “De kwaliteit van Startpagina en de links is onze hoogste prioriteit, en daarbij is Checkit een betrouwbare partner.”

Uhhmm.. Ja. Jammer alleen dat die LinkChecker een beetje si?sta aan het houden is.

Zo stuitte ik toevallig vorige week op http://mediaplan.pagina.nl/
Ik noem een paar links op, je mag ze zelf opzoeken op de pagina.

Media Insight… 404 not found
Mediaedge:cia… Bestaat niet meer
Initiative Media… 404 not found
Telmar… 404 not found
MDS… 404 not found
Nommedia… 404 not found
Zweden… 404 not found
Alle links in het kader “Mediaplanning dagbladen”... Error

Is bovenstaande pagina misschien een uitzondering? Een paar links die er doorheen zijn geglipt? Nou… niet echt:

http://link-popularity.pagina.nl/
Reciprocal Linking is a crucial… 404 not found
Ilse top15 & de populairste sites… 404 not found
Disturbing Search Request… 404 not found
Link Popularity Analyzer… 404 not found
Access to linkage information… 404 not found
Analyzing hyperlink structure… 404 not found

http://google.pagina.nl/
Using Google - A Tutorial… 404 not found
Google instant messages… 404 not found
Google offers voice messaging ... Bestaat niet meer
Google saved my ass… 404 not found
Early archive restored… Bestaat niet meer
Privacy concerns GG archive… 404 not found
Google: An engine of change… 404 not found
The world according to Google.. Bestaat niet meer
Disturbing Search Request… 404 not found
Google Dance Tool #1… Bestaat niet meer
Definitie zoekmachine spam… 404 not found
Loogie (10 good sites)... 404 not found
The anatomy of a large-scale…. 404 not found.
Google alpha versie 1998… Bestaat niet meer
Googlevillage.info… Server gehacked (evenals Googlology)
Googuide.com… Bestaat niet meer
Googleguy says… 403 permission denied
I-search… Bestaat niet meer
International Herald: GGHacks… Bestaat niet meer
Intel: Google Snapshot… 404 not found


Anders, Anders, Anders, wat loop je weer te mopperen. Dat zal best, maar feiten liegen niet. Ik snap best dat het up-to-date houden van een miljoen links een pittig karwei is, maar de lyrische toon van het persbericht is niet op zijn plaats. Er zijn veel gratis open source-programmaatjes die bovenstaande foute links - in ieder geval de 404’s - er wel zonder enig probleem uithalen.


Geplaatst in

Delen

0
0


Er zijn 17 reacties op dit artikel

  • Het is natuurlijk niet de tool van Checkit, maar de betreffende beheerder die zit te slapen. Als laatstgenoemde geen opvolging geeft aan hetgeen de tool van Checkit signaleert, tja, dan krijg je dus dergelijke resultaten...

    geplaatst op
  • Wordt een goed kip-ei-verhaal op deze manier:
    * Wat heb je aan een 'tool' als deze alleen signaleert?
    * Wat heb je aan een beheerder die niets doet aan dode links?

    geplaatst op
  • "Er zijn veel gratis open source-programmaatjes die bovenstaande foute links - in ieder geval de 404's - er wel zonder enig probleem uithalen."

    Ken ook nog een paar leuke:
    Anders bouwt zijn eigen huis
    Anders heeft zijn eigen weblog
    Anders host zelf zijn eigen weblog
    Anders maakt zijn eigen computer
    Anders maakt zijn eigen auto

    nee...nog sterker...

    Anders bouwt zijn eigen auto

    Sorry hoor...maar is weer schoppen en schoppen op niks af...

    PS:
    Anders gaat zelf nadenken? ;-)

    geplaatst op
  • Linkchecks zijn altijd moment opnamen, een link die de ene dag dood lijkt te lopen, kan de volgende dag weer werken.

    Daar houden startpaginadochter beheerders vaak rekening mee. Ik beheer zelf vele pagina's. Ik verwijder de dode links dus ook niet na de eerste melding. Pas na 2 (of soms) 3 meldingen, gaat een dode link er af (omdat de kans dat het alsnog terug komt, dan wel heel klein is).
    En nee, zelden komt mijn dode link percentage boven de 2%
    Maar als je met vakantie bent, wil het wel eens gebeuren dat je er geen zicht op hebt, want zelfs beheerders hebben wel eens rust nodig. ;-)

    geplaatst op
  • Hmmmmmm, ik geloof dat twee van die voorbeelden hier boven van mij zijn ;-)

    Ik geloof dat de menselijke factor bij een link checker ook altijd nog een factor mee speelt. Laat ik nu net vandaag een nieuwe dochter hebben gelanceerd in plaats van de links na te lopen. Een leuk weetje: om alle links op de Google.pagina.nl na te lopen ben ik ruim 3 dagen full time bezig aangezien het er meer dan 3.500 zijn...

    Ik zal de twee genoemde voorbeelden (link-popularity en Google.pagina) die ik in beheer heb vandaag in ieder geval nog even na lopen. Dank voor het lijstje ;-)

    geplaatst op
  • @TA - Je overdrijft. Als je me een beetje zou kennen had je geweten dat ik normaal gesproken een broertje dood heb aan mensen die roepen "het is peanuts om dit zelf te doen". Zie bv. mijn reactie inzake iDEAL.

    In dit geval zijn er echter twee factoren:

    1. Een link-checker is een piece of cake.
    2. De database van (Start)pagina.nl is erg elementair

    En je kunt gaan roepen wat je wilt maar een beetje programmeur kan in een handomdraai een linkchecker in elkaar knutselen die elke nacht of elke week de links langsloopt, en links na 2 en 3 foutmeldingen automatisch op non-actief zet in de database. Dat is iets dusdanig simpels dat ik a) niet snap waarom Startpagina dit heeft uitbesteed aan een andere partij en b) waarom dochterbeheerders blijkbaar handmatig de foutmeldingen moeten verwijderen terwijl dit goeddeels automatisch kan.

    En als je dan toch loopt te pochen over betrouwbaarheid en een geweldig systeem waardoor je bezoekers nauwelijks verwijderde of gewijzigde links tegenkomen, dat vraagt dat om een reactie als de praktijk anders uitwijst.

    geplaatst op
  • @TA; Het verschil is dat Anders zich niet specialiseert in auto's of huizen bouwen. En doen dat wel met hun linkchecker. Ook geven ze een persbericht aan hoe goed ze zijn, maar een simpele test wijst anders uit?

    geplaatst op
  • Ik ben even wat dieper in gedoken om te kijken wat er aan de hand is. Allereerst even de werking: Checkit controleert eens in de week (meestal op vrijdag) de links op alle 4650 en nog wat dochters. De resultaten worden in een rapport geplaatst en een samenvatting wordt gemaild aan de beheerder. Het is dus niet zo dat de check tool de links ook direct verwijderd! Dit is onder andere waarschijnlijk gedaan om de beheerder de volledige regie over de dochter te laten behouden. Als er dus links niet werken dan is er dus sprake van een menselijke fout, niet primair van de checker.

    Nu naar de voorbeelden: De google.pagina.nl heeft in totaal ruim 420 links. (uit mijn hoofd) Daarvan zijn er door de linkchecker van Checkit 17 aangemerkt als niet werkend. Dit is +/- 3,5 % van alle links op de pagina. Dit is veel, te veel zelfs, maar volgens de Startpagina richtlijnen mag maximaal 5% een foutmelding geven en als je er dan niets aan doet dan ben je je pagina kwijt. Ik zelf denk dat 2% niet werkend een max zou moeten zijn voor een kwalitatieve pagina.

    De checker telt er 17 en jij hebt er 20 gevonden. Dit waren met name links die geen 404 melding gaven maar een ander bericht.

    Dan in heel erg detail: Van die 17 links waren er 4 recent geplaatst. (ik houd de checker aan, daar baseer ik me op met het onderhoud). Daarnaast waren er onlangs van een aantal universiteiten de structuren van de site veranderd. Allen geen reden om een pagina zo veel links niet te laten werken, maar ik hoop op een beetje begrip ;-)

    Met een vriendelijke groet, Jeroen

    geplaatst op
  • "Ik verwijder de dode links dus ook niet na de eerste melding. Pas na 2 (of soms) 3 meldingen, gaat een dode link er af"

    Wat zeg je nu Eric? Kan die lyrische linkchecker niet eens zelf zo'n tellertje bijhouden en pas na 3 keer dood signaleren? Ik heb zelf ooit in anderhalve dag een linkchecker geprogrammeerd die dat wel kan.

    Het zou weleens kunnen zijn Anders, zeg ik speculerend, dat het ding niet op de database werkt maar web-spiderend en dat het daarbij zijn hoofd stoot tegen de idiote Javascript-code in sommige dochters.

    geplaatst op
  • > Het zou weleens kunnen zijn Anders, zeg ik speculerend, dat het ding niet op de database werkt maar web-spiderend en dat het daarbij zijn hoofd stoot tegen de idiote Javascript-code in sommige dochters.

    De linkchecker maakt rechtstreeks gebruik van de XML feed waarin de links staan.

    Als je kijkt naar wat het doel van al die javascript code is dan vind ik die bij benadering geniaal. Duik er maar eens diep in en probeer te doorgronden wat het allemaal moet doen. Dan begrijp je sommige bizarre keuzes ook. Ik heb ooit een klein stukje nodig gehad en heb me er echt over zitten verwonderen hoe het allemaal geprogrammeerd is.

    Ik begrijp je reactie ook maar Startpagina is een complexe site waar 2000 beheerders ook nog eens een en ander in te zeggen hebben. Dat betekent dat veel keuzes (werking linkchecker bijv.) onder consensus gemaakt moeten worden. Alles moet voor iedereen goed werken. Ik denk wel dat deze post tot nadenken zal zetten over bepaalde keuzes. In ieder geval werken nu alle links op twee van de drie voorbeelden hier boven.

    geplaatst op
  • citaat "Wat zeg je nu Eric? Kan die lyrische linkchecker niet eens zelf zo'n tellertje bijhouden en pas na 3 keer dood signaleren? Ik heb zelf ooit in anderhalve dag een linkchecker geprogrammeerd die dat wel kan."

    Nee dit zegt Eric niet, linckchecker geeft keurig aan dat een site 1 , 2 of 3 keer bij controle offline is. Zoals al eens eerder gemeld heeft het geen zin om bij de eerste melding direct een pagina van een Startpagina af te halen. Vele factoren kunnen debet zijn aan het (tijdelijk) offline zijn van een site en het zou dan niet gepast/gewenst zijn deze link meteen te verwijderen. De Startpaginabehherder is hierzelf voor verantwoordelijk.


    geplaatst op
  • Het is gelukkig weer een opbouwende discussie :-)

    De linkchecker is ooit begonnen om een extra service te bieden aan de dochterbeheerders, namelijk een makkelijke manier om overzicht te krijgen of alle linkjes wel of niet goed werken. De kwaliteit van de Startpagina is mede afhankelijk van dit technische aspect. De service is best complex daar het hier veel links (meer dan miljoen over duizenden pagina's) te verwerken krijgt en individuele mailrapportages verstuurd. Dit alles wordt geanalyseerd en gearchiveerd.

    Het resultaat: sinds de start zien we dat het percentage foutmeldingen enorm is afgenomen, wat weer ten goede komt voor de gebruikers.

    Is het mogelijk om de links automatisch weg te halen? Natuurlijk! Is het gewenst? Vraag het me af. Uiteidenlijk zal een beheerder zich afvragen wat er met de link is gebeurt...is het linkblokje niet meer compleet, moeten ze weer gaan zoeken...is de URL wellicht gewijzigd etc. Ook dit kost tijd. Er is voor gekozen de regie in handen te houden van de Startpaginadochters.

    Verder is de service uitgebreid met een kwaliteitssysteem dat mede zorg draagt voor een verdere waarborging van de (gebruikers)kwaliteit. De heer Anders had het liever wellicht anders gezien, maar wij en opdrachtgever Startpagina zijn tevreden :-)

    geplaatst op
  • quote: Is het mogelijk om de links automatisch weg te halen? Natuurlijk! Is het gewenst? Vraag het me af.

    Dat is zeker niet gewenst, vaak gaat het om dode deeplinks, die dan op een ander gedeelte van de website alsnog weer zijn terug te vinden. Nee hoor, het werkt heel goed (en de collega's die me kennen, weten dat ik zoiets niet snel zeg).

    geplaatst op
  • Deze discussie heeft in elk geval de nieuwsbrief van Startpagina gehaald:

    Checkit test miljoenste link Startpagina
    Op 4 oktober 2005 heeft Startpagina de magische grens van de miljoenste hyperlink bereikt. Dit is een enorme groei sinds 1999 toen er "slechts" 55.000 links waren geïndexeerd. De 1.700 dochterbeheerders hebben al deze miljoen links handmatig geselecteerd. Om de kwaliteit van de links te bewaken en ter voorkoming van "dode links" maakt Startpagina gebruik van de LinkChecker van Checkit. Lees verder

    Na verschijning van het persbericht over deze mijlpaal barstte vrijwel direct een boeiende discussie los op Marketingfacts. Boeiend door de tegenstelling tussen "alles zo veel mogelijk automatiseren dus ook dode links meteen automatisch verwijderen" en "de beheerder is verantwoordelijk voor de inhoud dus ook voor het checken en eventueel verwijderen van doodgewaande links". En dan hebben we 't nog niet eens over de voor- en tegenstanders van het javascript achter Startpagina en dochters...

    We raden je dan ook aan deze spannende discussie te volgen. Je vindt hem hier.
    @Marco: Mooi dat Checkit en Startpagina tevreden zijn, maar hoe ervaren de beheerders het?

    Ik moet je zeggen dat ik na 5 jaar diverse startpagina's te hebben beheerd een wat geautomatiseerdere aanmaak verdomd handig had gevonden.

    Dus inderdaad aantal keren tonen dat deze link als dood is ervaren en eventueel de beheerder van een pagina laten instellen dat na x keer e.e.a. automatisch offline wordt gezet en daarna door beheerder kan worden verwijderd of iets dergelijks. Dit kan echt wel wat verbeteren hetgeen de kwaliteit van de startpagina's alleen maar ten goede komt.

    geplaatst op
  • Het lijkt mij handig dat als een link in de laatste n tests ook n keer een 404 teruggeeft deze URL voor de bezoeker 'verdwijnt' tussen HTML comments <!-- --> en voor de beheerder in een vagere tint wordt weergegeven.

    geplaatst op
  • Ruud, (dit wordt nu een discussie tussen beheerders onderling, mischien voor buitenstaanders slecht te volgen)

    die optie is afhankelijk of je via de online (dan is het mogenlijk) of via de offline editor werkt (dan heeft het geen zin)

    geplaatst op
  • Ik als beheerder en mede programmeur van websites ben na een aantal maanden van mijn beheerverleden begonnen aan een eigen database waarin mijn links staan inclusief een site waar ik ze mee beheer. Noem het een offline editor omdat de xml die mijn systeem uitspuugt uiteindelijk nog weer naar startpagina moet worden upgeload (handmatig). Tegelijkertijd is het ook een online editor omdat ik mijn beheersite overal ter wereld per internet kan bereiken en daarnaast kunnen bezoekers het systeem weer gebruiken voor het aanmelden en wijzigen van hun links. Daarbij ben ik inmiddels ook begonnen met een linkchecker die snachts even alle links naloopt, of een 'aantal beruchte'. Dat is nog niet af, maar een beheerder heeft het dus zoals je ziet ook wel zelf in de hand om dit deels te automatiseren. Mijn website is in staat om links nonactief te stellen en een nieuwe xml aan mij te emailen om te worden upgeload.
    Wat ik nog even kwijt wil over Linkchecker:
    Linkchecker is een handige tool voor de beheerder om vrij snel links te controleren en dus door de herhaalde controle zien of een link een echte dode is of alleen een webserver die snachts off gaat voor backup etc.

    Helaas heeft Linkchecker ook nog een probleempje:

    "Let op: Het domein yahoo.com accepteert binnen een bepaalde tijd maar een beperkt aantal pagina opvragen. Omdat alle dochters bij elkaar ruim 5000 keer naar Yahoo linken, hebben we helaas moeten besluiten de yahoo-pagina’s check over te slaan. Het is dus verstandig zelf de yahoo links op uw pagina regelmatig te controleren! "

    Kortom vertrouw ook niet 100% op linkchecker, anders heb je alsnog mogelijk dode yahoo links.

    Verder is startpagina opgezet vanuit het oogpunt dat beheerders die verstand hebben van hun onderwerp een eigen links site te kunnen beheren. Deze beheerder moet dus actief bezig gaan met het beheren, plaatsen en verwijderen van de links. Startpagina is niet een standaard (commerciele) linkjesdatabase zoals vele linkportals die je nog wel eens ziet als je een verkeerd adres intikt.

    geplaatst op

Plaats zelf een reactie

Log in zodat je (in het vervolg) nóg sneller kunt reageren

Vul jouw naam in.
Vul jouw e-mailadres in. Vul een geldig e-mailadres in.
Vul jouw reactie in.

Herhaal de tekens die je ziet in de afbeelding hieronder


Let op: je reactie blijft voor altijd staan. We verwijderen deze dus later niet als je op zoek bent naar een nieuwe werkgever (of schoonmoeder). Reacties die beledigend zijn of zelfpromotioneel daarentegen, verwijderen we maar al te graag. Door te reageren ga je akkoord met onze voorwaarden.