woensdag 12 april 2006, 16:15 uur
Tweakers.net uit Google-index verdwenen
Sinds gisteren is Tweakers.net, één van de grootste online tech communities en recentelijk overgenomen door VNU, uit de Google-index verdwenen. De precieze oorzaak daarvan wordt nog onderzocht. Het lijkt er op dat Tweakers.net om onbekende reden een ‘penalty’ heeft gekregen waardoor de vermelding uit de index is gegooid aldus Arjen van der Meijden.
Ruben Timmerman, die eerder vandaag de Rabobank-case onderzocht, denkt dat er een andere reden is voor de verwijdering uit de index en schrijft het toe aan een fout in de robot.txt. Een fout die eerder ook door Kieskeurig.nl werd gemaakt.
Wat de oorzaak ook is, feit blijft dat het rommelt bij Google. Zoals eerder gezegd heeft Marketingfacts op dit moment ook te kampen met enorme schommelingen in bezoek vanuit Google.
lijkt me toch niet aan google liggen?
ze hadden gewoon alles met 301 redirects van www.tweakers.net naar tweakers.net moeten redirecten lijkt me?
Tweakers heeft inderdaad de zelfde fout gemaakt als Kieskeurig een paar maanden geleden. Eigenlijk is het niet eens een fout van Tweakers en Kieskeurig, maar een fout in de manier waarop Google met de robots.txt omgaat.
Dit is er aan de hand:
Zoekmachines zien http://www.voorbeeld.nl en http://voorbeeld.nl als twee verschillende sites. Beiden hebben een aparte linkpopulariteit en zijn duplicaten van elkaar. Het zelfde geldt voor alle andere domeinnamen waaronder een site te bereiken is. (misspellingen en varianten enz) Als het goed is zal een duplicate content filter van de zoekmachines ontdekken dat het om een duplicaat gaan en de versie met de hoogste linkpopulariteit opnemen.
Je wilt je site trouwens maar met één url in de zoekmachines hebben. Regel je dat niet correct, dan loop je het risico (onterecht) in een duplicate content filter terecht te komen en een stuk minder goed vindbaar te zijn. Kies er dus een en zorg dat de rest op de correcte manier redirect. (Nee, geen 302 gebruiken!!)
Tweakers wil blijkbaar alleen als http://tweakers.net in de zoekmachines komen en http://www.tweakers.net eruit halen. Kieskeurig had een zelfde punt, hun systeem maakt gebruik van subdomeinen voor de load-balancing en wilde maar één subdomein naar buiten communiceren. Beiden hebben gebruik gemaakt van een robots.txt voor het subdomein die alle zoekmachines tegenhoud, terwijl op de www-versie een robots.txt staat die de bots wel binnenlaat.
Nou blijkt dat Google de robots.txt van een subdomein en van een domein laat overerven. Anders gezegd, een robots.txt van het ene subdomein, wordt gezien als de robots.txt van zowel het subdomein als het hoofddomein. Met als gevolg dat de site uit Google verdwijnt.
Eerlijk gezegd heb ik geen idee hoe andere zoekmachines hier mee omgaan. Zo te zien staat de site nog in MSN, maar Yahoo! laat nog maar 5 pagina’s zien.
Volgens de officiële berichten van zoekmachines kan het een half jaar duren voordat de site weer opgenomen wordt. Om dat te versnellen raad ik aan eerst te zorgen dat de robots.txt goed komt te staan (is inmiddels gedaan), vervolgens een reinclusion request te doen, en tot slot een gokje te wagen en Google te bellen.
Officieel zal het dus een half jaar duren, maar ik zet m’n geld op een kleine twee weken.
Matt Cutts zegt over dit probleem:
Q: If I want to get rid of domain.com but keep www.domain.com, should I use the url removal tool to remove domain.com?
A: No, definitely don’t do this. If you remove one of the www vs. non-www hostnames, it can end up removing your whole domain for six months. Definitely don’t do this. If you did use the url removal tool to remove your entire domain when you actually only wanted to remove the www or non-www version of your domain, do a reinclusion request and mention that you removed your entire domain by accident using the url removal tool and that you’d like it reincluded.
http://www.mattcutts.com/blog/seo-advice-url-canonicalization/
Klopt het dan dat ze het met 301 redirects hadden kunnen (moeten?) doen?
Da's een (groot) deel van de oplossing, maar meestal komt er nog wel wat meer bij kijken. Ik ken de specifieke situatie bij Tweakers niet goed genoeg om daar een precies antwoord op te geven.
@Metis: Inderdaad een 301 HTTP-redirect van de oude naar de nieuwe URLs is de normale manier. Robots.txt-restricties op het oude adres is nergens voor nodig. Het is zelfs beter de robots toegang te verlenen, zodat ze de 301 kunnen oppikken :-) Zodoende houd je de bezoekers en (in enige mate) de pagerank van deeplinks naar oude URLs.
@Remi: Volgens mij komt er verder niks bijzonders bij kijken en hangt het niet van de specifieke situatie af. Normaliter is het een heel gewone vierregelige configuratie van Apache. Of bedoel je dat ze misschien IIS gebruiken :-)
@ Rene,
Nee ze gebruiken wel Apache ;-)
Dit soort migraties van de www-versie naar de non-www-versie gaan vaak samen met andere aanpassingen. In dat geval komen er meer dingen bij kijken. Maar als het puur en alleen het weghalen van het subdomein 'www' is, zou een simpele 301 wel voldoende moeten zijn.
Je zou ook nog sitemaps en removal tools kunnen gebruiken, maar vooral van die laatste hoor/ lees ik te veel spookverhalen van 'per ongeluk' compleet verwijderde sites.
@Remi
Google sitemaps is inderdaad een nuttig hulpmiddel. De removal tool zou ik ook mijden.
Waarom men toch met al die kunstgrepen probeert om een URL - die jarenlang goed genoeg was - een paar weken eerder uit de index te krijgen dan zonder die kunstgrepen toch wel gebeurt is mij een groot raadsel. Mijn migratieplan zou zijn:
9:00 uur: 301 redirect in httpd.conf zetten
9:01 uur: apachectl configtest en reload
9:02 uur: testen
9:04 uur: koffie drinken
9:15 uur: naar huis, de werkdag zit er weer op
Overigens, de redirect van non-www naar www (of desnoods andersom) is natuurlijk iets wat je gelijk bij de initiële configuratie moet regelen en niet nadat je 10 jaar lang zorgvuldig inkomende deeplinks en zoekmachineposities hebt opgebouwd.
Een paar insignificante sites in Nederland pakken hun SEO niet heel handig aan en dan rommelt het opeens bij Google?
Het aardige is dat tweakers.net die 301's al lang heeft. Elke www. url wordt al een tijd doorverwezen naar de versie zonder www.
Het aanpassen van de robots.txt en gebruik van url removal tool was dus helemaal niet nodig, een klein beetje geduld had veel beter geholpen :)
Tweakers.net staat inmiddels weer gewoon in de Google index. Het probleem was niet de robots.txt, maar het lag bij Google zelf. T.net heeft een exclusion request voor www.tweakers.net gedaan, met als ongewenst side-effect dat tweakers.net (dus zonder www) ook werd uitgesloten.
Blijkbaar is het erg prettig als je de juiste mensen hiervoor weet te benaderen, want ze zijn gewoon weer vindbaar :)