De vervuiling van je data in Google Analytics en wat je er tegen kunt doen

De vervuiling van je data in Google Analytics en wat je er tegen kunt doen

Je bezoekersaantallen stijgen ineens enorm, maar extra conversies blijven achter en je conversieratio daalt steeds verder. Wat doe je nou verkeerd? Waarschijnlijk niets. Steeds vaker worden websites slachtoffer van ladingen neppe bezoekers die vervolgens zorgen voor vervuilde data in Google Analytics.

Neppe bezoekers?

We zien steeds vaker dat websites bezoeken krijgen van zogenaamde bots. Deze bots ‘bezoeken’ je site en Google Analytics telt dit vervolgens als een nieuwe sessie. We noemen de sessies van deze bots spamverkeer. Hoe meer spamverkeer je op je website krijgt, hoe vervuilder en minder betrouwbaar je Google Analytics-data wordt. Het probleem dat je hierdoor krijgt, is dat je geen juiste conclusies kunt trekken uit de data. Wat natuurlijk het hele idee is achter het verzamelen van data.

Je vraagt je natuurlijk af wat voor nut mensen eraan hebben om bots naar jouw website te sturen zodat jij vervuilde data krijgt. Het werkt als volgt. Deze mensen genereren spamverkeer in de hoop dat ze daardoor veel bezoekers verkrijgen naar hun eigen website. Spamverkeer wordt in je Google Analytics vaak aangegeven als verkeer dat van een bepaalde website af komt. Zij hopen dat iedereen vervolgens hun website gaat bekijken om erachter te komen waarom er nou bezoekers van die website naar hun website komen. Deze sites staan uiteraard vol reclame waarmee zij weer geld verdienen.

Als je wilt controleren hoeveel spam verkeer jouw website heeft, kun je de onderstaande stappen volgen.

In het bovenstaande voorbeeld wordt alle spam getoond dat in de geselecteerde periode is binnengekomen op de website. Het is logisch dat je deze data niet wil meenemen in de analyses die je maakt. Om te bekijken hoeveel spamverkeer je site heeft gehad, volg je de onderstaande stappen;

  1. Ga in het account van je website naar Acquisitie -> Alle verkeer -> Kanalen
  2. Stel bij secundaire dimensie ‘Hostnaam’ in

Als je bovenstaande twee stappen goed hebt doorlopen, zal je ongeveer dezelfde weergave zien als in bovenstaande afbeelding wordt weergeven. Sessies die verkregen zijn waar hostnamen bij staan, die niet relevant zijn aan jouw website, of waar (not set) bij staan, bestaan uit spamverkeer.

Uitsluiten van spamverkeer

Het is gelukkig mogelijk om spamverkeer uit te sluiten van je Google Analytics-data. Op internet kom je verschillende manieren tegen om dit uit te sluiten. Echter, deze oplossingen zijn enkel gericht op een klein deel van het spamverkeer. Binnen Google Analytics heb je twee soorten spamverkeer. Spamverkeer door referrals (verwijzingen) en spam door direct verkeer naar je website. We zien juist de laatste tijd dat spam verkeer via direct verkeer steeds meer toeneemt en hier nog weinig over gemeld wordt.

Direct verkeer spam uitsluiten

De oplossing voor het uitsluiten van direct verkeer spam is het uitsluiten doormiddel van het opnemen van relevante hostnamen.

Hieronder wordt dit stapsgewijs uitgelegd;

  1. Ga in het account van je website weer naar Acquisitie -> Alle verkeer -> Kanalen
  2. Stel bij secundaire dimensie ‘Hostnaam’ in
  3. Zoek de voor jouw relevante hostnamen op.

De voor jouw relevante hostnamen zijn alle plaatsen waar jij de desbetreffende trackingcode van Google Analytics hebt geplaatst. Belangrijk is om de datumselectie zo groot mogelijk te maken. Handig hierbij is om ook de rijen weergave zo hoog mogelijk te zetten.

  1. Plaats alle hostnamen op de volgende wijze achter elkaar in kladblok/word

Bijvoorbeeld: jouwdomein.nl|www.jouwdomein.nl|webcache.googleusercontent.com|translate.googleusercontent.com

Belangrijk hierbij is om altijd de versie inclusief www en de versie exclusief www op te nemen. Neem ook altijd webcache.googleusercontent.com en translate.googleusercontent.com op.

  1. Maak op weergave niveau een nieuw fiter aan en stel deze als volgt in

Controleer je filter altijd even door de filterverificatie. Wanneer hier wordt aangegeven dat er geen sessies worden uitgesloten, kun je het beste even alle stappen opnieuw doorlopen.

Referral spam uitsluiten

Met alleen het uitsluiten van direct verkeer spam zijn we er helaas nog niet. Het is ook van belang dat we referral spam gaan uitsluiten. Hieronder zie je een weergave van hoe referral spam eruit ziet in je Google Analytics-data. Deze weergave vind je op de volgende manier;

Ga in het account van je website naar Acquisitie -> Alle verkeer -> Verwijzingen

Het is verstandig om maandelijks je website te controleren op referral spam. Er zullen ongetwijfeld nieuwe sites bijkomen die nog niet uitgesloten worden door deze filters. Wanneer je nieuwe sites tegenkomt kan je deze handmatig uitsluiten door de volgende stappen te volgen.

Gelukkig is daar ook een online tool voor ontwikkeld. Deze tool maakt automatisch filters aan die zorgen dat referral spam uitgesloten wordt. Je vindt deze tool hier: http://www.simoahava.com/spamfilter/. Rood omlijnd zie je de websites die zorgen voor referral spam bij dit account. Dit zijn slechts een aantal van de vele sites die je kunt tegenkomen in je Google Analytics-data. Je kunt ervoor kiezen om handmatig al deze sites te gaan uitsluiten, maar hoogst waarschijnlijk kom je niet elke site die zorgt voor referral spam tegen in je Google Analytics-data. Je blijft dan constant bezig om nieuwe sites uit te sluiten.

  1. Ga in het account van je website naar Acquisitie -> Alle verkeer -> Verwijzingen
  2. Plaats de spam websites in kladblok/word op de volgende wijze achter elkaar

spamsite1.com|www.spamsite1.com|spamsite2.com|www.spamsite2.com

  1. Maak op weergave niveau een nieuw filter aan en stel deze als volgt in

Controleer hier ook altijd even je filter door middel van de filterverificatie.

Waarom is dit een goede manier van uitsluiten van spam verkeer?

Door het opnemen van alleen hostnamen die relevant zijn voor jouw website sluit je al het direct verkeer spam uit. Dit komt doordat elke website een unieke Google Analytics-code (UA-code) krijgt, waardoor Google Analytics kan meten wat er op alleen die website gebeurt. Direct verkeer spam wordt gecreëerd doordat er mensen zijn die een script op hun website geplaatst hebben waardoor hun UA-code telkens veranderd wordt. Zo komt ook de UA-code van jouw website langs en registreert Google Analytics één sessie, wat opgenomen is op een andere hostnaam dan jouw hostnaam.

Referral spam wordt gecreëerd doordat de spam sites een bot vanaf hun eigen website naar jouw website toe sturen. Hierdoor registreert Google Analytics dit als een bezoeker dat via een verwijzing op jouw site terecht is gekomen. Doordat je filters instelt voor deze website, geef je als het ware aan dat je geen sessies wilt opnemen van bezoekers die van deze specifieke websites af komen.

Binnen tien minuten sluit je al je spam verkeer uit en kun je voortaan weer met een gerust hart conclusies trekken uit je (betrouwbare) data!

Credits afbeelding: Foto-Rabe, licentie: CC0 (Publiek domein)

Delen

0
5


Er zijn 14 reacties op dit artikel

  • Geheel uitsluiten via de .htaccess is ook een optie heb ik gelezen. Dan bereiken ze je website niet eens. Dus ook geen onnodig dataverkeer. Wat is hierover te zeggen?

    geplaatst op
  • Ook via direct verkeer is dit een probleem aan het worden.

    Heeft spamverkeer met bounces van 100% en korte tijd op de site uiteindelijk een negatief effect op de ranking van je site in Google?

    geplaatst op
  • @Peter Derksen
    Hoi Peter,

    Hier heb ik inderdaad ook eens iets over gelezen. Hier kan je wel gemakkelijk de fout in gaan waardoor je site niet meer bereikbaar is of dat je helemaal niets meer gaat meten. Zelf heb ik dit nog nooit getest en kan dus ook niet met zekerheid zeggen of dit zal zorgen voor het uitsluiten van al het spam verkeer.

    @Leo
    Hoi Leo,

    Zo ver wij weten is bouncerate en de tijd dat bezoekers op je website zitten geen factor voor je ranking in Google. Iedereen heeft hier last van en je kan er zelf niets tegen doen. Het uitsluiten van spam verkeer zorgt er overigens ook niet voor dat er geen spam verkeer meer naar je website komt, alleen worden deze gegevens niet meer meegenomen in je data.

    geplaatst op
  • Maar, het alleen includen van data op basis van hostname (voor de direct spam) is wel potentieel gevaarlijk, in mij mening.

    De mogelijke gevaren zijn:
    - je kunt geen anomelieën meer traceren obv je Analytics (stel iemand ript je content en draait een kopie van je website (is me al eens gebeurd)
    - eventuele toekomstige wijzigingen aan een website (zoals ingebruikname van subdomeinen) geven dan ineens een incompleet beeld
    - andere 'onvoorziene' situaties

    Ik weet uiteraard dat je altijd een RAW profiel hebt ter backup, dat je extra weergave kunt creëren en dat je dit regelmatig kan/moet checken; maar de ervaring leert dat dat allemaal stappen zijn die fout kunnen gaan, zeker als je een groot aantal websites in beheer hebt.

    Is het niet verstandiger om gewoon een segment aan te maken dat je over de data heen legt?
    (helaas kun je Analytics niet standaard met een segment voorgeselecteerd laten openen, dus hier moet je dan wel elke keer aan denken)

    Zijn er meer mensen die deze bezwaren hebben op het gebied van direct spam en het includen obv hostname?

    geplaatst op
  • Het is inderdaad belangrijk dat je geen fouten maakt met het filteren. Een bron dataweergave in Analytics is hier een goede oplossing voor om onregelmatigheden te ontdekken.

    De optie die Frank noemt met het aanmaken van een segment waarin het spam verkeer gefilterd wordt is ook een prima oplossing. Het nadeel hiervan is wel dat je hem altijd moet activeren.

    geplaatst op
  • Bedankt voor je reactie Nick. Ik wil niet helemaal off-topic gaan, maar de kwaliteit van bezoeken aan een website, - lage bounce en langere tijd op de site - is toch wel degelijk een (misschien een kleine) factor voor Google om de site hoger te ranken? Ik ben bang dat Google door het spamverkeer wel bezoeken naar een website ziet die van lage kwaliteit zijn.

    geplaatst op
  • @Leo

    Hoi Leo,

    Ik snap waarom je zou denken dat de bouncerate, en tijd op de site van invloed zouden zijn op je ranking. Een hoge bouncerate zou natuurlijk aangeven dat bezoekers de website niet relevant vinden aan het onderwerp waarop ze zochten. Echter zijn er natuurlijk meer manieren waarop een bezoeker op een website kan komen en is dit niet altijd via Google zoekresultaten. Zo kan je site ook vermeld worden op een totaal niet relevante site waarmee veel bezoekers worden verkregen die je website allemaal snel verlaten. Dit heeft natuurlijk niets te maken met hoe goed jij je website hebt ingericht en het zou vervelend zijn als je op zoiets zou worden afgerekend.

    Onderstaande link verwijst door naar een video van Google Webmasters over of Google Analytics data een factor is in je ranking, voor als je meer informatie zou willen.
    https://www.youtube.com/watch?v=CgBw9tbAQhU

    geplaatst op
  • Het is bizar dat Google Analytics dit nog niet centraal heeft opgelost. Onbegonnen werk om elke maand tegen die klote Rus op te boksen als je veel sites beheert.

    Net zo bizar zijn de twee schermlengtes die je moet scrollen op Marketingfacts voordat je een letter content voorgeschoteld krijgt. Daar mag je ook snel een penalty voor krijgen. Over top heavy ads gesproken. Sodeju. Stuur mij ook eens zo'n 27" Thunderbolt.

    geplaatst op
  • @Peter Derksen,
    Uitsluiten via .htaccess houden de zogeheten ghost referrals niet tegen. Dit is referral spam die door bots wordt gegeneerd. Je Analytics tracking ID wordt dan extern ingeladen. Hierdoor lijkt het wel een referral, maar is er geen daadwerkelijk bezoek aan je website geweest.

    geplaatst op
  • @Arnoul de Wit en @Nick van der Blom, bedankt voor de feedback. Dus aan beide oplossingen hangen nadelen. Ik ga ze beide proberen op twee verschillende websites die ik beheer. Thanks.

    geplaatst op
  • Beide oplossingen kennen inderdaad voor- en nadelen. Een groot nadeel van de htaccess vind ik dat je daarvoor altijd een developer nodig hebt, omdat het aantal spammers blijft toenemen.

    Om die reden hebben we zelf ook (gelijktijdig met Simo Ahava) eenzelfde tool gelanceerd, omdat wij dus tegen dezelfde problemen aanliepen: http://referrerspamblocker.com/

    De tool hebben we ook gratis beschikbaar gesteld en kent met name een uitgebreidere lijst van bekende spam referrers en handige check welke domeinen up-to-date zijn met hun filters.

    geplaatst op
  • Wij maken voor al onze accounts gebruik van een segment die een groot aantal (laatste update 29 juli 2015) referrers behelst die we over onze rapporten heen gooien. Op die manier pakken we ook alle verwijzingen die in het verleden reeds aan onze account gekoppeld zijn.

    Het segment is hier gratis aan je Google Analytics account te koppelen:
    https://www.google.com/analytics/web/template?uid=PN0LJHMTQsua6XBCI9j3NQ

    geplaatst op
  • @Nick Dank voor je heldere uitleg. Ik heb je advies opgevolgd en zie dat het werkt. Up-to-date houden is wel een probleem want de tool van Simo Ahava zit steeds aan zijn max. Nu maar handmatig toegevoegd wat er nog doorheen glipt aan referral spam.

    geplaatst op
  • Let op dat je bij het gebruik van RegEx wel een backslash (\) plaatst voor een punt (.) in de URL's. De . kan in een RegEx staan voor elke teken, door gebruik te maken van een backslash hef je deze op en krijgt wordt de punt weer gewoon een punt.

    Dus je plaatst de regel als volgt: spamsite1\.com|www.spamsite1\.com|spamsite2\.com|www.spamsite2\.com

    geplaatst op

Plaats zelf een reactie

Log in zodat je (in het vervolg) nóg sneller kunt reageren

Vul jouw naam in.
Vul jouw e-mailadres in. Vul een geldig e-mailadres in.
Vul jouw reactie in.

Herhaal de tekens die je ziet in de afbeelding hieronder


Let op: je reactie blijft voor altijd staan. We verwijderen deze dus later niet als je op zoek bent naar een nieuwe werkgever (of schoonmoeder). Reacties die beledigend zijn of zelfpromotioneel daarentegen, verwijderen we maar al te graag. Door te reageren ga je akkoord met onze voorwaarden.