Is jouw site al door SpyServing gestolen?

Remi van Beekum

31 maart 2006, 04:38

SpyServing is een ‘Anonymous Proxy & Proxy Bypass’. Een wat? In het kort komt het er op neer dat SpyServing gebruikers de mogelijkheid geeft anoniem websites te bezoeken sites te bezoeken die door bijvoorbeeld bedrijfsnetwerken worden geblokkeerd. Handig voor mensen die iets te verbergen hebben, voor mensen die wel heel hoge eisen aan hun privacy stellen en voor mensen die sites willen bezoeken die door de netwerkbeheerder van hun school of werk zijn geblokkeerd.

Heel nobel van SpyServing dat ze deze gratis dienst leveren. Echter, om deze functionaliteit te kunnen bieden stelen en manipuleren ze wel meteen even de bezochte sites.

Zo kwam ik bij toeval onze site tegen op de url van SpyServing. Het blijkt dat ze de bezochte pagina geheel op hun url aanbieden (ze stelen dus content en lay-out). De broncode is zo gemanipuleerd dat de advertenties en scripts zijn gestripped (ze ontnemen ons dus advertentie inkomsten) en in alle links is www.marketingfacts.nl vervangen door www.spyserving.com/eencode (ze manipuleren onze broncode). Tot slot scoren ze ook nog eens op onze content in de zoekmachines (dus ze ontnemen ons bezoekers).

Nou heb ik geen rechten gestudeerd, maar dit lijkt me toch aan alle kanten diefstal.

Inmiddels staan er ruim 10.000 gestolen pagina’s in Google. Waaronder uit Nederland bijvoorbeeld ook Dutchcowboys en

Google News Nederland

Is jouw site al door SpyServing gestolen?

Remi van Beekum

Eigenaar bij Kiemfabriek

Marketeer voor betekenisvolle bedrijven.

Categorie

Commerce

Tags

nieuws,

24 Reacties

media

Remi, kun je ook aangeven wat dat betekent voor de zoekmachine positionering?

Zowiezo ben ik eigenlijk wel benieuwd naar het effect van sites die (al dan niet via RSS-scraping) de content van Marketingfacts gebruiken op hun sites. Hoe gaan zoekmachines als Google daar mee om?

31 maart 2006 om 04:45

media

Hmmm, ik begin langzamerhand ook te begrijpen waarom mijn datatraffic zo enorm aan het exploderen is. Er zijn tig sites die marketingfacts helemaal leegzuigen en de content elders gebruiken. Is daar technisch niet iets op te verzinnen zonder de zoekmachines te belemmeren bij het indexeren?

31 maart 2006 om 05:41

Remi

@ Ayalon,

Ik dacht dat ik dat linkje zelf al geplaatst had, maar zie dat ik dat vergeten ben. Bedankt.

Google (en de rest) zullen de site inderdaad binnenkort wel verwijderen.

@ Marco,

Google gaf op de SES aan dat ze de aankomende tijd extra aandacht zullen geven aan duplicate content. Ze proberen daarbij, op basis van Shingles, uit te zoeken of een tekst een duplicaat of een echte tekst is. Mochten ze duplicaten vinden, dan proberen ze te bepalen welke het origineel is, de kopieÃ«n zullen niet- of nauwelijks scoren.

Vroeger was dat relatief simpel, je kijkt gewoon welke pagina het oudst is en neemt die als origineel. Maar met de komst van RSS is dat niet meer mogelijk. Er zijn op dit moment tientallen sites die de feed van Marketingfacts gebruiken in (branche specifieke-) nieuwsoverzichten, meestal geheel legitiem. Deze syndication levert Marketingfacts bezoekers op. Maar omdat ze dit door gebruik te maken van RSS direct kunnen doen werkt bepaling op basis van leeftijd niet meer. Gelukkig zijn er ook andere manieren om het origineel te bepalen, denk bijvoorbeeld aan interne links waarin de domeinnaam staat.

In sommige gevallen gaat de detectie ook niet helemaal goed, waardoor het origineel minder zal scoren en het duplicaat juist beter. Op de SES werden daar veel vragen over gesteld, dus ik veronderstel dat dit op dit moment een vrij groot issue is bij Google.

Ik heb niet het idee dat SpyServing de rankings van sites beÃ¯nvloed. Het gaat slechts om Ã©Ã©n of enkele paginaâ€™s en ik kan me niet voorstellen dat duplicate content filters deze site als origineel zullen zien. Bij sites die op basis van RSS content van Marketingfacts gebruiken is dat wel een potentieel risico, omdat duplicate content filters soms vreemde dingen doen.

31 maart 2006 om 05:43

Peter Bonjernoor

@Marco – kijk eens in je logfiles. Als ze net als de googlebot een eigen useragent hebben kun je ze blokkeren. Hoe je dat kunt doen ligt een beetje aan de configuratie van je server.

31 maart 2006 om 05:53

Ayalon

@Remi: Opzich is er natuurlijk geen probleem met het plaatsen van rss feeds van andere sites op je site. Rss-feeds hebben tenslotte altijd een link naar andere sites in het overzicht, behalve voor de gebruiker zou het wat lastiger kunnen zijn omdat ze een keer extra moeten klikken.

In mijn optiek wordt het pas een probleem als er sites zijn die full-feeds plaatsen, zonder de koppeling naar de site waar het origineel vandaan komt te behouden. Dan moeten de zoekmachines aan het werk om te kijken wie duplicate maakt en wie niet.

31 maart 2006 om 06:20

Roy Huiskes – chapter42

tsja, nogal makkelijk. Deze dienst doet precies hetzelfde als Google die een kopie van de pagina opslaat in de cache.

31 maart 2006 om 06:25

Remi

@ Roy,

Google:

– laat de cache niet indexeren door andere zoekmachines om zo op andermans content vindbaar te worden

– manipuleert onze broncode niet door alle links te wijzigen

– stript niet alle advertenties van onze site

Dat lijkt me niet precies het zelfde.

31 maart 2006 om 06:42

jdevalk

@ Remi,

ben ik met je eens. Ik heb het sowieso niet zo op dit soort sites, waarom kunnen mensen er toch geen genoegen mee nemen dat werkgevers soms bepaalde sites blokkeren voor hun werknemers? Als je bijvoorbeeld bij de politie zit te werken als ontwikkelaar, waarom zou je dan andere sites nodig hebben dan algemene nieuws sites en sites over jouw vakgebied?

31 maart 2006 om 07:10

Cpt. Iglo

@Remi: dat is inderdaad niet precies hetzelfde. De cache van Google zou verboden moeten worden omdat men materiaal herpubliceert dat vaak door de eigenaar al verwijderd of verbeterd is. Dat is vast wel in strijd met het auteursrecht, of copyright.

31 maart 2006 om 07:14

Roy Huiskes – chapter42

Remi, daarin heb je helemaal gelijk. Ik had niet helemaal de punt van het stukje begrepen.

31 maart 2006 om 07:55

media

De ratten en dan ook nog een hogere positie krijgen als Marketingfacts! Binnenkort maar eens met RSS-feeds stoppen; kost me alleen maar bandbreedte, lagere positie in zoekmachines en klagende lezers die complete artikelen in hun feeds willen 😉

31 maart 2006 om 09:31

mangold

Ik vind ’t een beetje ouderwets om dit vervelend te vinden. Als je de wereld iets wilt vertellen, dan ben je toch juist blij met iedereen die jouw verhaal doorvertelt?

Een verhaal dat alleen op je eigen website staat bereikt een klein publiek, een verhaal dat je via RSS uitzendt bereikt wat meer mensen, en een verhaal dat ook nog eens door anderen wordt doorverteld bereikt ‘de hele wereld’.

31 maart 2006 om 11:57

Luc Franken

“dan ben je toch juist blij met iedereen die jouw verhaal doorvertelt? “

Met een nette bronvermelding + link wel ja 😉

31 maart 2006 om 12:49

Raceman

Grappig om dit te lezen, om te zien dat dit door marketeers nu pas ontdekt wordt.

Proxy’s zijn al jaren oud, en er zijn er velen (niet telbaar) van.

Dat ze lokaal een kopie opslaan, is juist de kracht van een proxy. Ze waren vooral in de jaren 90 populair, omdat er toen geen breedband verbindingen waren. De proxy systemen van de meeste internet providers bewaarden veel opgevraagde websites lokaal, om zo sites snel te kunnen laten zien, en tevens dataverkeer op de internet knooppunten en lijnen te besparen.

Een (vind ik leuke) blooper uit de jaren 90, en het is geen 1 april grap, dat een grote provider een afbeelding op de proxy had staan van een website, welke door een technische fout veranderd werd in een adult afbeelding. Om het niet te technisch te maken, de website met de reclamebanner, was niet meer de banner, maar de adult afbeelding. *OEPS* 🙂

Hedendaags worden proxy’s vooral gebruikt voor anoniem internet, en door het mkb/scholen voor afgeschermd toegang voor het personeel/student tot internet.

@Marco

Persoonlijk zou ik me niet druk maken om die proxy, via je je statistieken kan je zien hoeveel procent er binnenkomt via die proxy. Ik gok dat die heel minimaal is.

Mocht je het toch willen blokkeren, geef dan maar een gil.

31 maart 2006 om 23:09

Seth

Ik lees veel over duplicate content op deze pagina maar wat ik zo “raar” vind is dat een site als de answers.com die van verschillende bronnen informatie haalt ( overigens volkomen legaal ) vrijwel geen last heeft/ schijnt te hebben van een duplicate content filter. Kan iemand dit misschien iets nader toelichten?

2 augustus 2006 om 11:38