RSS goed voor Zoekmachine Marketing, of toch niet?

2 oktober 2007, 06:15

Dat hangt er uiteraard geheel vanaf hoe je RSS inzet voor je bezoekers en mede voor de traffic die het je kan opleveren via de vele RSS distributiekanalen die het internet tegenwoordig rijk is. Via Twitter werd er enige tijd geleden gesproken over de verandering in bezoek vanuit zoekmachines op marketingfacts.nl ten opzichte van vorig jaar. Het lijkt te zijn afgenomen en dat is vreemd aangezien de site een goede PageRank heeft en dagelijks nieuwe content produceert. Een snelle analyse liet al snel zien dat het probleem wel eens kon komen doordat er duplicate content ten gevolge van RSS verschijnt in de resultaten van de zoekmachines.

Als voorbeeld:

Op Marketingfacts staat een artikel over: Google wint populariteitswedstrijd. Het artikel begint met het volgende deel unieke content: “Prachtige eerste zin in dit artikel op de site van the New York Times (Google Wins the Most Hearts on the Web).”

Als we nu hierop gaan Googlen komen we bij de volgende resultaten uit. Hetgeen hier direct opvalt is dat de resultaten van Marketingfacts onder de resultaten van onder andere MarketingFeeds en Bloglog staan. De resultaten van deze 3 copy-cats zijn gevoed via de Marketingfacts RSS feed.

Wat is RSS? RSS staat voor Really Simple Syndication en is een webfeedformaat. Dit formaat (xml genaamd) geeft je als gebruiker de mogelijkheid om nieuws of posting/comments van weblogs via een zogeheten RSS Reader te kunnen lezen zonder telkens de website te hoeven bekijken….lekker makkelijk dus… en voor diegene die weinig tijd heeft al jaren lang een goede uitkomst. RSS wordt derhalve ook gebruikt door zogeheten “copy-cats”. Deze personen, danwel organisaties, kopieren veelal informatie of nieuws van derden zonder dit zelf te controleren, verifieren of aan te vullen…en regelrechte kopie van jouw bericht dus.

Normaliter zouden we dan dus denken ach, zolang ze maar een link opnemen naar mijn website bij het publiceren van deze informatie is er niets aan de hand. Maar er is meer om bij stil te staan. Juist door het laten kopieren van de inhoud ben je dus niet langer uniek. Doordat je niet langer uniek bent zal de informatie vanuit jouw RSS feeds meerdere keren terugkeren in zoekmachines als Google. Ook nu hoeft het nog niet erg te zijn, maar als de gekopieerde informatie die via jouw RSS bij derden op websites verschijnen teveel overeenkomsten vertoond, zal google één van de websites met deze inhoud een relatief hoge positie geven en de overigen degraderen naar lagere niveau’s in haar resultaten lijst.

En laat het net jij zijn die NIET de positie krijgt, zal je altijd zien.

Hoe bepaalt google dan welke url wel deze positie krijgt? Door de metingen van de authoriteit van elke individuele website zal google de website met de meeste authoriteit het hoogst plaatsen, dus niet degene die het eerste de informatie aanbied. Ook dit is iets waar je dan rekening mee zou moeten houden.

Hoe op te lossen? Want je wilt nog steeds RSS aanbieden? Dat kan. Zorg ervoor dat jouw feed niet het gehele bericht meegeeft aan het webfeedformaat maar beperk het tot een dusdanig deel dat lezers van jouw RSS feeds geïnteresseerd zijn om door te klikken en derden nog steeds geïnteresseerd zijn een melding te maken van jouw bericht. Al met al, moet het dan goed kunnen komen, maar zeker is dat als je complete berichten aanbiedt je op de lange termijn wel eens wat traffic kan missen via zoekmachines.

Ben benieuwd wat jullie ervaringen zijn!

40 Reacties

    pixites

    het is tevens belangrijk op je woorden te passen; hoewel positiets wel weer lekker klinkt;)


    2 oktober 2007 om 06:49
    Ralph Ruyters

    De simpelste oplossing lijkt me toch echt het meenemen van de chronologische volgorde (door de zoekmachines) van het plaatsen van het bericht. Kortom, de originele poster is altijd eerst, en de RSS copy-cats linken dan naar deze bron. Zo kan volgens mij duplicate content ‘gestraft’ worden door degenen die dat ook verrichten..


    2 oktober 2007 om 07:16
    Tobi Fondse

    Als je real time rss feeds van anderen op je site plaatst kun je ook altijd de eerste zijn bij Google (als je regelmatig wordt bezocht.) Een chronologische waardering heeft dan niet zoveel zin.

    Voor Google maakt het eigenlijk ook niet uit wat de bron is van een tekst, maar wat het beste resultaat is voor een zoekopdracht.

    Als praktische oplossing moet je er misschien voor kiezen je rss-feed te voorzien van een samenvatting ipv het complete artikel.


    2 oktober 2007 om 07:43
    Ralph Ruyters

    @ Tobi: eens met je praktische oplossing.

    “Als je real time rss feeds van anderen op je site plaatst kun je ook altijd de eerste zijn bij Google (als je regelmatig wordt bezocht.) Een chronologische waardering heeft dan niet zoveel zin.” –> dat zouden zoekmachines juist moeten willen veranderen! Het beste resultaat voor een zoekopdracht IS namelijk de originele post. Al meet je ’t op de miliseconde, er moet verschil waarneembaar kunnen zijn tussen de originele poster en de RSS-copy cat.


    2 oktober 2007 om 08:03
    André Scholten

    We bespreken hier het fenomeen RSS als bron van de duplicate content, dat is volgens mij niet helemaal waar. Dat RSS het kopiëren van een site vergemakkelijkt is waar, maar een op maat gemaakte site crawler is ook zo te maken. Het inkorten van een RSS feed is dus aleen een licht drempelverhogende actie die het kopieren iets moeilijker maakt.

    Het echte probleem zit hem in het feit dat Google uit de bijvoorbeeld 5 berichten de bron moet weten te halen. Over het algemeen lukt Google dit aardig omdat 4 van die berichten een link hebben naar de bron, maar wanneer dit niet zo is zal Google een gecalculeerde ‘gok’ gaan doen.

    Die calculatie hangt van een aantal factoren af, en een daarvan is autoriteit. MF heeft een probleem op dat gebied omdat Google ze niet als autoriteit heeft aangewezen. Ik heb onlangs een artikel gepubliceerd op MF en hem een uur later op mijn eigen site geplaatst. Na 3 uur stond mijn site op 1, ekudos, nujij en marketingfeeds op 2, 3 en 4 en MF op 5.


    2 oktober 2007 om 09:25
    Roy Huiskes

    Hmm, ik zal hier vanavond als ik tijd heb wel even op reageren, nu heb ik deze tijd helaas niet. wat ik nu denk is: noindex, follow 😉


    2 oktober 2007 om 09:29
    media

    @André: hmmm, interessant, want waar baseert Google de authoriteitskeuze op? Met andere woorden, waar ligt volgens jou het probleem dat marketingfacts soms wel en soms niet wordt gezien als authoriteit?


    2 oktober 2007 om 09:35
    media

    @Roy: ben benieuwd; ben zelf ook onderweg dus kom vanavond weer kijken 😉


    2 oktober 2007 om 09:35
    André Scholten

    Ik heb Marco zojuist een mail gestuurd met daarin een voorstel voor een aanpassing.

    Op dit moment is de meest duidelijk aanwijsbare factor dat je aan de berichten in de feed niet kunt zien wat de bron is. Ik heb in mijn eigen feed een “lees meer” of “more” link staan die rechtstreeks linkt naar mijn site. Alle feedscrapers plaatsen daarmee automatisch een link naar mij, en zo ziet Google mij als autoriteit.


    2 oktober 2007 om 09:56
    Gerben

    @Andre,

    Als je dan toch bezig bent, mail hem dan ook even dat het wellicht een idee is om in de RSS Link datum en tijdstip op te nemen.

    Ook dit kan een leidraad zijn om de originele post te bepalen.


    2 oktober 2007 om 10:01
    Arnoud

    De RSS-feed zelf is volgens mij ook een bron van duplicate-content en deze zou je eigenlijk op noindex-nofollow moeten zetten. (zie ook de reactie van Roy)

    Ik bied zelf geen full-feeds aan, maar een samenvatting van 80 tekens. Ik heb het gevoel dat je hiermee een grotere kans hebt om als “originele” bron aangemerkt te worden omdat het uiteindelijke bericht meer woorden bevat dan de gekopieerde RSS-feed. Of dit in de praktijk echt zo werkt mogen de zoekmachine-experts roepen.


    2 oktober 2007 om 10:08
    Gerben

    @Eduard

    Je hebt natuurlijk ook hier een korte termijn strategie tegenover een lange termijnstrategie.

    Als je schrijft over actualiteiten dan wens je als eerst bovenaan te staan om die kleine kortstondige massa mee te pakken uit de zoekmachines. Als je over algemene onderwerpen schrijft is dat niet direct noodzakelijk inderdaad en kan je ook na enkele dagen tot weken een toppositie accepteren.

    Veel zal dus met je visie/strategie samenhangen. Ga je voor lange termijn? Dan kan je idd best meer content bieden die ook beter is voor de RSS lezers.

    Snel schakelen en scoren, wellicht andere oplossing zoeken? Bijvoorbeeld zoals Tobi hierboven al aanhaalt.


    2 oktober 2007 om 10:12
    eduardblacquiere

    @Gerben:

    Ik ben het met je eens dat je strategie van invloed is. Maar je weet ook dat nieuws zich via RSS zeer snel verspreid, waardoor er binnen enkele minuten al de eerste links kunnen verschijnen naar een artikel. Google neemt dit vervolgens ook vaak snel mee in de rangschikking van de zoekresultaten (denk aan het eerder genoemde Query Deserves Freshness algoritme), waarmee de actualiteit gewaarborgd blijft.


    2 oktober 2007 om 10:46
    Feeder

    Gerben, interessant stuk! Goed dat Marco mij een tijdje geleden verbood hierover te schrijven, zo gedetailleerd had ik het niet kunnen beschrijven. 🙂


    2 oktober 2007 om 12:18
    Elja

    @karel; Verbod om te schrijven. Klinkt spannend, waar blijven de details? 🙂

    @Camera2Go; Weet je wel zeker dat je die domeinnaam nu genoeg geplugged hebt? 😉

    Meer ontopic; zelf heb ik ook gekozen voor het plaatsen van de eerste alinea in de RSS feed en een ‘lees verder’ link. In mijn geval lijkt het goed te werken. Ik sta doorgaans boven alle resultaten van de rss-overnemers.

    Ben benieuwd wat de oplossing voor Marketingsfacts uiteindelijk zal zijn. Lijkt me een nuttige case.


    2 oktober 2007 om 13:43
    media

    Interessante discussie!

    Zag je email voorbij komen André, moeten we zeker meenemen in de aanpassingen. Ben benieuwd waar Roy nog mee komt vwb nofollow maar ik heb zo’n vaag vermoeden.

    Karel, leg uit, wat is je verboden om over te bloggen?


    2 oktober 2007 om 15:58
    media

    @karel: haha, ja dat is inderdaad een zwaar verbod om iets te bloggen 😉


    2 oktober 2007 om 18:08
    gerben

    @Karel,

    Niet overdrijven! 🙂


    2 oktober 2007 om 18:09
    gerben

    @Marco

    Zware straf is het niet, je hebt maar 140 karakters, dus moet je kort en bondig zijn!


    2 oktober 2007 om 18:10
    Feeder

    Maar omdat ik niet haatdragend ben: heb volgend stuk in de pen, titel al bekend, ´Uitgevers tweaken niet´ (n.a.v. e-mailwisseling met Piet Bakker).


    2 oktober 2007 om 18:10
    Henri van den Hoof

    Ik geloof wel in de SEO-logica en technische insteek van dit verhaal, maar ben het er eigenlijk absoluut mee oneens! Ik mis namelijk een erg belangrijk marketingelement in deze discussie: de behoeften van je meeste gewaardeerde vaste klant (de RSS-abonnee dus). Snap best dat nieuwe klanten cq. lezers werven een belangrijk aspect is, maar wat betekent dit voor je vaste lezers? Ze krijgen tegenwoordig nog slechts 2 regels tekst in de MF-feed! Daarmee is het als abonnementsvorm voor mij eigenlijk waardeloos geworden en kan ik ‘em net zo goed uit mijn feedreader gooien en weer via bookmarks naar mijn favo sites surfen. Hoop dan ook op halve of volle feeds op deze en alle andere sites die ik zo graag lees. Vervolgens moet je natuurlijk zeker zoeken naar een SEO-technisch zo goed mogelijke oplossing, maar dat komt voor mij pas op de tweede plaats.


    2 oktober 2007 om 18:43
    André Scholten

    @Roy en Joost: het al dan niet indexeren van de feed van MF is toch helemaal het probleem niet hier? De scrapers negeren de noindex uiteraard.

    @Henri: ik ben dan ook voor volledige feeds, wanneer je die goed inricht zal Google je gewoon als de bron van een artikel zien en kan hij gewoon door anderen gescraped worden. Een korte feed zie ik dus niet zoals Gerben als korte termijn strategie aangezien de lengte van de feed niet de oorzaak van het probleem is.

    Je kunt best met een volledige feed op korte en lange termijn scoren.


    2 oktober 2007 om 20:12
    gerben

    He Roy,

    Ik had deze posting nog niet gezien, maar de voorgaande aangaande het onderwerp wel.

    Het is idd jammer dat de meeste blogs het mankement inzake second level niet oplossen.

    Bij wordpress is het op zich simpel om de interne structuur uit je blog te verwijderen en middels gerelateerde artikelen wel een volledige strekking te houden. Maar goed, dat is weer een uitwijking van bovenstaande.


    3 oktober 2007 om 05:41
    jdevalk

    En de bevestiging van mijn vorige comment, kreeg ik net in de comments op mijn eigen blogpost hierover in het Engels:

    Joost – Thanks for raising this issue. I believe that Google has gotten better on this issue recently, and will continue to improve… our goal is to ensure that feeds absolutely do *not* create duplicate content issues under any circumstances.

    If you notice a feed showing up in a Google search result, feel free to shoot me a note at ——— – it’s always helpful to have specific examples.

    As for the X-Robots-Tag, I’ll look into how we might implement that at FeedBurner. Sounds like a good idea as a backup to the overall goal here to ensure that feeds don’t show up independently in search results.

    Regards,

    Rick Klau

    Google (former VP/publisher services at FeedBurner)


    3 oktober 2007 om 18:36
    eduardblacquiere

    Klinkt hoopvol, Joost. Goed werk!


    4 oktober 2007 om 07:48
    gerben

    @joost,

    Wederom ben ik hier bang voor het feit dat google het heeft over eigen rss streams, niet de copycats…of zie ik het verkeerd?


    7 oktober 2007 om 17:20
    jdevalk

    Ja, maar daar maak ik me minder zorgen om dan dupe content issues, die er op dit moment soms wél zijn.


    7 oktober 2007 om 17:22
    gerben

    @Joost,

    je bedoeld duplicate content situaties aan de hand van eigen rss feeds? Dus je eigen stream die duplicate content veroorzaakt?

    Das uiteraard ook een probleem, maar ook het makkelijkste te verwerken, toch? Simpelweg je feed blokkeren voor robots?

    Of bedoel je toch de copycats?


    7 oktober 2007 om 17:25
    jdevalk

    Nee eigen feeds. Voor een SEO makkelijk op te lossen, maar niet voor mensen die niks van SEO snappen. Je moet vanuit Google kijken, die proberen dat soort issues gewoon op te lossen omdat “de normale mens” het niet snapt.

    Kijk hier op MF. De SEO is in goede handen, zou je toch denken, en toch is er nog veel dupe content. Blijkbaar kun je dat dus zelfs aan de meeste SEO’s dus niet overlaten, en moet Google dat soort issues dus oplossen.

    De copycats zijn lastig, maar daar is Google al redelijk goed in. Als je een beetje autoriteit hebt heb je er niet zo’n last van, mits je zorgt dat je als eerste geindexeerd wordt, een van de weinige goede redenen om Google Sitemaps te gebruiken op blogs.


    7 oktober 2007 om 17:31
    gerben

    @Joost,

    mee eens, voor de meesten is het wel op te lossen met enige SEO kennis, en goed dat Google er iets aan doet.

    Blogs blijven een ramp voor duplicate content, veelal zit je alleen al met de datum url’s, die leveren veelal grote problemen in zoekmachines…

    Maar ‘k snap nu in ieder geval wat je bedoelde en deel je mening zeker…..


    7 oktober 2007 om 17:37
    jdevalk

    Mooi 🙂


    7 oktober 2007 om 17:39

Marketingfacts. Elke dag vers. Mis niks!