1900+ zoekmachine ranking factoren uitgelekt bij Yandex

Een ontevreden ex-werknemer van de Russische techgigant Yandex heeft 44.7 GB aan beschermde bestanden en broncodes vrijgegeven.

3 februari 2023, 14:30 6527 x gelezen

Onderdeel van het datalek zijn de ruim 1900 ranking factoren van de zoekmachine Yandex Search. Dit is bijzonder gevoelige informatie omdat hiermee ‘de geheimen’ van het Yandex zoekalgoritmes ingezien kunnen worden. Daarnaast werken er ex-Googlers bij Yandex wat kan suggereren dat zij hun kennis van Google’s zoekalgoritme hebben ingezet bij Yandex. In deze blogpost neem ik je mee in de achtergronden en heb ik ook een video opgenomen met veel uitleg.

Wat zegt Yandex zelf?

Volgens Yandex zelf gaat het hier niet om een hack. Hun systemen zelf zijn dus niet gehackt. Waarschijnlijk heeft dus een oud-werknemer de code naar buiten gebracht. Dit wordt onderzocht. Uit het persbericht:

“Er was geen hacking van Yandex. De Yandex-beveiligingsdienst vond in het publieke domein codefragmenten uit de interne repository. Hun inhoud verschilt echter van de huidige versie van de repository die wordt gebruikt in Yandex-services.”

Bron: Interfax.ru (vertaald uit het Russisch)

Hoe serieus we die laatste zin van het Russische bedrijf moeten interpreteren, moet iedereen voor zichzelf bepalen. Vervolgens lezen we ook het volgende:

“We voeren een intern onderzoek uit naar de redenen waarom broncode fragmenten in het publieke domein terecht zijn gekomen, maar we zien geen bedreiging voor de gegevens of platform prestaties van onze gebruikers.”

Hoewel de veiligheid van klantgegevens voorop staat en het goed is dat deze niet zijn uitgelekt, is het voor Yandex natuurlijk wel schadelijk dat de werkwijze van hun tools openbaar is gemaakt.

Wat is er allemaal uitgelekt?

Software engineer Arseniy Shestakov analyseerde de bestanden eind vorige week en kwam tot de conclusie dat, exclusief anti-spam functionaliteiten, nagenoeg alle technische functionaliteiten en broncode is uitgelekt van:

  • Yandex search engine en indexing bot
  • Yandex Travel (reizen booking platform)
  • Yandex Metrika (internet analytics)
  • Yandex Disk (cloud storage service)
  • Yandex Direct (advertentie service)
  • Yandex360 (workspaces service)
  • Yandex Pay (betalingsservice)
  • Alice (AI assistant)
  • Yandex Cloud
  • Yandex Market
  • Yandex Maps
  • Yandex Taxi
  • Yandex Mail

De gegevens zijn gedateerd tussen februari en juli 2022.

Uitgelekte ranking factoren

Uitgaande van de bovenste lijst kun je gemakkelijk een boekwerk schrijven over de uitgelekte data. In dit artikel belicht ik een kleine selectie van de ranking factoren en laat ik zien hoe je de rest zelf kunt (laten) analyseren. Je kunt zelf alle ranking factoren als txt-bestand bekijken. Zo’n factor ziet er als volgt uit:

Uitlegvideo van de rankingfactoren

Aanvullend op dit artikel heb ik een video gemaakt met daarin uitleg en enkele ranking factoren die door SEO-professionals op Twitter besproken worden.

Naast een nummer, naam en enkele tags, zie je bij ‘Description’ een Russische omschrijving van de factor. Die kun je copy/pasten naar Google Translate en vertalen naar het Nederlands. Zo kun je een inzicht krijgen in wat iedere specifieke factor tracht te meten.

Opmerkelijke factoren

Op social media worden alle ranking factoren inmiddels uitvoerig besproken door SEO-ers en online marketeers. Zit er iets tussen wat we nog niet wisten? Krijgen we indirect misschien een kijkje in de ‘black box’ van Google’s zoekalgoritmes?

Vanuit mijn optiek zitten er veel no-brainers tussen, maar ook enkele factoren die mijn vermoedens over de werking van zoekmachines deels bevestigen. Hierbij een selectie die de moeite van het delen waard is.

1. Leeftijd van backlinks

Hoe oud (in jaren) een backlink naar een website/pagina is, is een ranking factor (factor nr. 163). Hoewel er niet bij staat hoe dit precies geïnterpreteerd wordt, verwacht ik dat oudere backlinks in waarde afnemen ten opzichte van nieuw verkregen backlinks.

2. Unieke en organische bezoekers

Hoe meer unieke en organische bezoekers een website ontvangt, hoe beter dit in de ogen van Yandex Search is (factor nr. 249/250). Ik verwacht dat de hoeveelheid unieke bezoekers een mate van nieuwswaardigheid weerspiegelt. Hoe meer mensen een webpagina immers nog niet hebben bezocht, hoe nieuwer de pagina meestal is, en het vertonen waard is.

3. Getallen in URL

Het gebruik van getallen in de pagina URL is van invloed op de posities binnen Yandex (factor nr. 331). Getallen in URL’s kunnen naar verwachting verwarrend en dus nadelig zijn wanneer deze niet voorkomen in de body van de tekst. Maar, ze kunnen ook wijzen op een bepaald type content (events, top lijsten, onderzoeksresultaten, enzovoort).

4. Teveel schuine strepen in URL

Het gebruik van heel veel schuine strepen in een pagina URL werkt in je nadeel (factor nr. 480). De zoek-robot van Yandex Search moet in dit geval meer folders indexeren. Dit kost meer energie en dus meer geld. Zie vakjargon ‘crawl depth’. Dit is meestal een gevolg van het gebruik van te veel subcategorieën.

5. Zeer slechte content

Factor 381 heeft het over ‘hard pessimization’. Dit doelt meestal op een website/content die (manueel) een penalty heeft gekregen van de zoekmachine. Dit kan gebeurd zijn omdat de content extreem slecht is. Denk bijvoorbeeld aan een pagina waar bijna geen content op staat of die met opzet feiten verdraait. In dat geval wordt de PR (PageRank) op 0 gezet en wordt de pagina nauwelijks meer weergegeven in de zoekresultaten.

6. Gemiddelde positie in zoekmachine

Factor 718 is een interessante. De gemiddelde positie van alle zoekopdrachten waarop een website scoort in Yandex is op zichzelf een ranking factor. Staat een website bijvoorbeeld gemiddeld op positie 30, en wordt een nieuw artikel gepubliceerd, dan weegt positie 30 mee in het bepalen van de uiteindelijke positie voor die nieuwe pagina.

7. Domein/URL wordt gezocht

Wordt de specifieke (merk)naam of URL van een domein gezocht in Yandex Search, dan is dat op zichzelf een positieve ranking factor (factor nr. 719/720). Het geeft aan dat de website (en merk) reeds bekend is bij de gebruiker en dat wordt gezien als een plus. Dit is interessant omdat de gebruiker dan nog niet eens op de website zelf is geweest.

8. Bookmarken van pagina

Wanneer een pagina wordt gebookmarkt, is dat een positief signaal (factor nr. 850). Op zich logisch. De bezoeker wil immers graag nog eens terugkomen. Soms zie je op een pagina dat er actief voorgesteld wordt om de pagina te bookmarken. Dat werkt deze factor in de hand.

9. Direct verkeer

Het ontvangen van direct verkeer is een positieve ranking factor (factor nr. 1087). Deze factor ligt een beetje in lijn met het zoeken op een domein. De gebruiker kent de website al en wil er direct naartoe. Dit is een teken dat de website bekend is, wat wederom voordelig meeweegt in Yandex rankings.

10. Pagina kwaliteit op hosting

De gemiddelde kwaliteit van alle content op de gebruikte hosting is een ranking factor (factor nr. 1355). Dit betekent dat een kwalitatief goede website last kan hebben van lage kwaliteit websites die op diezelfde hosting (server) staan. Dit is in lijn met de gedachte dat de eigenaren van websites, die van lage kwaliteit zijn, meestal kiezen voor goedkope (shared) hosting.

Verouderde gegevens

Omdat de data stamt uit de eerste helft van 2022 is onduidelijk welke factoren nog actueel zijn en welke zijn verouderd. Ik zie dat bepaalde factoren de tag “TG_DEPRECATED” of “TG_UNUSED” hebben gekregen. Dit suggereert dat een deel van de data verouderd is en/of niet meer gebruik wordt. Dat gezegd hebbende, een verouderde factor kan na een update een nieuwe naam hebben gekregen. Dit kunnen we niet inzien.

Conclusie

Het is een grote aderlating voor Yandex dat al deze gegevens in het publieke domein terecht zijn gekomen. Ik kan me voorstellen dat de meest gevoelige data met betrekking tot hun zoekmachine snel geupdate wordt om ad hoc optimalisaties van SEO-ers tegen te gaan. Al deze uitgelekte zoekmachine data kan in eerste instantie als ‘goud’ worden gezien door SEO-ers. Maar, we weten niet precies welke factoren nog actief zijn en in hoeverre de algoritmes van Google’s zoekmachine hier ook gebruik van maken. Zelf zie ik deze factoren voor nu vooral als een bevestiging van mijn vermoedens en/of als interessante stof tot nadenken. Het is in ieder geval een zeldzame kijk onder de motorkap van een zoekmachine die een van de grootste landen ter wereld bedient.

René Andreasi-Bassi
Freelance SEO Specialist bij Hey René

Hey René is een freelance SEO specialist en consultant die met zijn expertise bedrijven helpt om hun website hoger in Google te krijgen. Dit doet hij d.m.v. data gedreven zoekmachine optimalisaties en SEO advies op maat, met als doel meer organische leads en sales te genereren voor zijn klanten. René heeft op de marketingafdelingen gewerkt van o.a. Discovery, Net 5, FUGA, NBCUniversal en Disney. Sinds 2023 is René in te huren als zelfstandige.

Categorie

Marketingfacts. Elke dag vers. Mis niks!