Google’s VisualRank een stap dichterbij

Remi van Beekum

1 mei 2008, 05:25

Zoekmachines zijn continu hun algoritmes aan het bijschaven om de zoekresultaten zo relevant mogelijk te maken. Daarbij worden Google’s resultaten door velen beschouwd als de beste. Het gewicht wat linkpopulariteit in de schaal legt lijkt, voorlopig althans, de meest betrouwbare resultaten te geven voor de normale organische zoekopdrachten. Maar de opkomst van Universal Search is niet langer te negeren. Gecombineerde resultaten, met niet alleen webpagina’s maar ook verticale resultaten zoals nieuwsberichten, video’s en afbeeldingen, worden meer en meer gemeengoed. En dan is het natuurlijk wel belangrijk dat ook die verticale resultaten net zo relevant zijn voor de zoekopdracht.

Tekstelementen

En op dat gebied is voor zoekmachines nog wel een inhaalslag te maken. De kwaliteit van de resultaten van image search bijvoorbeeld is nog lang niet op hetzelfde niveau als die van de gewone resultaten. Zo geeft Google’s Image Search bijvoorbeeld voor de woorden “blauwe fiets” een aantal dubieuze resultaten. Tussen de afbeeldingen staan namelijk niet alleen de verwachte blauwe fietsen, maar ook roze fietsen en zelfs een plattegrond van een fietsroute door de nieuwbouwlocatie De Blauwe Stad. Dit is het gevolg van de manier waarop afbeeldingen op dit moment worden gewaardeerd, waarbij het algoritme vooral tekstelementen als bestandsnaam, alt-tag en omringende tekst op de pagina waarop het plaatje staat een belangrijke waarde geeft. De daadwerkelijke inhoud van de afbeelding speelt hierin nog geen rol.

Visuele linkstructuur

Onderzoekers van Google komen nu met een paper (PDF) waarin een methode om afbeeldingen te waarderen op daadwerkelijke inhoud wordt beschreven. Deze methode hangt sterk tegen het bekende PageRank principe aan. Het gaat om een algoritme dat bedoeld is to analyze the visual link structure that can be created among a group of images. Dat betekent dat voor een zoekopdracht eerst een groep afbeeldingen wordt verzameld op basis van de traditionele tekstuele relevantie. Vervolgens worden de afbeeldingen door middel van image recognition verder geanalyseerd. Zo wordt bepaald welke afbeeldingen het meest op elkaar lijken, waardoor onderlinge visuele hyperlinks kunnen worden geschat.

{title}

Van PageRank naar VisualRank

Uiteraard zijn er problemen te verwachten met deze methode. Ten eerste kost het herkennen van afbeeldingen enorm veel rekenkracht. Niet alle foto’s van het Gasuniegebouw in Groningen zijn vanuit dezelfde hoek genomen, kleurstellingen kunnen enorm verschillen, enzovoorts. Ten tweede is het niet evident hoe je de verschillende afbeeldingen vervolgens moet gaan waarderen. Het vergelijken van karakteristieke elementen in afbeeldingen, de visuele links, is pas het begin. Op basis van de populariteit van een afbeelding (hoe vaak deze bekeken wordt) en wiskundige berekeningen kan worden vastgesteld hoe de afbeeldingen zich onderling verhouden. Hierbij speelt het beproefde PageRank algoritme een belangrijke rol. En ook al wordt er in het onderzoek niet over gerept, je zou deze waarderingsmethode heel goed VisualRank kunnen noemen.

{title}

Referentiekaders

Een waarderingssysteem op basis van de daadwerkelijke inhoud van afbeeldingen zal uiteindelijk veel nauwkeuriger resultaten geven dan op basis van tekstelementen. De uitdaging zal zijn hoe de referentiekaders worden bepaald en vooral, hoe accuraat de herkenning van overeenkomsten tussen afbeeldingen is. Pas dan zal blijken of het PageRank algoritme net zo effectief kan worden ingezet voor het waarderen van afbeeldingen als voor gewone pagina’s.

Dit artikel is geschreven door mijn collega Wouter Kiel.

Remi van Beekum

Eigenaar bij Kiemfabriek

Marketeer voor betekenisvolle bedrijven.

Categorie

Data Analytics Search & Conversie

Tags

web analytics, zoekmachine marketing,

4 Reacties

Willem L

De plaatjeszoeker vanGoogle gebruik ik regelmatig om wat andere resultaten te vinden dan de gebruikelijke. Daar zitten vaak leuke verrassingen bij.

Het valt me wel op dat de laatste twee weken Google veel minder relevante resultaten geeft. Het lijkt wel of ze meer variatie willen bieden maar ik vind de zoekresultaten niet geslaagd. Zoek maar eens op Sony Ericsson W350i. Voorheen kreeg je dan tientallen afbeeldingen van dit toestel, maar dat ziet er nu veel anders uit. Google expermenteert wellicht al.

1 mei 2008 om 13:03

Edwin

Er kan idd nog veel verbeteren, de zoekresultaten zijn vaak bedroevend.

Maar is het wel de moeite waard ?, het gebruik ligt stukken lager dan voor de klassieke webresultaten, Adwords implementatie is moeilijk en het probleem van copyrightschending ligt altijd op de loer.

1 mei 2008 om 16:29

Harrold

Voor afbeeldingen kun je dan ook veel beter Live gebruiken. Hoewel de normale resultaten van Live erg matig zijn, is de image search van Live weer veel beter dan die van google.

1 mei 2008 om 21:38

Remi

Ik gebruik ook regelmatig live voor het zoeken naar images. Ik weet niet of de resultaten nou veel beter zijn, maar door de eindeloze scroll en handigere sorteeropties kun je vaak sneller vinden wat je zoekt in Live Images in vergelijking tot Google Images.

Ask is superieur als je iets met entertainment of muziek wilt weten. (Moet je wel de US versie hebben) Ask’s blended search komt dan erg mooi tot zijn recht, bijvoorbeeld doordat je tracks van een band al in de zoekmachine kunt luisteren.

Ik heb een aantal jaren geleden wel eens cijfers gezien dat steeds meer mensen een ’tweede’ zoekmachine gebruiken, als de eerste niet oplevert wat ze zoeken. Op zich zou het vrij logisch kunnen zijn dat mensen voor bepaalde soorten zoekopdrachten een andere zoekmachine gebruiken. Toch heb ik het idee dat alleen wij, de vakidioten, dat doen…

2 mei 2008 om 05:53