Google’s VisualRank een stap dichterbij

Google’s VisualRank een stap dichterbij

{title}Zoekmachines zijn continu hun algoritmes aan het bijschaven om de zoekresultaten zo relevant mogelijk te maken. Daarbij worden Google’s resultaten door velen beschouwd als de beste. Het gewicht wat linkpopulariteit in de schaal legt lijkt, voorlopig althans, de meest betrouwbare resultaten te geven voor de normale organische zoekopdrachten. Maar de opkomst van Universal Search is niet langer te negeren. Gecombineerde resultaten, met niet alleen webpagina’s maar ook verticale resultaten zoals nieuwsberichten, video’s en afbeeldingen, worden meer en meer gemeengoed. En dan is het natuurlijk wel belangrijk dat ook die verticale resultaten net zo relevant zijn voor de zoekopdracht.

Tekstelementen

En op dat gebied is voor zoekmachines nog wel een inhaalslag te maken. De kwaliteit van de resultaten van image search bijvoorbeeld is nog lang niet op hetzelfde niveau als die van de gewone resultaten. Zo geeft Google’s Image Search bijvoorbeeld voor de woorden “blauwe fiets” een aantal dubieuze resultaten. Tussen de afbeeldingen staan namelijk niet alleen de verwachte blauwe fietsen, maar ook roze fietsen en zelfs een plattegrond van een fietsroute door de nieuwbouwlocatie De Blauwe Stad. Dit is het gevolg van de manier waarop afbeeldingen op dit moment worden gewaardeerd, waarbij het algoritme vooral tekstelementen als bestandsnaam, alt-tag en omringende tekst op de pagina waarop het plaatje staat een belangrijke waarde geeft. De daadwerkelijke inhoud van de afbeelding speelt hierin nog geen rol.

Visuele linkstructuur

Onderzoekers van Google komen nu met een paper (PDF) waarin een methode om afbeeldingen te waarderen op daadwerkelijke inhoud wordt beschreven. Deze methode hangt sterk tegen het bekende PageRank principe aan. Het gaat om een algoritme dat bedoeld is to analyze the visual link structure that can be created among a group of images. Dat betekent dat voor een zoekopdracht eerst een groep afbeeldingen wordt verzameld op basis van de traditionele tekstuele relevantie. Vervolgens worden de afbeeldingen door middel van image recognition verder geanalyseerd. Zo wordt bepaald welke afbeeldingen het meest op elkaar lijken, waardoor onderlinge visuele hyperlinks kunnen worden geschat.


{title}

Van PageRank naar VisualRank

Uiteraard zijn er problemen te verwachten met deze methode. Ten eerste kost het herkennen van afbeeldingen enorm veel rekenkracht. Niet alle foto’s van het Gasuniegebouw in Groningen zijn vanuit dezelfde hoek genomen, kleurstellingen kunnen enorm verschillen, enzovoorts. Ten tweede is het niet evident hoe je de verschillende afbeeldingen vervolgens moet gaan waarderen. Het vergelijken van karakteristieke elementen in afbeeldingen, de visuele links,  is pas het begin. Op basis van de populariteit van een afbeelding (hoe vaak deze bekeken wordt) en wiskundige berekeningen kan worden vastgesteld hoe de afbeeldingen zich onderling verhouden. Hierbij speelt het beproefde PageRank algoritme een belangrijke rol. En ook al wordt er in het onderzoek niet over gerept, je zou deze waarderingsmethode heel goed VisualRank kunnen noemen.


{title}

Referentiekaders

Een waarderingssysteem op basis van de daadwerkelijke inhoud van afbeeldingen zal uiteindelijk veel nauwkeuriger resultaten geven dan op basis van tekstelementen. De uitdaging zal zijn hoe de referentiekaders worden bepaald en vooral, hoe accuraat de herkenning van overeenkomsten tussen afbeeldingen is. Pas dan zal blijken of het PageRank algoritme net zo effectief kan worden ingezet voor het waarderen van afbeeldingen als voor gewone pagina’s.

Dit artikel is geschreven door mijn collega Wouter Kiel.


Geplaatst in

Delen

0
0


Er zijn 8 reacties op dit artikel

  • Zie virtuele-wereldproduct Photosynth
    en dus ook http://labs.live.com/photosynth/ van MS.

    geplaatst op
  • De plaatjeszoeker vanGoogle gebruik ik regelmatig om wat andere resultaten te vinden dan de gebruikelijke. Daar zitten vaak leuke verrassingen bij.

    Het valt me wel op dat de laatste twee weken Google veel minder relevante resultaten geeft. Het lijkt wel of ze meer variatie willen bieden maar ik vind de zoekresultaten niet geslaagd. Zoek maar eens op Sony Ericsson W350i. Voorheen kreeg je dan tientallen afbeeldingen van dit toestel, maar dat ziet er nu veel anders uit. Google expermenteert wellicht al.

    geplaatst op
  • Er kan idd nog veel verbeteren, de zoekresultaten zijn vaak bedroevend.
    Maar is het wel de moeite waard ?, het gebruik ligt stukken lager dan voor de klassieke webresultaten, Adwords implementatie is moeilijk en het probleem van copyrightschending ligt altijd op de loer.

    geplaatst op
  • Voor afbeeldingen kun je dan ook veel beter Live gebruiken. Hoewel de normale resultaten van Live erg matig zijn, is de image search van Live weer veel beter dan die van google.

    geplaatst op
  • @Harrold
    Persoonlijk ben ik wel gecharmeerd van Ask's Image Search. Zeer degelijke restultaten en nuttige extra navigatie, zoals de narrow of expand optie met relevante suggesties.

    Of de advertenties veel opleveren kun je je natuurlijk afvragen.

    geplaatst op
  • Ik gebruik ook regelmatig live voor het zoeken naar images. Ik weet niet of de resultaten nou veel beter zijn, maar door de eindeloze scroll en handigere sorteeropties kun je vaak sneller vinden wat je zoekt in Live Images in vergelijking tot Google Images.

    Ask is superieur als je iets met entertainment of muziek wilt weten. (Moet je wel de US versie hebben) Ask's blended search komt dan erg mooi tot zijn recht, bijvoorbeeld doordat je tracks van een band al in de zoekmachine kunt luisteren.

    Ik heb een aantal jaren geleden wel eens cijfers gezien dat steeds meer mensen een 'tweede' zoekmachine gebruiken, als de eerste niet oplevert wat ze zoeken. Op zich zou het vrij logisch kunnen zijn dat mensen voor bepaalde soorten zoekopdrachten een andere zoekmachine gebruiken. Toch heb ik het idee dat alleen wij, de vakidioten, dat doen...

    geplaatst op
  • Lees ook het bericht op Google's Research Blog (met sneaky "click here to speed up the process" vacaturelink).

    geplaatst op
  • Een simpel idee, hoe vaker er wordt geklikt op een afbeelding bij het zoeken op een bepaald keyword hoe beter deze afbeelding kennelijk pas bij het keyword. Dus als google bijhoudt hoe vaak er geklikt wordt kunnen na verloop van tijd ook betere resultaten retouneren.

    websites maken

    geplaatst op

Plaats zelf een reactie

Log in zodat je (in het vervolg) nóg sneller kunt reageren

Vul jouw naam in.
Vul jouw e-mailadres in. Vul een geldig e-mailadres in.
Vul jouw reactie in.

Herhaal de tekens die je ziet in de afbeelding hieronder


Let op: je reactie blijft voor altijd staan. We verwijderen deze dus later niet als je op zoek bent naar een nieuwe werkgever (of schoonmoeder). Reacties die beledigend zijn of zelfpromotioneel daarentegen, verwijderen we maar al te graag. Door te reageren ga je akkoord met onze voorwaarden.