donderdag 31 juli 2008

Trefwoorden en long tail.

De discussie rondom het functioneren van de 'long tail' in bibliotheken is uit het centrum van de aandacht verdwenen. Maar volgens mij is het 'long tail' principe in bibliotheken juist goed te gebruiken. Ik denk namelijk dat de aandacht van gebruikers voor het uitzonderlijke in een bibliotheek er voor zorgt dat die gebruiker terugkomt. En wat is daar nu beter voor te gebruiken dan het 'long tail' mechanisme.

Natuurlijk, het is altijd al mogelijk geweest niches in de bibliotheekcollectie te vinden, zoeken op een woord of misschien zelfs trefwoord levert ook niches (zeg de staartpunt van de 'long tail') op, maar eigenlijk heeft dat een hoog toevalskarakter. Bovendien is bij grotere resultaten het nog maar de vraag of je als gebruiker de niche herkent? Dat vraagt namelijk een meer grondige en dus tijdrovende beschouwing van het zoekresultaat.

Ik heb hierboven bewust het woord 'trefwoord' gebruikt, want behalve woorden uit de titel is het in menig bibliotheek natuurlijk ook mogelijk om op trefwoord te zoeken. Als je op zoek bent naar publicaties over een bepaald onderwerp dan zou het zoeken op trefwoord een betrouwbaar resultaat op moeten leveren, toch? En wat zou het toch mooi zijn als je 2 trefwoorden kon gebruiken om gebruikers te attenderen op niches, maar dan specifiek aangeduid als niche? Dus niet van zoek het maar uit, bedenk zelf een setje van twee trefwoorden en dan, hier heb je 378 titels en dan, bekijk zelf wat er uit springt of juist wat versluierd is.

Ik denk dat het mogelijk is om dat te doen. Maar voor dat ik uitleg hoe een en ander in zijn werk gaat, moet ik vertellen dat uniciteit met betrekking tot een combinatie van twee trefwoorden minstens twee aspecten kent. Enerzijds moeten we rekening houden met trefwoorden die vaak tot zeer vaak worden toegekend, maar zelden gecombineerd worden en anderzijds zijn er trefwoorden die zelden gebruikt worden, maar relatief vaak gebruikt worden in combinatie met één ander vaker toegekend trefwoord. In beide gevallen levert dat een unieke set op, een niche zou je kunnen zeggen.

Voor het eerste geval kan ik als voorbeeld 'human rights' en 'cartels and monopolies' noemen. Beide trefwoorden worden in de bibliotheek van het Vredespaleis geregeld toegekend, maar gecombineerd slechts zelden. Voor het tweede geval, wederom 'human rights' en dan 'convention on asylum Havana 1928', waarbij het laatste trefwoord de afgelopen jaren slechts één keer werd toegekend.

In een php programma heb ik gepoogd verhoudingswaarden vast te stellen die ik kan gebruiken om uniciteit vast te stellen. Vanaf 1 januari 2004 tot en met 31 juli 2008 heb ik alle trefwoorden en de publicaties waaraan zij zijn toegekend verzameld in een MySQL database. Dat levert een tabel op met ruim 656.000 trefwoorden. En dan is het verder een kwestie van goochelen met cijfers om het simpel uit te drukken.

Ter illustratie het eerste voorbeeld. Het starttrefwoord 'human rights' komt 11612 keer voor in de database, het tweede trefwoord 'cartels and monopolies' 1346 keer. Beide trefwoorden zijn dus geregeld toegekend de afgelopen viereneenhalf jaar. Gecombineerd komen de trefwoorden echter slechts 2 keer voor met een verhoudingswaarde (aantal gecombineerde hits gedeeld door totaal aantal van het tweede trefwoord, dus 2:1346) van 0.0014858841010401. Het tweede voorbeeld, 'human rights' komt dus 11612 keer voor en 'convention on asylum Havana 1928' 1 keer, de verhoudingswaarde is dan 1.

Op een schaal van 0 tot 1 kunnen we stellen dat een verhoudingswaarde dicht bij 0 een redelijk unieke set titels oplevert, hetzelfde geldt voor een verhoudingswaarde 1 of dicht bij 1. Het is natuurlijk wel lastig vast te stellen waar de grenzen liggen. Die zullen wel vlotten naar mate het aantal initiële hits, dus het aantal van het starttrefwoord verschilt. In principe maakt het echter niks uit. Als ik het resultaat beperk tot de eerste, zeg 5, laagste verhoudingswaarden en tot de 5 hoogste verhoudingswaarden, dan heb ik in ieder geval een staartpunt te pakken. En dit is volledig te automatiseren.

Ik stel mij zo voor dat ik dit script verder uitwerk en verbeter en dan beschikbaar stel op onze website. De gebruiker geeft een trefwoord op en vervolgens wordt na enige tijd een setje titels getoond dat voldoet aan de boven beschreven verhoudingswaarden. Uitgewerkt: gebruiker geeft het trefwoord 'environmental law' (1280 keer toegekend) en ziet onder andere in het resultaat dat de United Nations (4624 keer toegekend) zich niet zo veel gelegen laat liggen aan het milieu (1 publicatie met gecombineerde trefwoorden, verhoudingswaarde 0.00021626297577855).

Althans, zoals weerspiegeld in onze catalogus.

Geen opmerkingen: