donderdag 31 juli 2008

Trefwoorden en long tail.

De discussie rondom het functioneren van de 'long tail' in bibliotheken is uit het centrum van de aandacht verdwenen. Maar volgens mij is het 'long tail' principe in bibliotheken juist goed te gebruiken. Ik denk namelijk dat de aandacht van gebruikers voor het uitzonderlijke in een bibliotheek er voor zorgt dat die gebruiker terugkomt. En wat is daar nu beter voor te gebruiken dan het 'long tail' mechanisme.

Natuurlijk, het is altijd al mogelijk geweest niches in de bibliotheekcollectie te vinden, zoeken op een woord of misschien zelfs trefwoord levert ook niches (zeg de staartpunt van de 'long tail') op, maar eigenlijk heeft dat een hoog toevalskarakter. Bovendien is bij grotere resultaten het nog maar de vraag of je als gebruiker de niche herkent? Dat vraagt namelijk een meer grondige en dus tijdrovende beschouwing van het zoekresultaat.

Ik heb hierboven bewust het woord 'trefwoord' gebruikt, want behalve woorden uit de titel is het in menig bibliotheek natuurlijk ook mogelijk om op trefwoord te zoeken. Als je op zoek bent naar publicaties over een bepaald onderwerp dan zou het zoeken op trefwoord een betrouwbaar resultaat op moeten leveren, toch? En wat zou het toch mooi zijn als je 2 trefwoorden kon gebruiken om gebruikers te attenderen op niches, maar dan specifiek aangeduid als niche? Dus niet van zoek het maar uit, bedenk zelf een setje van twee trefwoorden en dan, hier heb je 378 titels en dan, bekijk zelf wat er uit springt of juist wat versluierd is.

Ik denk dat het mogelijk is om dat te doen. Maar voor dat ik uitleg hoe een en ander in zijn werk gaat, moet ik vertellen dat uniciteit met betrekking tot een combinatie van twee trefwoorden minstens twee aspecten kent. Enerzijds moeten we rekening houden met trefwoorden die vaak tot zeer vaak worden toegekend, maar zelden gecombineerd worden en anderzijds zijn er trefwoorden die zelden gebruikt worden, maar relatief vaak gebruikt worden in combinatie met één ander vaker toegekend trefwoord. In beide gevallen levert dat een unieke set op, een niche zou je kunnen zeggen.

Voor het eerste geval kan ik als voorbeeld 'human rights' en 'cartels and monopolies' noemen. Beide trefwoorden worden in de bibliotheek van het Vredespaleis geregeld toegekend, maar gecombineerd slechts zelden. Voor het tweede geval, wederom 'human rights' en dan 'convention on asylum Havana 1928', waarbij het laatste trefwoord de afgelopen jaren slechts één keer werd toegekend.

In een php programma heb ik gepoogd verhoudingswaarden vast te stellen die ik kan gebruiken om uniciteit vast te stellen. Vanaf 1 januari 2004 tot en met 31 juli 2008 heb ik alle trefwoorden en de publicaties waaraan zij zijn toegekend verzameld in een MySQL database. Dat levert een tabel op met ruim 656.000 trefwoorden. En dan is het verder een kwestie van goochelen met cijfers om het simpel uit te drukken.

Ter illustratie het eerste voorbeeld. Het starttrefwoord 'human rights' komt 11612 keer voor in de database, het tweede trefwoord 'cartels and monopolies' 1346 keer. Beide trefwoorden zijn dus geregeld toegekend de afgelopen viereneenhalf jaar. Gecombineerd komen de trefwoorden echter slechts 2 keer voor met een verhoudingswaarde (aantal gecombineerde hits gedeeld door totaal aantal van het tweede trefwoord, dus 2:1346) van 0.0014858841010401. Het tweede voorbeeld, 'human rights' komt dus 11612 keer voor en 'convention on asylum Havana 1928' 1 keer, de verhoudingswaarde is dan 1.

Op een schaal van 0 tot 1 kunnen we stellen dat een verhoudingswaarde dicht bij 0 een redelijk unieke set titels oplevert, hetzelfde geldt voor een verhoudingswaarde 1 of dicht bij 1. Het is natuurlijk wel lastig vast te stellen waar de grenzen liggen. Die zullen wel vlotten naar mate het aantal initiële hits, dus het aantal van het starttrefwoord verschilt. In principe maakt het echter niks uit. Als ik het resultaat beperk tot de eerste, zeg 5, laagste verhoudingswaarden en tot de 5 hoogste verhoudingswaarden, dan heb ik in ieder geval een staartpunt te pakken. En dit is volledig te automatiseren.

Ik stel mij zo voor dat ik dit script verder uitwerk en verbeter en dan beschikbaar stel op onze website. De gebruiker geeft een trefwoord op en vervolgens wordt na enige tijd een setje titels getoond dat voldoet aan de boven beschreven verhoudingswaarden. Uitgewerkt: gebruiker geeft het trefwoord 'environmental law' (1280 keer toegekend) en ziet onder andere in het resultaat dat de United Nations (4624 keer toegekend) zich niet zo veel gelegen laat liggen aan het milieu (1 publicatie met gecombineerde trefwoorden, verhoudingswaarde 0.00021626297577855).

Althans, zoals weerspiegeld in onze catalogus.

vrijdag 25 juli 2008

Ideetje!

Het schoot mij net te binnen dat het mogelijk is om Twitterfeed te gebruiken om twitters/tweets van diverse blogs te genereren en die als het ware door te sturen naar een Twitter user! Maar de vraag is natuurlijk of dat nou zo wenselijk is?

Ikzelf vind het plezierig om via Twitter geinformeerd te worden, maar als het over blogs gaat, kunnen we natuurlijk gebruik maken van rss readers als Bloglines en of Netvibes. Dus waarom zou je dat nu doen?

Het enige waar ik op kan komen is de gratis smsfunctie van Twitter. Als je in je account hebt aangegeven dat je een sms wilt over de twitters/tweets van een bepaald iemand of iets, dan ontvang je dus zo de relevante twitters ook op je mobiel en dus waar je ook bent.

Hoe werkt dat in de praktijk? In de bibliotheek van het Vredespaleis hebben we een Twitter bibliotheek account onder de welluidende naam 'peacepalace'. Met dit account volgen wij niemand, we plaatsen alhier alleen mededelingen. In de bibliotheek wordt sinds een paar maanden een blog onderhouden onder de naam peacepalacelibrary-weekly. De bibliotheek heeft ook een Twitterfeed account en daar hebben we een feed aangemaakt op deze blog. De feed checkt iedere 30 minuten of er een nieuwe blog is verschenen en als dat het geval is dan wordt er een twitter van het nieuwe schrijfsel 'opgestuurd' naar het account 'peacepalace'. So far so good, maar omdat ik in mijn persoonlijke twitter 'peacepalace' volg en ik in die persoonlijke twitter voor 'peacepalace' het 'device on' heb aanstaan, krijg ik ook een sms! Hoef ik dus niet achter een pc of laptop te zitten om op de hoogte gehouden te worden van die nieuwe blogs.

Trouwens, als je in het bezit bent van een ipod touch met wireless internetverbinding of misschien al een iphone met daarop Twitterific geinstalleerd dan kan in een moeite door niet alleen de twitter gelezen worden maar ook de blog zelf. Ik denk dat een beetje geavanceerde andere telefoon ook wel een heel eind komt.

donderdag 10 juli 2008

Bloggen in de PPL

Het begint er een beetje op te lijken! Na de drukke werkzaamheden rondom de inrichting en presentatie van de nieuwe website is in de bibliotheek van het Vredespaleis een groepje collega's aan het bloggen geslagen.

Aan het begin van dit jaar werd door Rob Coers voor deze groep mensen een ietwat uitgeklede versie van 23 dingen gepresenteerd, gedurende een viertal dagen, verspreid over vijf weken. Wat is blijven hangen is, hoe om te gaan met wiki's, hoe gebruik te maken van delicious en natuurlijk hoe te bloggen.

De wiki's worden gebruikt om handleidingen te maken, afstreeplijsten en dergelijke. En dat allemaal in de public domain sfeer zal ik maar zeggen. En voor -nu nog- intern gebruik.

En del.icio.us wordt op grote schaal ingezet in de rubriek "links" op onze nieuwe website (nu een maand geleden in de lucht gekomen). Kijk daar maar voor het gebruik van del.icio.us in onze website. Een aandachtige lezer, maar ook een minder aandachtige lezer ziet op de desbetreffende bladzijde in feite twee tagclouds, nu nog een beetje te dicht op elkaar geplaatst, maar dat veranderen we nog wel.

De bovenste is statisch, gewoon door ons webteam in elkaar geschroefd, het ziet er redelijk dynamisch uit, is dat echter niet, misschien toch geen blijvertje. Daaronder een echt dynamische tagcloud, zo uit del.icio.us geimporteerd, aldus altijd de actuele stand van zaken presenterend. We hebben hier in huis ook een del.icio.usbeheerder, maar het staat iedere collega vrij aanvullingen dan wel mutaties aan te brengen.

En hoe zit het met het gebruik? Volgens Google Analytics: "Deze pagina is 2.299 keer bezocht via 79 URL's" sinds 6 juni jongstleden. Voorwaar geen slechte score. Volgens datzelfde GA bedraagt het weigeringspercentage (wat een ongelukkige term is dat toch) 4,5%. Het weigeringspercentage geeft aan dat gebruikers, eenmaal op een bepaalde webbladzijde aangekomen, blijven dan wel weggaan van de site vanaf die webbladzijde. Schijnt in Nederland gemiddeld zo rond de 70% te liggen. Dan is die 4,5% dus goed, erg goed zelfs. Anders gezegd met klikt door op een delicious link.

Het bloggen dan. Iedere bibliotheek probeert zich/haarzelf te profileren. Vlot lopend catalogus systeem, vlotte bediening, vlotte en eenvoudig te begrijpen website en ga zo maar door. Iedere bibliotheek moet ook de eigen collectie (papier en digitaal) in de etalage zetten, maar tegelijkertijd ook in kunnen springen op actuele gebeurtenissen.

In de bibliotheek van het Vredespaleis is gekozen voor het blogmedium om dat te doen. Men blogt in Blogger. Een van de belangrijkste argumenten is dat blogs in Blogger onmiddellijk worden geindexeerd door Google. Op onze website verschijnt automatisch de laatst geschreven blogentry (Last blog entry) op een paar veelgelezen bladzijden en vanuit het menu kan een lijstje opgevraagd worden van de laatste zes blogentries, ook automatisch. Vanuit beide presentaties op de website kan worden doorgeklikt naar de blogentry in Blogger.

Het groepje bloggers houdt de actualiteit in de gaten en bepaalt of een bepaalde gebeurtenis kan leiden tot het presenteren van de eigen collectie. In een kort verhaal wordt verwezen naar de gebeurtenis, er wordt getagged volgens ons eigen trefwoordensysteem en -waar het ons in eerste instantie om te doen is- in de tekst worden links aangebracht rechtstreeks naar de catalogus. Kortom we nemen trefwoorden op in de tekst en gebruiken de trefwoorden om vanuit de catalogus een set met relevante titelbeschrijvingen te tonen. Worden die trefwoorden tenminste ook nog op een andere manier gebruikt!