dinsdag 18 december 2007

Knollen voor citroenen?

In de hogere klassen van de middelbare school werd mij opgedragen werkstukken te maken, toen nog scripties geheten. Een van de dingen die duidelijk werd gemaakt was, dat we kritisch naar onze bronnen moesten kijken. Een A&O boekje over het boerenbedrijf in de middeleeuwen is iets anders dan een gedegen studie van een gerenommeerd wetenschapper over de boerenopstanden in Engeland in de veertiende eeuw.

Voor de bronnen op het internet geldt natuurlijk hetzelfde. Er zijn bronnen die betrouwbaar zijn en andere zijn dat niet of minder. Er zijn bijdragen in Wikipedia die betrouwbaar en serieus zijn en andere zijn onvolledig of eenzijdig. Scholieren, studenten en wetenschappers moeten zich dat realiseren en ook getraind worden in het vellen van een juist oordeel. En dat dan ook verwoorden in hun werk. Maar je mag volgens mij niemand verbieden gebruik te maken van welke bron dan ook. Wel moet het alle betrokkenen duidelijk zijn dat een waardering van je werkstuk afhangt van:

a. de boodschap en de vorm waarin de boodschap is vervat
b. de gebruikte bronnen
c. de manier waarop je de bronnen gebruikt
d. de gekozen doelgroep

Het weigeren van Wikipediabijdragen als bron, op de middelbare school van onze jongste zoon is dat het geval, is merkwaardig. Merkwaardig omdat het argument merkwaardig is: de inhoud van de bijdrage kan in de loop der tijd verschillen. Dat nu is op zich juist, maar je kunt natuurlijk wel verwachten dat bij het maken van een verwijzing naar een dergelijke bijdrage op een bepaalde manier te werk wordt gegaan. Neem in ieder geval bij verwijzing datum gegevens mee, zou ik zeggen. Kan je nog eens terugkijken met wikiscanner of iets dergelijks, toch?

Op de middelbare school van onze zoon moet met enthousiasme gereageerd zijn op de berichten omtrent de plannen van Google om een nieuwe voorziening te bouwen met de welluidende naam "Knol".

Deskundigen zouden moeten worden uitgenodigd en misschien aangemoedigd een gecontroleerd, en dus stabiel, artikel of werkstuk af te leveren over een bepaald onderwerp. Uiteraard tegen betaling, ik citeer uit de hierboven genoemde blog (18 december 2007): "Google will provide the author with substantial revenue share from the proceeds of those ads" en uiteraard zonder controle door Google. Ik citeer opnieuw: "Google will not serve as an editor in any way, and will not bless any content. All editorial responsibilities and control will rest with the authors."

Kan iemand mij eens uitleggen hoe we dan als eenvoudige kennisconsument moeten vaststellen wat de precieze waarde is van dergelijke bijdragen? Hoe weet ik als consument dat wat er wordt geschreven niet eenzijdig is? Hoe weet ik als consument dat niet geschreven is vanuit het idee "hoe genereer ik zoveel mogelijk inkomsten uit mijn tekst zonder dat dat opvalt"? Het voorbeeld in bovengenoemde blog is wat dat betreft verhelderend. Hoe weet ik nu dat mevrouw de deskundige (over slapeloosheid) in haar opsomming van medicamenten niet een goedkoop, maar goed werkend, pilletje heeft weggelaten? Of hoe gaat Google om met de ranking van die medicijnenlijst?

Kortom we leveren de onduidelijkheid met betrekking tot het "niveau" van Wikipedia in voor onzekerheid met betrekking tot ware bedoelingen van de deskundigen. Natuurlijk, slechts een fractie van het aantal deskundigen zal zich niet kunnen beheersen, maar doorgaans is ook slechts een fractie van de Wikipediabijdragen van bedenkelijk niveau. In geval van Wikipedia hebben we als consument tenminste nog de mogelijkheid daar zelf iets aan te doen. Maar of "Knol"-auteurs van andermans bemoeienissen gediend zijn?

Bibliotheken hebben gezien de ontwikkelingen een rol te spelen in het bewustwordingsproces wat betreft punt c. "de manier waarop we bronnen gebruiken". Of niet?

woensdag 12 december 2007

Recht en WEB 2.0

Ik ben dan wel geen jurist, maar dat betekent natuurlijk niet dat ik mijn ogen altijd gesloten houd als ik, qualitate qua, boeken en artikelen zie langskomen die over het juridische veld gaan. Recht en geschiedenis, en dat laatste is een hobby van me, worden nog wel eens gecombineerd en heel soms levert dat wel eens iets interessants op.

Ook recht en werk kunnen gecombineerd worden. En zo zag ik onlangs een -vrij beschikbaar- artikel van Claire M. Germain, "Legal Information Management in a Global and Digital Age : Revolution and Tradition". Ik heb het niet alleen gezien, maar ook gelezen en, let wel ik zeg het nog maar eens, ik ben geen jurist.

Dit artikel is om twee redenen een must voor iedere bibliotheekmedewerker. Ik citeer de eerste paar zinnen uit de inleiding:
Blogosphere, folksonomy, the long tail, mashups, social bookmarking, tagging, filters, information architecture, podcasting, harvesting web content. These terms do not evoke the familiar library we are used to, but they have entered our daily lives as librarians. Times have changed drastically, and the information revolution is underway. This article presents an overview of the public policy issues surrounding digital libraries in the law field, and describes some current trends, such as Web 2.0, the social network. It discusses the free access to law movement, and mass digitization projects, then turns to some concerns, focusing on preservation and long term access to born digital legal information, and authentication of official digital legal information. It finally discusses new roles for law librarians.
En daar zien we ze voorbij komen, de bekende begrippen uit het ons zo vertrouwde WEB2.0 wereldje. Mw. Germain staat bij de meeste van de begrippen in een aparte paragraaf stil, ze legt uit en duidt op de consequenties voor de juridische wereld. En dat is de eerste reden. Maar het juridische kan wat mij betreft gewoon vervangen worden door wat dan ook, voor de wereld van de (andere) humaniora kan zo beetje hetzelfde worden gezegd, uiteraard mutatis mutandis.

De tweede reden is dat het artikel duidelijk aangeeft wat de rol moet zijn van de moderne bibliothecaris of bibliotheekmedewerker. In de hierboven geciteerde regels wordt daar in dat laatste zinnetje, "It finally discusses new roles for law librarians" naar verwezen. Ik noem de door Germain genoemde rollen:
  1. librarians as experts in quality evaluation
  2. librarians as teachers
  3. librarians as core participants in the mission of their institutions
  4. librairans as advocates for free access through global networks
En daar moeten we het dan mee doen. Als je in staat bent om het juridische in dit artikel zo'n beetje te vertalen naar je eigen werkomgeving en zo moeilijk is dat niet, dan is dit artikel wat mij betreft een absolute aanrader.

donderdag 6 december 2007

scanning en google

De laatste tijd vernemen we steeds meer kritiek op de kwaliteit van de door Google gemaakte scans van boeken. Ik realiseer mij dat dat soms niet anders kan, omdat het origineel simpelweg nu eenmaal van onvoldoende kwaliteit is. Ik liet dergelijke berichten maar passeren, besteedde er niet zoveel aandacht aan.

Vanochtend las ik in de blog van Edwin, "Een intrigerende hand in Google Books". Met name zijn link naar de band met enkele afleveringen van het tijdschrift The Gentleman's magazin nodigde uit om nu eens door zo'n gescand boek te 'bladeren'.

Dus de hele pdf gedownload (meer dan 47 MB!) en eens rustig 'doorgebladerd'. Werd ik niet vrolijk van! Teveel onleesbare - 'uitgesmeerde' tekst- bladzijden, onleesbare onderschriften bij plaatjes, inconsequenties in het scanformaat, weglopende tekst aan de randen bij de 'rugzijde', onleesbare noten en ga zo maar verder.

En hoe zit het met de ocr? Hieronder de tekst van -ik geef het toe- een lastige bladzijde (p. 326):

ber.vko «яттНы Un, h* Ka* baw! t-лг v/m •*
three daaThriTv T'I. H^rr-C'X'.ksyw. W." Л»-
Borlaa«, MwaM-fc'ulnubbT, 'лпгдв-Hïl, K»/T-
Aime, Хаг§;АГ»*-КТ:», »- -1 Г/л-«*>-1*л*. >л»И^» а
d*a¿Mer wt/, '!•>-: in Л[.г.;, Hti,is-ier «t n»r.<.h> ef «e». Mr. Adam's тала WM Xiru, «г.1т dauji, VT <* ТЬглпаа Спшмг. «f ЯчгЪ- та VsrUnd »Creel, !»ír*n/i, Vy Илгзмг**. tei/tV-r ах -1 rtça- She dlíd at frtfrird, «"ТЛ. 14, li«,i.™: -l.ttr only brother Jota Crin*«-*. «j. of I».il Mr. А4сги *г ! íi* «r,'e «rvi'insí «lí'er lUrriet, wtte oí the Hírr. Тьоггил Vara,v>nr Iwreil, ,и«1лч»1 of lit". e-U« of tf^ok End, la Chaetlrton, t<, the Нл... ir, 1 1>т. L/l»iH Kke, bean of Mou. nttr, for »V, .; í W/V , •!.,. h property, ai W'-ll M lí.f ariTowton '-*. , h К vi r**n dijTx«:d of pr,-Tioiii.//,had bw.r. f,'. r r :..ueil iíx.ve stxty year* before by their gr.ir.,ÍÍAther f'atien. e Thoma» Adán», «f Ь.кЬет гготе, Um», »vj. By thed*?tdi 4f hi* arv 1л líw Кет. Нгпту ArLu^-i, B.D. Kettnr of lUMwr.ll tat Snff,lk, t'- «;.f/ra he wu hftir-et-Uw, he ¡nh«rriled млн« ртг/f^rtj in that Tfllaee In F*b. IV î. frxm iftrr 1Ьд1 lime hif health, whu-lt for яотп« year» had Leen fü::rí, bwmme rapvlly w^^, а »'я! 'A xi-reral р*гг1/ч1ч, whW h had íírnitly enfeeMM !ih 10-» cr«, rei,-l/ ring it Mtuuit,!c f<,r him to rel.r.^iMh Mi ,1 :tj : be »<•- ronlinifly Avl чо.ап'1 inAjnl I»VÎ f'naKr, pitié,! hi* i»rUh. Ht« remain« were Interred on tbe ^4tb In the rhartJtyant at Farnilon, among hu pa- rUtfl/mer>. ï/y wnora be «a« jrreativ яЫ nr.irer- •ally beiden for Ь1я nnlforra kindnerf and affability, and for the tfreat attention wh^h he be- •Uiwed on the 'Jome lie coroforta and tbe w.rî'lly U wen u the «pirltual CODUTTU of the bombiert Jan. I«. At Orat, со. Stafford, aged S7, tbe Кет. Adolpluu l/'jpHiu, Vicar of that oarinh, to whlrb he wa« pre«ented by toe Lord Chancellor In 1924. He wa* of Emmanuel cuHeee, Cambridge, В.Л. ISM. /on. 21. At Rhyl, nintïhlre, the Бет. £мя Etant,

Een knappe jongen die met zijn fuzzy search programma hier nog iets van kan maken!

Natuurlijk is het zo dat het merendeel van de tekst van dit boek goed bruikbaar is, maar je zult maar op zoek zijn naar info over ene "George Adams" in de "Northumberland street". Ik heb even moeten puzzelen, maar dat staat volgens mij in de pdf op bladzijde 326.

maandag 3 december 2007

scannen, vernietigen, niet tevreden

In het afgelopen jaar hebben wij als bibliotheek van het Vredespaleis nogal wat hand- en spandiensten geleverd bij een scantraject. Alle banden (meer dan 300) van de “Recueil des cours / Académie de Droit International = Collected courses of The Hague Academy of International Law” zijn gescand en zullen binnenkort beschikbaar komen via de site van Brill uitgeverij. Op dit moment is hier in huis (PPL) ook al toegang tot diezelfde data te verkrijgen. Rechttoe rechtaan, een pdf van ieder op dit moment beschikbaar artikel. Zoeken door de artikelen heen is niet mogelijk, enkel via de metatags is de pdf te traceren.

De discussie die op dit moment wordt gevoerd over het vernielen van een exemplaar van ieder boek, in Nederland gepubliceerd tussen 1800 en 1950, enkel en alleen om een snelle scan te kunnen maken, is een discussie die niet is gevoerd toen de 300 banden van de Recueil werden versneden. Er zijn immers nog genoeg exemplaren van iedere band beschikbaar. Wel is gesproken over de kwaliteit van de ge-ocr-de tekst, maar tot een doortimmerd oordeel is het eigenlijk nooit gekomen. Het ging in eerste instantie om het plaatje, niet om een kwalitatief hoogwaardige elektronische tekst. Ik ben benieuwd wat de commercieel opererende uitgever met de data (tekst) gaat doen? Naar verluidt werkt Brill wel aan de e-tekst van de Recueil om structuur aan te brengen.

Kwalitatief hoogwaardige elektronische tekst, wat is dat eigenlijk? In mijn optiek is een elektronische tekst een 100% nauwkeurige weerslag van –laat ik zeggen- het op papier gedrukte equivalent van de e-tekst. Tekstueel en structureel dus. En dat betekent dus dat een simpele scan niet volstaat.

Niet alleen is de gegenereerde tekst aan de hand van een simpele scan op zijn zachtst gezegd onnauwkeurig (ga uit van gemiddeld 1 fout woord op de 10 woorden), ik verwijs naar Alle boeken thuis voor bijna niks: pennywise but poundfoolish door Cees Klapwijk & René van Stipriaan, ook de structuur is verdwenen. Natuurlijk, ik kan in het plaatje van een bladzijde (een deel van) de structuur wel waarnemen, maar zelden zie ik de algehele structuur.

Ik kan niet binnen een structuur zoeken. Stel ik zoek naar een woord in de tekst, maar ik hoef geen treffers uit hoofdstuktitels te zien, of voetnoten, of inhoudsopgaven, of conclusies, of voorwoorden…. Bij een simpele scan betekent dat dus dat ik zelf, achteraf, moet filteren.

Ik kan ook niet naar een structuur zoeken. Eigenlijk kan ik heel wat niet.

De discussie over het het snel en goedkoop maken van een digitale kopie van die naar schatting 500.000 boeken, moet niet alleen gaan over vaart en prijs, ook de algemene vraag “hoe gaan wij straks aan de slag met het verkregen resultaat” dient aan de orde te komen. Moet naar mijn idee zelfs de belangrijkste plaats innemen in de discussie!

Ter illustratie:

  1. Hoe toon je een bladzijde gemaakt met een simpele scan op een e-reader ? Lijkt mij erg lastig. Een grondtekst (bijna) zonder fouten in een structuur gezet die recht doet aan het origineel, biedt natuurlijk heel wat meer mogelijkheden. Kan misschien met een eenvoudige ingreep ook geschikt gemaakt worden voor de Kindle. Als Amazon dat goed vindt tenminste.
  2. Fuzzy search kan misschien een oplossing bieden, zou men kunnen zeggen. Dat is maar ten dele juist, want fuzzy searching kan ook juist vertroebelen. Ook juist ge-ocr-de tekst, maar slechts licht afwijkend van de zoekopdracht, kan als treffer worden gepresenteerd: opdracht ‘bonen’, resultaat ‘bonen, boenen,benen’. Ik pleit er overigens niet voor om fuzzy searching maar helemaal weg te laten. Bij het intoetsen van de zoekvraag kan iemand immers ook fouten maken, of geen rekening houden met verouderde spelling.

Ik heb beide zaken (e-readers, fuzzy search) niet in de discussie voorbij zien komen. Moet naar mijn idee gewoon wel gebeuren.

Ik heb er geen bezwaar tegen dat Nederlands cultuurgoed wordt vernietigd ten behoeve van een simpele en snelle scan onder de voorwaarden die zijn gesteld (kort gezegd, nooit een uniek exemplaar opofferen). Maar de stelling dat wij als consumenten met het verkregen resultaat dan allemaal erg blij moeten zijn, is een idiote gedachte. Ik wil als consument meer en dat kan dus niet voor 6 miljoen.

Hoe en door wie wordt trouwens bepaald welke bibliotheek haar exemplaar moet inleveren? En wat kost de discussie hieromtrent dan eigenlijk?