maandag 3 december 2007

scannen, vernietigen, niet tevreden

In het afgelopen jaar hebben wij als bibliotheek van het Vredespaleis nogal wat hand- en spandiensten geleverd bij een scantraject. Alle banden (meer dan 300) van de “Recueil des cours / Académie de Droit International = Collected courses of The Hague Academy of International Law” zijn gescand en zullen binnenkort beschikbaar komen via de site van Brill uitgeverij. Op dit moment is hier in huis (PPL) ook al toegang tot diezelfde data te verkrijgen. Rechttoe rechtaan, een pdf van ieder op dit moment beschikbaar artikel. Zoeken door de artikelen heen is niet mogelijk, enkel via de metatags is de pdf te traceren.

De discussie die op dit moment wordt gevoerd over het vernielen van een exemplaar van ieder boek, in Nederland gepubliceerd tussen 1800 en 1950, enkel en alleen om een snelle scan te kunnen maken, is een discussie die niet is gevoerd toen de 300 banden van de Recueil werden versneden. Er zijn immers nog genoeg exemplaren van iedere band beschikbaar. Wel is gesproken over de kwaliteit van de ge-ocr-de tekst, maar tot een doortimmerd oordeel is het eigenlijk nooit gekomen. Het ging in eerste instantie om het plaatje, niet om een kwalitatief hoogwaardige elektronische tekst. Ik ben benieuwd wat de commercieel opererende uitgever met de data (tekst) gaat doen? Naar verluidt werkt Brill wel aan de e-tekst van de Recueil om structuur aan te brengen.

Kwalitatief hoogwaardige elektronische tekst, wat is dat eigenlijk? In mijn optiek is een elektronische tekst een 100% nauwkeurige weerslag van –laat ik zeggen- het op papier gedrukte equivalent van de e-tekst. Tekstueel en structureel dus. En dat betekent dus dat een simpele scan niet volstaat.

Niet alleen is de gegenereerde tekst aan de hand van een simpele scan op zijn zachtst gezegd onnauwkeurig (ga uit van gemiddeld 1 fout woord op de 10 woorden), ik verwijs naar Alle boeken thuis voor bijna niks: pennywise but poundfoolish door Cees Klapwijk & René van Stipriaan, ook de structuur is verdwenen. Natuurlijk, ik kan in het plaatje van een bladzijde (een deel van) de structuur wel waarnemen, maar zelden zie ik de algehele structuur.

Ik kan niet binnen een structuur zoeken. Stel ik zoek naar een woord in de tekst, maar ik hoef geen treffers uit hoofdstuktitels te zien, of voetnoten, of inhoudsopgaven, of conclusies, of voorwoorden…. Bij een simpele scan betekent dat dus dat ik zelf, achteraf, moet filteren.

Ik kan ook niet naar een structuur zoeken. Eigenlijk kan ik heel wat niet.

De discussie over het het snel en goedkoop maken van een digitale kopie van die naar schatting 500.000 boeken, moet niet alleen gaan over vaart en prijs, ook de algemene vraag “hoe gaan wij straks aan de slag met het verkregen resultaat” dient aan de orde te komen. Moet naar mijn idee zelfs de belangrijkste plaats innemen in de discussie!

Ter illustratie:

  1. Hoe toon je een bladzijde gemaakt met een simpele scan op een e-reader ? Lijkt mij erg lastig. Een grondtekst (bijna) zonder fouten in een structuur gezet die recht doet aan het origineel, biedt natuurlijk heel wat meer mogelijkheden. Kan misschien met een eenvoudige ingreep ook geschikt gemaakt worden voor de Kindle. Als Amazon dat goed vindt tenminste.
  2. Fuzzy search kan misschien een oplossing bieden, zou men kunnen zeggen. Dat is maar ten dele juist, want fuzzy searching kan ook juist vertroebelen. Ook juist ge-ocr-de tekst, maar slechts licht afwijkend van de zoekopdracht, kan als treffer worden gepresenteerd: opdracht ‘bonen’, resultaat ‘bonen, boenen,benen’. Ik pleit er overigens niet voor om fuzzy searching maar helemaal weg te laten. Bij het intoetsen van de zoekvraag kan iemand immers ook fouten maken, of geen rekening houden met verouderde spelling.

Ik heb beide zaken (e-readers, fuzzy search) niet in de discussie voorbij zien komen. Moet naar mijn idee gewoon wel gebeuren.

Ik heb er geen bezwaar tegen dat Nederlands cultuurgoed wordt vernietigd ten behoeve van een simpele en snelle scan onder de voorwaarden die zijn gesteld (kort gezegd, nooit een uniek exemplaar opofferen). Maar de stelling dat wij als consumenten met het verkregen resultaat dan allemaal erg blij moeten zijn, is een idiote gedachte. Ik wil als consument meer en dat kan dus niet voor 6 miljoen.

Hoe en door wie wordt trouwens bepaald welke bibliotheek haar exemplaar moet inleveren? En wat kost de discussie hieromtrent dan eigenlijk?

Geen opmerkingen: