Diff for "Fieldtrip20060312 Den Haag Toke"

Differences between revisions 1 and 2

Field trip to the Royal Library in Den Haag, march 14, 2006. Participants: Birte, Kåre and Toke from Statsbiblioteket, Tue and Niels from Det Kongelige Bibliotek.

This is a subpage to Fieldtrip20060312. The notes are in danish.

Deltagere fra KB i Den Haag: Hilde, Tanja (IBM), Theo og flere

Overordnet

Begrebet e-depot dækker både over en del af KBs organisation og over det tekniske system til opbevaring af digitale resourcer. Det tekniske system dækker på softwaresiden over DIAS, samt forskellige ingest- og access-moduler. e-depot indeholder primært papers i PDF-format.

Systemet e-depot blev udviklet i samarbejde med IBM Holland. I praksis har IBM stået for den tekniske del og har kontrakt på vedligeholdelse, herunder hardware, indtil 2012(?).

Organisationsmæssigt er der opsplittet i e-depot og Digital Preservation. Der er 70 personer i R&D, men den del folk arbejder på at lave programmer til offentlig brug. Afdelingen står også for den faktiske digitalisering, hvor dette er nødvendigt.

Der blev foretaget meget grundig research, hvilket resulterede i en "stor bog" med kravspecifikationer. IBM vandt udlicitering. Udviklingen blev fra IBMs side foretaget ved at palcere folk på KB. Udviklingstiden var to år.

Ingest blev påbegyndt i marts 2003.

Ingest håndteres af den traditionelle Acquisition & Processing Department. Der er med vilje ikke oprettet en særlig afdeligt til ingest af dititale materialer. Det har taget lang tid at omstille folk. Hilde melder at det dog går godt og at det på mere overordnet plan (andre biblioteker) er 50/50 om der er oprettet særlige afdelinger til digital ingest. Tilbagemeldingerne fra de forskellige valg er at de begge savner egenskaber fra det modsatte valg.

En kopi af metadata for en resource sendes op i katalogsystemet, der står for søgninger.

Rettigheder håndteres p.t. på IP-adresse basis, hvor alle materialer har samme adgangskriterier. Det er under udvikling af noget materiale er frit tilgængeligt. En "who are you" er ligeledes under udvikling.

Der er kørt pilot på ingest af digitale billeder og systemet skal benyttes til arkivering af websider.

Det aktuelle system

P.t. 5-7 millioner objekter i systemet, fortrinsvis PDF. I nær fremtid skal tilhørende måledata gemmes.

Ingest foregår p.t. gennem SFTP-upload fra forlæggernes side. Dog hentes Elsevier materiale med høstning. Metadata ligger i forlagenes egne formater. Der er en specifik håndtering af Elsevier, mens alle andre forlag håndteres af en generisk loader. Bitchecking foretages med checksums, leveret af publishers. Strukturen af metadata kontrolleres, men ikke indholdet. Det hele kører fuldautomatisk.

Der anvendes inhouse-udviklet software til kontrol af selve formaterne, men et skifte til JHOVE planlægges. Ingest kører i batch, hvor selve registreringen i e-depot sker én gang i døgnet (om eftermiddagen).

Der er udviklet et dashboard, der ved hjælp af to skærme løbende viser status for ingest. Det er blevet meget vel modtaget af medarbejderne. Systemet er ultra-simpelt og består blot af nogle prompts, der viser almindelig tekst. En medarbejder meddelte at han havde vænnet sig til at udlæse status, med et hurtigt blik på skærmene. Se "The Matrix" for forklaring på hvorledes dette fungerer.

Der er ingen auto-check af bitbevaring. Der er dog checksums på filerne og en kontrol kan igangsættes manuelt på nogen dele af opbevaringssystemet. Der anvendes Tivoli Storage Manager. Valg af hardware blev foretaget i 1999.

Unik ID i systemet er NBN (National Bibliographic Number), hvilket blev besluttet i 2001. Dette linker metadata med resourcer.

Tilgangshastigheden er ca. 80 artikler/time. Den formodede primære årsag er lagring på optiske medier i en jukebox. I kælderen står en 1.4TB CD-robot og en ny 9TB robot er under indkørsel. Adspurgt om årsagen til dette (for os usædvanlige) valg var svaret pris, medie-pålidelighed og WORM-egenskaber.

Brugerne overvåges og tillades kun at hente 10 artikler/time. Dette er af frygt for støvsugning af artikler fra brugernes side. Summaries er dog ikke med i dette regnskab.

Erfaringer

KBs outsourcing af udviklingsarbejdet har givet bagslag og de er i gang med selv at opbygge en udviklingsafdeling. En del af begrundelsen er at der er langt mellem aflevering og reel produktion.

Andet

Kig på Nedlib: http://nedlib.kb.nl/

Ikke-teknikkyndige medarbejdere har været 1½-2 år om at blive optrænet til at håndtere fejlmeddelelser på rutinemæssig vis.

Systemet lægger fejljobs med fejlmeddelelser i til side i en mappe, der gennemgås på jævnlig basis.

Systemet er overvejende statisk og metadata lagres sammen med resourcerne. Adspurgt om mulighederne for ændring af data, blev det angivet at dette ville kræve en fuld re-ingest og at et system til kortlægning af sammenhængen mellem objekter (f.eks. at et objekt er en rettelse til et tidligere objekt) var under udvikling.

Kig på PRONOM for filtyper.

Hver type af materiale i systemet tilknyttes en eller flere View Paths, der er angivelse af program, styresystem og hardware, der er påkrævet for at benytte materialet. Der lægges op til at der er mere end én View Path pr. materialetype.

Windows programmer installeres på en referencecomputer (Windows 2000 - maskine) og et komprimeret diskimage i SyQuest-format (freeware-ækvivalent efterspørges) gemmes i e-depot. Det fylder ca. 500MB + programfiler. Der er indkøbt 50 ens maskiner, der forventes at holde til år 2012.

DIAS-præsentation af Tanja, IBM

DIDL er nemt at tilføje.

Levende metadata er ikke direkte understøttet. Dette kan hackes med re-ingest, hvilket giver et dubletproblem. Samme problemstilling er der ved migrering af resourcer til nyt format.

Metadata gemmes altid sammen med data.

UVC og migration

Møde mellem Tue & Toke og Jeffrey van der Hoeven og en kvindelig medarbejder med ukendt navn, der var ansvarlig for migration-research.

Status for UVC er at der er lavet to pilotprojekter (JPEG og delvist PDF), der har været lovende. Specifikationerne forventes offentliggjort snarest og det forventes at nogen studerende vil prøve at implementere UVC, som øvelse. Jeffrey angiver at de meget gerne vil have testere af systemet.

Næste skridt er UVM - Universal Virtual Maschine, der skal emulere hardware. Projektet er et par måneder gammelt og første skridt bliver at lave en Java-baseret modulær emulator. Udskiftningen af Java med en simpel underliggende virtuel maskine a'la UVC er i praksis svært, da det vil forøge udførselstiden væsentligt. Hastigheden er ikke vigtig ved UVC, men da pointen med UVM er interaktivitet, kan den ikke ignoreres.

Migration hos KB Holland er meget nystartet. Status er at der kigges på hvad der allerede er lavet på området.

-  ⇤ ← Revision 1 as of 2008-06-26 12:26:08 → 
  Size: 6939
  Editor: kfc
  Comment: Created by the PackagePages action.
+   ← Revision 2 as of 2010-03-17 13:09:23 → ⇥
  Size: 6939
  Editor: localhost
  Comment: converted to 1.6 markup
-Deletions are marked like this.
+Additions are marked like this.
 Line 3:
-This is a subpage to ["Fieldtrip20060312"]. The notes are in danish.
+This is a subpage to [[Fieldtrip20060312]]. The notes are in danish.