OPAC-indeksering
Processeringen af data fra en OPAC i SummaRise involverer adskillige trin, hvoraf størstedelen ligger på SummaRise-siden. Selve dataudtrækket er dog den enkelte kundes ansvar.
Contents
Dataudtræk
Et udtræk foretages fra OPAC'en og leveres i form af en eller flere filer. SummaRise understøtter direkte DDE-MARC. Andre formater er mulige, men kræver som udgangspunkt udvikling af nye indekserings-XSLT'er.
Udtræk er enten komplette eller opdateringer. Ved et komplet udtræk slettes alle tidligere data fra SummaRise, mens en opdatering blot indeholder de slettede, tiføjede eller ændrede poster. Første levering skal i sagens natur være et komplet udtræk og det anbefales at levere et komplet udtræk 2-4 gange om året, for at sikre mod synkroniseringsfejl. Der er intet principielt i vejen med kun at levere komplette udtræk, men dette belaster systemerne - kundens såvel som Statsbibliotekets - en del mere end opdateringer gør.
Overførslen af udtrækket til SummaRise-systemet på Statsbiblioteket aftales med drift-afdelingen på Statsbiblioteket. Som udgangspunkt sker det gennem Secure Copy (scp). SCP kan anvendes under alle udbredte systemer, incl. Windows.
Specielt om opdateringer
Såfremt der leveret opdateringer i stedet for fulde dumps, skal posterne i sagens natur være markeret som enten nye, opdaterede eller slettede. I praksis vil Summa håndtere nye og opdaterede poster på samme vis, men til evt. viderebearbejdning anbefales det at markere dem korrekt i dumpet. Der er ingen særlige krav til filnavne for dumps eller lignende, eftersom alle informationer om post-status forventes at kunne udtrækkes fra selve posterne. Såfremt det ikke er muligt at markere status i selve posterne, må der laves særlig aftale med Statsbiblioteket om hvordan status i så fald angives.
Markeringen sker normalt efter de gældende regler for det givne format. For DDE-MARC er der tale on DanMARC2 og dermed Felt 004] med delkoderne n, c og d. Normalt vil sletteposter være minimale, dvs. praktisk talt kun en ID og en status, men det er intet krav. En opdateret post vil bevirke en fuldstændig overskrivning af den eksisterende post og skal dermed indeholde alle ønskede data for posten.
Erfaringen viser at eksportering af opdateringer ikke altid anvender samme formatering som fuld eksportering. I den forbindelse er det relevant at vide at Summa opfatter post-IDer som tekststrenge: ID 0001234 er ikke den samme som 1234.
Opsplitning og opbevaring
De modtagne udtræk splittes op i den enkelte records der gemmes i det storage der kan tilgås gennem SummaRise Storage web service (se API for SummaRise). Storage understøtter parent/child-relationer, der f.eks. anvendes ved flerbindsværker.
Kunden har normalt ingen interesse i at påvirke opsplitning og opbevaring på nogen måde.
Indeksering
SummaRise anvender på nuværende tidspunkt natlige indekseringer. Sletninger, tilføjelser og ændringer i storage udtrækkes og et index opdateres eller genopbygges, alt efter omstændighederne. Der er ingen forskel på søgefunktionalitet eller hastighed på de to måder at håndtere ændringer af poster.
Ved indekseringen anvendes XSLT'er til at transformere fra OPAC'ens format til SummaDocument, der efterfølgende anvendes til opdatering af index. Et eksempel på et sådant dokument er SummaDocumentXMLSample.xml.
Legacy
Den gamle udgave af Summa anvendte et lidt anderledes workflow, uden eksplicit understørrelse af parent/child-relationer ved indekseringen. I SummaRise er de fleste nuværende XSLT'er ikke opdaterede til det nye workflow. Der er lavet kode til at supportere de gamle XSLT'er direkte, så eneste bagdel ved denne løsning er at de gamle XSLT'er indeholder en del overflødige attributter: Som det ses af SummaDocument nævnt ovenfor, er antallet af attributter minimalt i den nye udgave.
På nuværende tidspunkt er standard-workflow for indeksering i SummaRise derfor
- Udtræk ændrede poster siden sidste indeksering
- Sammenflet flerbindsposter (kun for DDEMARC-poster)
- Kasser alle poster der har en parent
Tag alle childs for de resterende poster og flet dem ind i hovedposterne (dette gøres også af getLegacyRecord for Storage, som beskrevet i API'en)
Transformer de sammenflettede poster til SummaDocument-formatet
Opdater indekset på baggrunf af de producerede SummaDocuments
De nuværende XSLT'er for DDEMARC-håndtering kan hentes som folkebib_faelles_20090701.zip
Som en del af indekseringen oprettes det særlige field shortrecord, der er en Dublin Core-baseret XML-blok. Denne returneres ved en almindelig søgning og er beregnet på kort visning af søgeresultater.
Kunder kan have interesse i at påvirke transformeringstrinet til at få SummaRise til at understøtte kilde-specifikke attributter eller for at få ændringer eller tilføjelser til shortrecord.
