Differences between revisions 1 and 2
Revision 1 as of 2008-06-26 12:26:08
Size: 4891
Editor: kfc
Comment: Created by the PackagePages action.
Revision 2 as of 2010-03-17 13:12:45
Size: 4891
Editor: localhost
Comment: converted to 1.6 markup
No differences found!

Anbefaling af tekstformater til langtidsbevaring på SB

Hvad skal bevares i et tekst-dokument?

Tekstuelle dokumenter udgør en stor udfordring, delse fordi der er rigtig mange formater som det er svært eller umuligt at konvertere tabsfrit imellem, dels fordi det er svært at afgøre hvad det er fra et teskt-dokument der er vigtigt at bevare.

Man kan dele informationer man ønsker at bevare op i mindst følgende kategorier:

  1. Tekstuelt indhold - den simpleste form
  2. Visuelt/layout-mæssigt indhold - ikke blot indholdet, men også hvordan det ser ud på siden
  3. Strukturelt indhold - ikke blot hvordan det ser ud, men også "hvorfor", f.eks. at noget er en overskrift.

Jo længere man kommer ned i listen, jo sværere er det at bevare fuldstændigt korrekt.

Afhængig af havd man ønsker at gøre med data, kan bevaring på hvert niveau give mening.

For mange enkle artikler er niveau 1 "nok", man kan f.eks. læse indholdet eller lave søgning i teksten.

For rigtig mange informationer er niveau 2 dog nødvendigt for en fuldstændig forståelse - valget af typografi kan være en del af det samlede værk, og ikke mindst kan der indgå figurer eller matematiske formler som er nødvendige for en fuldstændig bevaring.

Hvis man gerne vil kunne lave mere strukturerede søgninger i teksten, eller hvis man ønsker at kunne åbne den i et tekstbehandlingsprogram og redigere videre eller klippe dele ud, kan niveau 3 være nødvendigt.

Vores anbefaling

Vores oplæg er at vi bevarer i tre forskellige formater; en for hvert niveau. Hvis vi så mister informationer på 3. niveau, som er det sværeste at bevare, har vi stadig informationerne på 1. og 2. niveau, og har dermed ikke tabt al information.

Til niveau 1 anbefaler vi et ganske almindeligt råt unicode tekstformat (UTF-8). Dette er den enkleste form for bevaring af rå tekst, og kan trækkes ud af næsten hvad som helst.

Til niveau 2 anbefaler vi PDF, som medie for tekst inklusiv dens opsætning og placering på papiret, og illustrationer m.v.

PDF er dog et kompliceret format, og bør underlægges restriktioner. Blandt andet er det et "åbent" format, som tillader at man kan sætte en klump af næsten hvad som helst ind. Det kan være video, eller endda et lille "flash"-spil. Vi ved endnu ikke præcist hvordan det vil være en god idé at lave restriktioner på PDF, men projektet "Digital Preservation Europe", som Statsbiblioteket deltager i, arbejder på at definere en sådan standard for "bevaringsværdig PDF", og værktøjer til at afgøre om et PDF-dokument lever op til kravene.

Vi anbefaler ikke PDF til indscannet ikke-tegngenkendt tekst - i det tilfælde er det bedre at opbevare den indscannede side som et billede, og benytte anbefalingen til dette.

Til niveau 3 har vi valgt den pragmatiske løsning at foreslå Microsoft Word's dokument-format, dog gemt som XML-version. Valget er ikke ideelt, da det er et kommercielt beskyttet format, men da det er meget svært at konvertere tabsfrit mellem forskellige formater på niveau 3, anser vi det for en god pragmatisk løsning at vælge det format, der er mest udbredt. At vælge XML-formatet fremfor .doc-formatet gør at vi har mulighed for at læse dokumentet med andre værktøjer - men måske dog svært ved at tolke betydningen.

Microsoft er i øjeblikket med i det fælles-europæiske "Planets"-projekt om digital bevaring, som også Statsbiblioteket deltager i, hvor de blandt andet har lovet at arbejde på et åbent XML-format til Word-dokumenter. Vi følger selvfølgelig også med i den udvikling.

Alternative muligheder

For det første er det selvfølgelig altid et alternativ ikke at opbevare 3 kopier af samme information. Niveau 1 og 2 kan i princippet extrapoleres fra niveau 3. Grunden til at vi ikke har anbefalet dette, er at vi mener niveau 1 og 2 er nemmere at bevare, og dermed har vi større chancer for at sikre at vi kan tilgå vores data i fremtiden.

På niveau 3 kunne man have valgt HTML. Fordelen ved HTML er at det er et udbredt strukturelt format, og kan repræsentere næsten alt. Ulempen er at det ikke er helt veldefineret - f.eks. ser HTML-sider ikke altid ens ud i forskellige fremvisere - og at man vil miste nogen informationer ved konverteringen fra f.eks. Word-dokumenter.

Endelig skal det nævnes at ikke alle dokumenter kan konverteres tabsfrit til Word's XML-format. Især problematisk er formatet TeX eller LaTeX der benyttes meget i videnskabelige kredse, og som næsten altid vil miste en vis information i konverteringen til Microsoft Word. Derfor kunne et alternativ være slet ikke at have et fælles format for niveau 3, og sige at det eneste vi garanterer at kunne bevare for eftertiden er onformationer på niveau 1 og 2, og så blot gemme niveau 3-informationer i deres oprindelige format.

DOMS text (last edited 2010-03-17 13:12:45 by localhost)