Retrospektive Digitalisierung von Bibliotheksbeständen für eine Verteilte Digitale Forschungsbibliothek

Bericht der Arbeitsgruppe Technik zur Vorbereitung des Programms "Retrospektive Digitalisierung von Bibliotheksbeständen" im Förderbereich "Verteilte Digitale Forschungsbibliothek"

Mitglieder der Arbeitsgruppe:

Dr. Jürgen Bunzel, Deutsche Forschungsgemeinschaft, Bonn

Dr. Marianne Dörr, Bayerische Staatsbibliothek München

Dr. Reinhard Ecker, Beilstein-Institut bzw. ABC Datenservice GmbH, Frankfurt/Main

Dipl.-Math. Heinz-Werner Hoffmann, Hochschulbibliothekszentrum NRW, Köln (als Gast für die AG der Verbundsysteme)

Dr. Norbert Lossau, Niedersächsische Staats- und Universitätsbibliothek Göttingen (DFG-Projekt 'Verteilte Digitale Forschungsbibliothek')

Prof. Dr. Elmar Mittler, Niedersächsische Staats- und Universitätsbibliothek Göttingen

Dipl.-Inf. Christian Mönch, FB Informatik der J.W. Goethe-Universität Frankfurt

Dr. Wilhelm R. Schmidt, Stadt- und Universitätsbibliothek Frankfurt

Dr. Hartmut Weber, Landesarchivdirektion, Stuttgart

Arbeitssitzungen am 14. Mai 1996 (Frankfurt a. M.), 29.-30. Juli 1996 (München), 12.-13. Dezember 1996 (Göttingen)

Redaktion: Dr. Norbert Lossau (letzte Überarbeitung September 1997)

Inhalt

Die Retrodigitalisierung von Bibliotheksbeständen

Einführung

1 Digitales Erfassen

Scanner

1.2 Scan- und Bildbearbeitungssoftware

1.3 Erstellen der Images

Auflösung beim Scannen

1.3.2 Farbtiefe

1.3.3 Dateiformate der Images

Digitaler Master

1.3.3.2 Benutzungsversion für den Online-Zugriff

1.3.3.3 Downloadversion

Volltexterfassung

Automatisierte Erfassung durch Texterkennungsprogramme (OCR)

1.4.2 Manuelle Erfassung von Texten

Strukturbeschreibung von Dokumenten

Speichern

Speicherung digitalisierter Ressourcen für die Benutzung

Festplattensysteme

2.1.2 Optische Plattenspeichersysteme

Speicherung zum Zwecke der Langzeitsicherung

Erschließen und Verwalten

Bibliographische Metadaten

3.2 Strukturelle Metadaten

Erstellen von elektronischen Inhaltsverzeichnissen und Registern

Kumulierte Register- dokumentübergreifend

Verwaltung der digitalisierten Dokumente und ihrer Metadaten

Suchen und Zugreifen

Die Adressierung elektronischer Dokumente für den Online-Zugriff (Mönch)

Benennung elektronischer Ressourcen

4.1.2 Bennungsschemata im Internet

Uniform Resource Locator

4.1.2.2 Uniform Resource Names

Benennung von Dokumenten innerhalb der Verteilten Digitalen Forschungsbibliothek

4.1.4 Persistenzerhaltung durch Persistent Uniform Resource Locator

4.1.5 Migration zu Uniform Resource Names

Zugang zur digitalen Sammlung

Direkter Einstieg über die Homepage der anbietenden Bibliothek

4.2.2 Einstieg über eine Suchanfrage an den lokalen und regionalen Bibliothekskatalog

4.2.3 Zugriff auf verschiedene lokale Systeme der Verteilten Digitalen Forschungsbibliothek

Bereitstellen und Nutzen

Zusammenfassung

Literaturempfehlungen (Auswahl)

Anlage 1 Belegung von Kategorien im TIFF-Header des digitalen Masters

Anlage 2 Suchausdruck in der URL: Entwurf für mögliche Schlüssel und Werte
(Mönch)

Anlage 3 Suchausdruck in der URL: Erlaubte Zeichen für Schlüssel und Werte
(Mönch)

Anlage 4 Kosten für die Erfassung eines Standardbuches
(Ecker)

Fußnoten

Die Retrodigitalisierung von Bibliotheksbeständen

Zur Vorbereitung des neuen Programms der retrospektiven Digitalisierung wurde eine AG Technik ins Leben gerufen. Ihre Aufgabe ist die Bewertung der heute zur Verfügung stehenden technischen Möglichkeiten zur Digitalisierung, Speicherung, Verwaltung und Bereitstellung von digitalen Dokumenten. Die ersten Ergebnisse dieser Untersuchung wurden in dem vorliegendenBericht zusammengefaßt und sollen potentiellen Antragstellern des neuen Förderprogramms als konkrete Hilfestellung dienen.

Einführung

Das neue Förderprogramm hat deshalb seinen Schwerpunkt dezidiert auf die retrospektive Digitalisierung von Bibliotheksbeständen gelegt.

Der Aufbau einer Verteilten Digitalen Forschungsbibliothek (VDF) bedeutet für deutsche Bibliotheken in technischer und organisatorischer Hinsicht das Betreten von Neuland. Ziel ist es, die Ergebnisse der Digitalisierungsprojekte für Forschung und Studium möglichst rasch und umfassend zugänglich zu machen, um die Akzeptanz dieser neuen Bibliotheksdienstleistung zu demonstrieren und die Dienste in Reaktion auf Benutzerbedarf und Benutzungsanforderungen sukzessive weiter zu verbessern.

Technische Grundlage für die Bereitstellung digitalisierter Bibliotheksbestände werden in erster Linie Dokumentmanagementsysteme (DMS) und Multimedia-Ausstattungen sein, die zukünftig zum standardmäßigen Funktionsumfang lokaler Bibliothekssysteme gehören werden. Beschaffungsmittel für solche Ausstattungen sind im Hochschulsonderprogramm III ausgewiesen.

Ein wichtiges Ziel ist es jedoch, von vornherein auch einen integrierten und einheitlichen Zugriff auf die Gesamtheit der digitalisierten Bestände zu ermöglichen. Dies erfordert die Föderation der unterschiedlichen lokalen Lösungen im Kontext einer verteilten digitalen Bibliothek. Hierfür müssen gemeinsame Konventionen und „good practices" vereinbart werden.

Gerade für kleinere Einrichtungen wird es nicht immer möglich sein, rasch die erforderlichen lokalen Systemausstattungen zu schaffen und aus eigener Kraft das erforderliche Know-How aufzubauen.

Daher kommt insbesondere in der Anfangsphase der Entwicklung sogenannten Service- und Kompetenzzentren eine besondere Bedeutung zu, wie auch Erfahrungen aus bereits laufenden Digitalisierungsinitiativen in den Vereinigten Staaten, Großbritannien, Frankreich oder Australien zeigen.[1]

Der Aufbau derartiger Zentren ist an der Staats- und Universitätsbibliothek (SUB) Göttingen und der Bayerischen Staatsbibliothek (BSB) München vorgesehen. Zu den Aufgaben der Kompetenzzentren zählen u.a.:

Aufbau einer Basis-Infrastruktur zur raschen, überregionalen Bereitstellung der Ergebnisse von Digitalisierungsprojekten im Internet,

Aufbau prototypischer Systeme für Dokumenten-Management und Präsentation der „Verteilten Digitalen Forschungsbibliothek" im WWW,

Verknüpfung der „Verteilten Digitalen Forschungsbibliothek" mit den vorhandenen Bibliotheksverbundsystemen,

Anpassung und Weiterentwicklung vorhandener Systeme,

Initiativfunktion bei der Vereinbarung von Konventionen, Standards und „good practices",

Einbindung lokaler Lösungen in das Gesamtsystem einer „Verteilten Digitalen Forschungsbibliothek",

Sicherung der dauerhaften überregionalen Bereitstellung der digitalen Dokumente

Zudem stehen sie als Ansprechpartner für andere Bibliotheken und Institutionen im Bereich der retrospektiven Digitalisierung von Bibliotheksmaterialien zur Verfügung.

In diesem Zuammenhang ist auch die Bedeutung der kooperativen Zusammenarbeit aller Beteiligten beim Aufbau der VDF hervorzuheben. Der Leitgedanke einer „National Digital Library Initiative", wie er sich in den Vereinigten Staaten im Rahmen der nationalen Digitalisierungsinitiative entwickelt hat, sollte auch für die deutsche Initiative tragend werden.

Unter Beachtung der Komplexität des gesamten Bereiches der Digitalisierung hat sich die AG Technik entschlossen, in dem vorliegendenBericht gewisse Schwerpunkte zu setzen. Diese betreffen zum einen die Bibliotheksmaterialien, zu denen Aussagen getroffen werden. Es erscheint zum jetzigen Zeitpunkt nicht möglich, auf die ganze Vielfalt dieser Materialien einzugehen (Photos, Karten, Bildvorlagen etc.). Es werden daher in erster Linie die technischen Rahmenbedingungen für eine digitale Konversion von Büchern untersucht.

Zum anderen ist die Erschließung der digitalisierten Dokumente ein umfassender und äußerst vielschichtiger Komplex. Sie erstreckt sich von der reinen Bilderfassung über eine Volltexterfassung bis zur Strukturierung der Texte mit SGML (Standard Generalized Markup Language) oder der Umwandlung in das Austauschformat PDF (Portable Document Format). Die speziell auch im angloamerikanischen Bereich angewandte Strukturierung von digitalisierten Dokumenten in SGML richtet sich dabei zunehmend nach den jüngst entwickelten Richtlinien der TEI (Text Encoding Initiative), die ein sorgfältig ausdifferenziertes Beschreibungsinstrumentarium für elektronische Texte zur Verfügung stellen. Derart strukturiert werden hier im übrigen nicht nur die Dokumente selbst, sondern auch die sog. ‘finding aids’, also Katalogeinträge, Register etc.

Im Zusammenhang mit dem Förderprogramm der DFG ist davon auszugehen, daß der Schwerpunkt der Aktivitäten zunächstauf gedruckt vorliegenden Materialien liegen wird.

In einem ersten Schritt werden hierBilder der gedruckten Vorlagen erzeugt. Erfahrungen aus Projekten im Bibliotheksbereich (vgl. DFG Projekt zur Digitalisierung der Titelblätter von Beständen der Bibliothek „Öttingen- Wallerstein"), in denen bereits heute Bild-Digitalisierungen bereitgestellt werden, zeigen, daß der Benutzer großes Interesse an solchen Images hat.

Die zweite Stufe der digitalen Konversion, die Volltexterfassung, ist bei älteren Büchern mit Problemen behaftet. Uneinheitlicher Schriftsatz, Vergilbungen und in neuerer Zeit nur selten verwendete Schriftarten (z.B. Fraktur) bereiten bei einer automatisierten Texterkennung große Schwierigkeiten. Ist das Erstellen einer digitalen Volltextfassung aus diesen Gründen ökonomisch nicht durchführbar, ist der gezielte Zugriff auf einzelne Wörter im Text nicht möglich. Um so größere Bedeutung kommtdaher bei der reinen Bilddigitalisierung einer ergänzenden Erschließung der Texte zu. Über volltextdigitalisierte Inhalts-verzeichnisse und - soweit vorhanden - Register wird dem Benutzerder punktuelle Zugriff auf einzelne Seiten-Bilder ermöglicht.

Langfristiges Ziel wird aber sein, nicht nur diese Materialien zu einem späteren Zeitpunkt als Volltexte zur Verfügung zu stellen sondern möglichst bald, auch in Kooperation mit Verlagen und anderen Inhabern von Rechten, neuere Literatur in eine digitale Forschungs-bibliothek aufzunehmen.

Der vorliegende Bericht legt als Grundschema bei der Behandlung technischer Detailfragen die einzelnen Schritte bei der Durchführung eines Digitalisierungsvorhabens zugrunde:

2. Speichern

3. Erschließen und Verwalten

4. Suchen und Zugreifen

5. Bereitstellen und Nutzen

6. Rechteverwaltung

Im folgenden wird ausführlich auf die Themenbereiche 1 bis 5 eingegangen. Mit dem Bereich 6, der Rechteverwaltung, wird man sich zu einem späteren Zeitpunkt eingehend befassen.

1 Digitales Erfassen

1.1 Scanner

[2]

Er wird als Peripheriegerät an den Computer angeschlossen. Dabei ist es von Vorteil, wenn er über eine SCSI-Schnittstelle als Subsystem angesteuert werden kann. Diese Schnittstelle - zur Zeit SCSI-2 - erlaubt neben dem gleichzeitigen Anschluß mehrerer intelligenter Subsysteme auch die unproblematische Anbindung dieser Systeme an den Computer. Für den Einsatzzweck der Digitalisierung ist zudem die hohe Übertragungsgeschwindigkeit der Daten von Bedeutung.

Die durch den Scanner erzeugten Bilder oder Images werden in Pixel (Bildpunkte) zerlegt. Für die Strukturierung dieser Images gibt es eine Vielzahl unterschiedlicher Formate, auf die an anderer Stelle noch ausführlich eingegangen wird.

Scanner sind in unterschiedlicher Ausprägung mit jeweils spezifischen Funktionalitäten und in allen Preisklassen auf dem Markt: Handscanner, Flachbettscanner, Einzugscanner und Trommelscanner [3] In jüngster Zeit wurde diese Palette um einen neuen Typ bereichert, den sog. Buch- oder Aufsichtscanner.

Handscanner

Flachbettscanner

Wie der Kopierer auch hat der Flachbettscanner beim Einsatz für das Scannen von Büchern einen großen Nachteil: da die Vorlagen möglichst dicht auf die Glasplatte aufgelegt werden müssen, ist ein gewisser Druck auf den Buchrücken unvermeidlich. Dieser nicht gerade schonende Umgang mag bei neuerer Literatur noch hingenommen werden; für die geplante Digitalisierung älterer, in der Erhaltung gefährdeter oder besonders schützenswerter Bücher ist dieser Typ des Scanners sicher nicht einsetzbar.

Einzugscanner

Die Stärke des Einzugscanners liegt in der Möglichkeit der raschen Verarbeitung großer Mengen. Können die Vorlagen für den Einzelblatteinzug aufbereitet werden (z.B. durch das Aufschneiden von Zeitschriftenheften), ist dieser Scannertyp für die Massendigitalisierung sicher eine gute Wahl.

Trommelscanner

Buch- oder Aufsichtscanner

Bei der Entwicklung dieses Scannertyps hat sicher die technische Ausrüstung für die Mikroverfilmung Pate gestanden. Deutlich wird dies besonders bei dem von der Firma Zeutschel (Tübingen) angebotenen Buchscanner Omniscan 3000 mit Buchwippe. Die Standardausstattung bei dieser Ausführung mit Grundgestell, vertikaler Säule, Beleuchtungsvorrichtung und Buch-Aufnahmewippe mit Glasplatte wird Mikroverfilmern bekannt vorkommen. Zu einem Scanner wird dieses System erst durch den an einer vertikalen Säule oberhalb der Auflage befestigten Scan-Kopf, einen CCD-Zeilenscanner. Dieser stammt von Kodak und wurde dort für den Kodak Imagelink 200-Buchscanner eingesetzt.

Die Art der Ausstattung zeigt, worauf bei diesem Scanner Wert gelegt wurde: die Möglichkeit des schonenden Umgangs mit dem (alten) Buch. Die Buchwippenfunktion ermöglicht lt. Herstellerangabe das Scannen von Büchern mit einer Dicke bis zu 15 cm.

Von Minolta wird der Scanner PS3000 angeboten. Anfänglich nur als geschlossenes System zum Anschluß an einen Digitalkopierer oder Drucker verwandt, gibt es ihn seit kurzem auch mit einer Schnittstelle zur Anbindung an den PC.

Ein Probeeinsatz dieser beiden Scanner in der Fotostelle der SUB Göttingen erbrachte - beim Scannen eines Buches (Oktav-Format) von 300 Seiten (=156 Aufnahmen) - eine Stundenleistung von 156 Scans (Minolta), 104 Scans (Zeutschel o. Buchwippe) und 62,4 Scans (Zeutschel m. Buchwippe).

Ein weiterer Buchscanner wurde im Januar 1997 von der Firma Rank Xerox (XBS, Düsseldorf) auf den Markt gebracht. Funktionalität und Einsatzmöglichkeiten sind prinzipiell der des Minoltaprodukts vergleichbar.

Im Überblick bieten sich die technischen Daten dieser drei Buchscanner wie folgt dar:

Technische Daten

Minolta Buchscanner PS3000

Zeutschel (Kodak) Buchscanner Omniscan 3000 mit Buchwippe

Xerox Digital Book Scanner
Bookeye

Vorlagenformat

bis DIN A3

bis DIN A2

bis DIN A3 (optional DIN A2)

Vorlagenstärke
bis 10 cm

bis 15 cm

bis 10 cm

Auflösung

400 dpi

A3 und A4: 400 dpi
A2: 300 dpi

300 dpi

Scanmodus

Text, Photo

keine Angabe

Text, Photo

Bildwiedergabe

bitonal s/w; (rechnerisch auch Graustufen)

bitonal s/w; (rechnerisch auch Graustufen)

bitonal s/w; (rechnerisch auch Graustufen)

Scangeschwindigkeit

1,27 Sek./A4

5 Sek./ A4, ca. 9 Sek./ A3

2,5 Sek./ A4, 3,2 Sek./ A3
4,0 Sek./ A2

Schnittstelle zum PC

z.Zt. Video-Schnittstelle; ISIS-Schnittstelle geplant

SCSI 2-Schnittstelle; ISIS-Schnittstelle geplant

Fujitsu-kompatible Videoschnitt-stelle (M3097); ISIS-Schnittstelle wird zur Zeit erprobt

Daten-Ausgabe

TIFF-G3/G4

TIFF-G4

TIFF-G4

Kamerascanner

In Schweden wurde für den Einsatz im Archivbereich ein Kamerascanner für bitonale, Halbton- und Farbvorlagen entwickelt, dessen Vorteile vom Hersteller neben dem großen Schärfentiefebereich (bis zu 25 cm) insbesondere in der Möglichkeit zum schnellen Ausdruck gesehen werden, der durch die Verbindung mit einem in Deutschland entwickelten Spezialmodul erreicht wird. Die Bilddaten werden dabei mit einer hohen Auflösung unter Umgehung des internen Drucker-Controllers direkt über ein Hochgeschwindigkeitskoaxialkabel an den Drucker (z.B. HP-Laserjet 4v) geleitet.

Die speziellen Funktionalitäten der beiden hier erwähnten Scanner schlagen sich allerdings auch im Preis nieder, der bei beiden Scannern je nach Ausstattung die 100.000 DM-Grenze übersteigen kann.

1.2 Scan- und Bildbearbeitungssoftware

Weiter Möglichkeiten zur Bearbeitung der Images wie das Schreiben zusätzlicher Informationen in den TIFF-Header des digitalen Masters, bietet standardmäßig keines der eingesetzten Programme. Die SUB Göttingen strebt aus diesem Grund in Kooperation mit einem Systemintegrator, der Firma Satz-Rechen- Zentrum (SRZ) in Berlin, die Entwicklung einer Scan- und Bildbearbeitungssoftware an, die alle Erfordernisse der Imageerstellung und -bearbeitung, wie sie in dem vorliegenden Bericht definiert werden, erfüllen.

1.3 Erstellen der Images

1. Die Digitalisierung direkt vom Buch

2. Die Verfilmung des Buches mit anschließender Digitalisierung des Mikrofilms [4]

Ein Blick auf laufende Digitalisierungsvorhaben zeigt, daß beide Verfahren gängig sind. Die Library of Congress hat in ihren Ausschreibungen für externe Scan-Dienstleister detaillierte Konditionen für beide Vorgehensweisen formuliert.

Im Rahmen der nationalen Digitalisierungsinitiative in Australien zu Materialien aus der Zeit von 1840-1845 wird grundsätzlich der Weg über die Mikroverfilmung gegangen.

Vorhandene oder eigens für den Zweck der Digitalisierung erstellte Mikrofilme lassen sich vergleichsweise kostengünstig mit Hilfe spezieller Mikrofilmscanner digitalisieren. Die Filmdigitalisierung wird als Serviceleistung angeboten. Die Digitalisierung vom Mikrofilm führt zu besonders guten Ergebnissen und läßt sich besonders wirtschaftlich durchführen, wenn bei der Erstellung der Mikroformen und bei der Filmdigitalisierungselbst die entsprechenden Hinweise der Arbeitsgruppe „Digitalisierung" des Unterausschusses Bestandserhaltung der Deutschen Forschungsgemeinschaft beachtet werden. [5] So sollen als Mikroform Rollfilme 35mm möglichst mit Bildmarken (Blips) verwendet werden, die weitgehend automatisch digitalisiert werden können. Die Filme sollen mindestens eine den DIN-Normen entsprechende Qualität hinsichtlich der Filmdichte und der Wiedergabeschärfe (Lesbarkeit) aufweisen. Die einheitliche Ausrichtung und Positionierung der Vorlagen (Bücher) und ein einheitlicher Verkleinerungsfaktor über einen kompletten Film hinweg fördern einen weitgehend automatischen und damit rationellen Digitalisierungsvorgang. Schließlich erleichtert eine gute Strukturierung des Mikrofilms mit einer durchdachten Filmorganisation und Aufnahmedokumentation die mit der Digitalisierung zu verbindende formale und inhaltliche Aufbereitung der digitalisierten Images.

Da ordnungsgemäß verarbeitete Mikrofilme auf Polyesterunterlage als alterungsbeständige Informationsträger gelten,soll immer dann über die Zwischenstufe des Mikrofilms digitalisiert werden, wenn damit zugleich Sicherungs-, Schutz oder Erhaltungszwecke für Objekte verfolgt werden, die in ihrer Erhaltung gefährdet oder bereits beschädigt sind.Darüber hinaus kann es sich als wirtschaftlicher erweisen, insbesondere Bücher und andere Vorlagen, die nicht mit Flachbett- oder Einzugscannern rationell verarbeitet werden können,über die Zwischenstufe des Mikrofilms zu digitalisieren, da beim heutigen Preisgefüge bei solchen Objekten die Filmdigitalisierungskosten zuzüglich der Verfilmungskosten vielfach unter den Kosten für die unmittelbare Digitalisierung liegen.Der zusätzlich entstandene hochwertige Mikrofilm steht auch in diesen Fällen als relativ anspruchslos zu lagernder analoger Langzeitspeicher zur Verfügung, der unter anderem beliebig oft zur Digitalisierung und ggf. zusätzlich für den Zweck der Fernleihe herange-zogen werden kann.

Bei der Erstellung des Mikrofilms wird zukünftig auch verstärkt die Entwicklung der COM (Computer Output on Microfilm)-Techniken zu berücksichtigen sein. Diese sieht zunächst eine qualitativ hochwertige Digitalisierung, dann die Konversion der digitalen Vorlage auf Mikrofilm vor. [6]

Prinzipiell sollte jedes Buch, nicht zuletzt aus konservatorischen und ökonomischen Gründen, nur einmal gescannt oder verfilmt werden. Die Qualität der erstellten Images muß demnach so beschaffen sein, daß eine etwaige Weiterverarbeitung wie Komprimierung und Konvertierung, aber auch die Bearbeitung mit einer Texterkennungssoftware, von diesen ‘Erst-’ bzw. ‘Einmal-’scans vorgenommen werden kann. Unterschiedliche Versionen sind deshalb von einer Vorlage zu erstellen.

1.3.1 Auflösung beim Scannen

[7]

Technisch möglich und in großen amerikanischen Digitalisierungsprojekten als Standard angestrebt wird für s/w-Vorlagen eine Auflösung von 600 dpi. [8] Diese Auflösung stellt sicher, daß das Digitalisat als Grundlage für andere Ausgabeformen von hoher Qualität (hochqualitativer Ausdruck, COM) dienen kann.

Beim Digitalisieren mit Graustufen sollten Auflösungen zwischen 250 und 300 dpi gewählt werden, Farbvorlagen benötigen eine vergleichbare Qualität.

Wird zu einem späteren Zeitpunkt die Behandlung der digitalisierten Dokumente mit einer Texterkennungssoftware nicht ausgeschlossen, wird eine Auflösung von mindestens 400 dpi empfohlen. Tests, unter anderem an dem renommierten Electronic Text Center an der University of Virginia, haben hier eindeutig ergeben, daß gerade kleine Schriftgrößen bei einer Bearbeitung mit OCR-Software im Falle von 400 dpi deutlich besser erkannt werden als bei 300 dpi. [9]

Beim Digitalisieren von Fotografien sind je nach Detailreichtum geringere Auflösungen ausreichend oder höhere Auflösungen (bis 600 dpi) erforderlich.Wichtiger ist dabei allerdings die Digitalisierung mit Graustufen. Bei gerasterten Abbildungen in Büchern darf die Auflösung beim Digitalisieren die Rasterauflösung nicht überschreiten.

1.3.2 Farbtiefe

[10]

1.3.3 Dateiformate der Images

Eine klare Unterscheidung ist zwischen dem beim Einscannen mit hohem Qualitätsanspruch erstellten Image und den zum späteren Zeitpunkt über das Internet zur Verfügung gestellten Bildern zu treffen. Das Scan-Image übernimmt im Rahmen der Retrodigitalisierung die Funktion eines „digitalen Masters", der auf geeigneten Speichermedien zur langfristigen Verwendung abgelegt wird und im Zuge einer Pflegeroutine in regelmäßigen Abständen auf Lesbarkeit und Kompatibilität zu überprüfen ist. Unter dem Gesichtspunkt der Langfristarchivierung des digitalen Masters ist bei der Auswahl eines Dateiformats unbedingt darauf zu achten, daß auf Standards zurückgegriffen wird, die im Rahmen späterer Konvertierungsvorhaben ohne nennenswerte Probleme der neuen Systemumgebung angepaßt werden können.

Das Image, welches der Benutzer auf Anforderung am Bildschirm sieht, wird durch Konvertierungsläufe vom digitalen Master erstellt und kann niedrigeren Qualitätsanfor-derungen genügen als die Archivierungsversion.

Eine weitere Version kann für das Herunterladen ganzer Image-Dokumente erstellt werden. Diese Download- Version ist für den Benutzer, der den online-Text ständig verfügbar haben möchte, von großer Bedeutung. Vor dem Hintergrund bekannter Netzleitungsprobleme bezüglich des Datendurchsatzes ist es ihm auf diesem Wege möglich, den gewünschten Text auf dem eigenen Arbeitsplatzrechner lokal gespeichert zu halten.

1.3.3.1 Digitaler Master

ein

Das TIFF-Format [11]

[12]

Anlage 1

Da sich die Verwendung des unkomprimierten TIFFs aufgrund der zu bewältigenden Speichermengen für die Archivierung großer Textmengen nicht eignet (1 s/w A4-Seite unkomprimiertes TIFF bei 400 dpi Auflösung = ca. 2 Mb) , wird die Verwendung der verlustfreien (Fax)-Komprimierung Gruppe 4 (Standard der ehemaligen CCITT, heute ITU) empfohlen. Die Größe einer Imagedatei bei dieser Komprimierung liegt dann zwischen 100 und 150 Kb.

Das PNG-Format

[13]

Die Beachtung von PNG empfiehlt sich insbesondere vor dem Hintergrund einer Quasi-Standardsetzung dieses Format für den Datentransfer im Internet durch die jüngsten offiziellen Empfehlungen der Internet Engineering Task Force (IETF) und des World Wide Web Consortiums (W3C). Neben dieser offiziellen Empfehlung und der Tatsache, daß PNG vollständig in den Bereich ‘Public Domain’ fällt, gibt es auch technische Gründe, die für eine Verwendung von PNG als Dateiformat für den digitalen Master sprechen. So bietet PNG bei Farbvorlagen eine Farbtiefe von bis zu 48 Bits und für Graustufen 16 Bits an (zum Vergleich: TIFF bietet 24 Bits bei Farbe und 8 Bits bei Graustufen). Man sollte in diesem Zusammenhang jedoch darauf hinweisen, daß die bisher angebotene Farbtiefe im Normalfall sicher ausreicht. Im Bereich der Komprimierung scheint die bei PNG eingesetzte DEFLATE-Komprimierung für bitonale Vorlagen effektiver zu sein als Fax Gruppe 4 bei TIFF. Die Komprimierung für Farbimages kann darüber hinaus in der Zukunft zu Lizenzproblemen führen, weil TIFF hier das bereits erwähnte LZW-Verfahren anwendet.

Für TIFF als digitalen Master, jedenfalls bei der Digitalisierung von bitonalen Vorlagen, spricht hingegen weiterhin die oben beschriebene Möglichkeit der umfangreichen Informationsmitgabe in die Imagedatei selbst, was in diesem Umfang und in der strukturierten Form bei PNG nicht möglich ist.

Aus Sicht der Arbeitsgruppe kommen beide genannten Formate für Digitalisierungsvorhaben in Frage, wobei TIFF bei abgeschlossenen und derzeit laufenden Digitalisierungsvor-haben mit Abstand am häufigsten eingesetzt wird.

Zur Übersicht

Weiter im Text

[Letztmalige Aktualisierung: 16.10.1998 / am]