Mitglieder der Arbeitsgruppe:
- Prof. Dr. Rudolf Bayer, Technische Universität München, Fakultät
für Informatik
Dr. Jürgen Bunzel, Deutsche Forschungsgemeinschaft, Bonn
Dr. Marianne Dörr, Bayerische Staatsbibliothek München
Dr. Reinhard Ecker, Beilstein-Institut bzw. ABC Datenservice GmbH, Frankfurt/Main
Dipl.-Math. Heinz-Werner Hoffmann, Hochschulbibliothekszentrum NRW, Köln (als Gast für die AG der Verbundsysteme)
Dr. Norbert Lossau, Niedersächsische Staats- und Universitätsbibliothek Göttingen (DFG-Projekt 'Verteilte Digitale Forschungsbibliothek')
Prof. Dr. Elmar Mittler, Niedersächsische Staats- und Universitätsbibliothek Göttingen
Dipl.-Inf. Christian Mönch, FB Informatik der J.W. Goethe-Universität Frankfurt
Dr. Wilhelm R. Schmidt, Stadt- und Universitätsbibliothek Frankfurt
Dr. Hartmut Weber, Landesarchivdirektion, Stuttgart
Arbeitssitzungen am 14. Mai 1996 (Frankfurt a. M.), 29.-30. Juli 1996 (München), 12.-13. Dezember 1996 (Göttingen)
Redaktion: Dr. Norbert Lossau (letzte Überarbeitung September
1997)
Inhalt
- Die Retrodigitalisierung von Bibliotheksbeständen
- 1.1 Scanner
1.2 Scan- und Bildbearbeitungssoftware
- 1.3.1 Auflösung beim Scannen
1.3.2 Farbtiefe
1.3.3 Dateiformate der Images
- 1.3.3.1 Digitaler Master
1.3.3.2 Benutzungsversion für den Online-Zugriff
1.3.3.3 Downloadversion
1.5 Strukturbeschreibung von Dokumenten
- 2.1 Speicherung
digitalisierter Ressourcen für die Benutzung
- 2.1.1 Festplattensysteme
- 3.1 Bibliographische
Metadaten
3.3 Verwaltung
der digitalisierten Dokumente und ihrer Metadaten
- 4.1 Die
Adressierung elektronischer Dokumente für den Online-Zugriff (Mönch)
- 4.1.1 Benennung
elektronischer Ressourcen
4.1.2 Bennungsschemata
im Internet
- 4.1.2.1 Uniform
Resource Locator
4.1.2.2 Uniform
Resource Names
4.1.4 Persistenzerhaltung durch Persistent Uniform Resource Locator
Literaturempfehlungen (Auswahl)
Anlage 1 Belegung von Kategorien im TIFF-Header des digitalen Masters
Anlage 2 Suchausdruck
in der URL: Entwurf für mögliche Schlüssel und Werte
(Mönch)
Anlage 3 Suchausdruck
in der URL: Erlaubte Zeichen für Schlüssel und Werte
(Mönch)
Anlage 4 Kosten
für die Erfassung eines Standardbuches
(Ecker)
Die Retrodigitalisierung von Bibliotheksbeständen
- Der Bibliotheksausschuß und die Kommission für Rechenanlagen
der Deutschen Forschungsgemeinschaft (DFG) haben sich in ihren gemeinsamen
Empfehlungen „Neue Informations-Infrastrukturen für Forschung und
Lehre" dafür ausgesprochen,die Nutzung der neuen Kommunikations- und
Publikationstechniken zur Verbesserung der wissenschaftlichen Arbeitsbedingungen
beim Zugriff und bei der Verarbeitung von Literatur, sowie von wissenschaftlichen
Daten und Informationenverstärkt zu fördern. Um elektronische
Texte direkt am Arbeitsplatz des Wissenschaftlers bereitzustellen soll
in einem Kernbereich der Förderung wissenschaftliche Forschungsliteratur
aus den Beständen von Bibliotheken digitalisiert und über Kommunikationsnetze
zugänglich gemacht werden.
Zur Vorbereitung des neuen Programms der retrospektiven Digitalisierung
wurde eine AG Technik ins Leben gerufen. Ihre Aufgabe ist die Bewertung
der heute zur Verfügung stehenden technischen Möglichkeiten zur
Digitalisierung, Speicherung, Verwaltung und Bereitstellung von digitalen
Dokumenten. Die ersten Ergebnisse dieser Untersuchung wurden in dem vorliegendenBericht
zusammengefaßt und sollen potentiellen Antragstellern des neuen Förderprogramms
als konkrete Hilfestellung dienen.
Einführung
- Das Angebot an Bibliotheksmaterialien in elektronischer Form hat in
den letzten Jahren in beträchtlichem Umfang zugenommen. Die Fragestellung,
ob Publikationen nur in elektronischer Form, als Druck und in elektronischer
Form oder nur als Druck vorliegen sollen, wird in zunehmendem Maße
Thema der bibliothekarischen wie der fachwissenschaftlichen Diskussion.
Dabei kann man bei der Literatur aus jüngster Zeit davon ausgehen,
daß sie in der Regel bereits bei der Entstehung, spätestens
aber für den Druck, in elektronische Form gebracht wird. In zunehmendem
Umfang wird aber auch verlangt, bereits gedruckt vorliegende Literatur
älterer Jahrgänge direkt am (EDV-) Arbeitsplatz verfügbar
zu haben. Der räumlich und zeitlich unbegrenzte Zugriff auf solche
ansonsten vielleicht nur schwer beschaffbare oder häufig nachgefragte
Bibliotheksbestände kann so realisiert werden.
- Aufbau einer Basis-Infrastruktur zur raschen, überregionalen Bereitstellung der Ergebnisse von Digitalisierungsprojekten im Internet,
- Aufbau prototypischer Systeme für Dokumenten-Management und Präsentation der „Verteilten Digitalen Forschungsbibliothek" im WWW,
- Verknüpfung der „Verteilten Digitalen Forschungsbibliothek" mit den vorhandenen Bibliotheksverbundsystemen,
- Anpassung und Weiterentwicklung vorhandener Systeme,
- Initiativfunktion bei der Vereinbarung von Konventionen, Standards und „good practices",
- Einbindung lokaler Lösungen in das Gesamtsystem einer „Verteilten Digitalen Forschungsbibliothek",
- Sicherung der dauerhaften überregionalen Bereitstellung der digitalen Dokumente
Das neue Förderprogramm hat deshalb seinen Schwerpunkt dezidiert auf die retrospektive Digitalisierung von Bibliotheksbeständen gelegt.
Der Aufbau einer Verteilten Digitalen Forschungsbibliothek (VDF) bedeutet für deutsche Bibliotheken in technischer und organisatorischer Hinsicht das Betreten von Neuland. Ziel ist es, die Ergebnisse der Digitalisierungsprojekte für Forschung und Studium möglichst rasch und umfassend zugänglich zu machen, um die Akzeptanz dieser neuen Bibliotheksdienstleistung zu demonstrieren und die Dienste in Reaktion auf Benutzerbedarf und Benutzungsanforderungen sukzessive weiter zu verbessern.
Technische Grundlage für die Bereitstellung digitalisierter Bibliotheksbestände werden in erster Linie Dokumentmanagementsysteme (DMS) und Multimedia-Ausstattungen sein, die zukünftig zum standardmäßigen Funktionsumfang lokaler Bibliothekssysteme gehören werden. Beschaffungsmittel für solche Ausstattungen sind im Hochschulsonderprogramm III ausgewiesen.
Ein wichtiges Ziel ist es jedoch, von vornherein auch einen integrierten und einheitlichen Zugriff auf die Gesamtheit der digitalisierten Bestände zu ermöglichen. Dies erfordert die Föderation der unterschiedlichen lokalen Lösungen im Kontext einer verteilten digitalen Bibliothek. Hierfür müssen gemeinsame Konventionen und „good practices" vereinbart werden.
Gerade für kleinere Einrichtungen wird es nicht immer möglich sein, rasch die erforderlichen lokalen Systemausstattungen zu schaffen und aus eigener Kraft das erforderliche Know-How aufzubauen.
Daher kommt insbesondere in der Anfangsphase der Entwicklung sogenannten Service- und Kompetenzzentren eine besondere Bedeutung zu, wie auch Erfahrungen aus bereits laufenden Digitalisierungsinitiativen in den Vereinigten Staaten, Großbritannien, Frankreich oder Australien zeigen.[1]
Der Aufbau derartiger Zentren ist an der Staats- und Universitätsbibliothek
(SUB) Göttingen und der Bayerischen Staatsbibliothek (BSB) München
vorgesehen. Zu den Aufgaben der Kompetenzzentren zählen u.a.:
Zudem stehen sie als Ansprechpartner für andere Bibliotheken und Institutionen im Bereich der retrospektiven Digitalisierung von Bibliotheksmaterialien zur Verfügung.
In diesem Zuammenhang ist auch die Bedeutung der kooperativen Zusammenarbeit aller Beteiligten beim Aufbau der VDF hervorzuheben. Der Leitgedanke einer „National Digital Library Initiative", wie er sich in den Vereinigten Staaten im Rahmen der nationalen Digitalisierungsinitiative entwickelt hat, sollte auch für die deutsche Initiative tragend werden.
Unter Beachtung der Komplexität des gesamten Bereiches der Digitalisierung hat sich die AG Technik entschlossen, in dem vorliegendenBericht gewisse Schwerpunkte zu setzen. Diese betreffen zum einen die Bibliotheksmaterialien, zu denen Aussagen getroffen werden. Es erscheint zum jetzigen Zeitpunkt nicht möglich, auf die ganze Vielfalt dieser Materialien einzugehen (Photos, Karten, Bildvorlagen etc.). Es werden daher in erster Linie die technischen Rahmenbedingungen für eine digitale Konversion von Büchern untersucht.
Zum anderen ist die Erschließung der digitalisierten Dokumente ein umfassender und äußerst vielschichtiger Komplex. Sie erstreckt sich von der reinen Bilderfassung über eine Volltexterfassung bis zur Strukturierung der Texte mit SGML (Standard Generalized Markup Language) oder der Umwandlung in das Austauschformat PDF (Portable Document Format). Die speziell auch im angloamerikanischen Bereich angewandte Strukturierung von digitalisierten Dokumenten in SGML richtet sich dabei zunehmend nach den jüngst entwickelten Richtlinien der TEI (Text Encoding Initiative), die ein sorgfältig ausdifferenziertes Beschreibungsinstrumentarium für elektronische Texte zur Verfügung stellen. Derart strukturiert werden hier im übrigen nicht nur die Dokumente selbst, sondern auch die sog. ‘finding aids’, also Katalogeinträge, Register etc.
Im Zusammenhang mit dem Förderprogramm der DFG ist davon auszugehen, daß der Schwerpunkt der Aktivitäten zunächstauf gedruckt vorliegenden Materialien liegen wird.
In einem ersten Schritt werden hierBilder der gedruckten Vorlagen erzeugt. Erfahrungen aus Projekten im Bibliotheksbereich (vgl. DFG Projekt zur Digitalisierung der Titelblätter von Beständen der Bibliothek „Öttingen- Wallerstein"), in denen bereits heute Bild-Digitalisierungen bereitgestellt werden, zeigen, daß der Benutzer großes Interesse an solchen Images hat.
Die zweite Stufe der digitalen Konversion, die Volltexterfassung, ist bei älteren Büchern mit Problemen behaftet. Uneinheitlicher Schriftsatz, Vergilbungen und in neuerer Zeit nur selten verwendete Schriftarten (z.B. Fraktur) bereiten bei einer automatisierten Texterkennung große Schwierigkeiten. Ist das Erstellen einer digitalen Volltextfassung aus diesen Gründen ökonomisch nicht durchführbar, ist der gezielte Zugriff auf einzelne Wörter im Text nicht möglich. Um so größere Bedeutung kommtdaher bei der reinen Bilddigitalisierung einer ergänzenden Erschließung der Texte zu. Über volltextdigitalisierte Inhalts-verzeichnisse und - soweit vorhanden - Register wird dem Benutzerder punktuelle Zugriff auf einzelne Seiten-Bilder ermöglicht.
Langfristiges Ziel wird aber sein, nicht nur diese Materialien zu einem späteren Zeitpunkt als Volltexte zur Verfügung zu stellen sondern möglichst bald, auch in Kooperation mit Verlagen und anderen Inhabern von Rechten, neuere Literatur in eine digitale Forschungs-bibliothek aufzunehmen.
Der vorliegende Bericht legt als Grundschema bei der Behandlung
technischer Detailfragen die einzelnen Schritte bei der Durchführung
eines Digitalisierungsvorhabens zugrunde:
- 1. Digitales Erfassen
2. Speichern
3. Erschließen und Verwalten
4. Suchen und Zugreifen
5. Bereitstellen und Nutzen
6. Rechteverwaltung
Im folgenden wird ausführlich auf die Themenbereiche 1 bis 5 eingegangen.
Mit dem Bereich 6, der Rechteverwaltung, wird man sich zu einem späteren
Zeitpunkt eingehend befassen.
1 Digitales Erfassen
1.1 Scanner- Der Scanner ist ein Lesegerät, das über eine geeignete Software
(gedruckte) Vorlagen für die Weiterverarbeitung mit einem Computer
in maschinenlesbare Form umwandelt [2]
Er wird als Peripheriegerät an den Computer angeschlossen. Dabei ist es von Vorteil, wenn er über eine SCSI-Schnittstelle als Subsystem angesteuert werden kann. Diese Schnittstelle - zur Zeit SCSI-2 - erlaubt neben dem gleichzeitigen Anschluß mehrerer intelligenter Subsysteme auch die unproblematische Anbindung dieser Systeme an den Computer. Für den Einsatzzweck der Digitalisierung ist zudem die hohe Übertragungsgeschwindigkeit der Daten von Bedeutung.
Die durch den Scanner erzeugten Bilder oder Images werden in Pixel (Bildpunkte) zerlegt. Für die Strukturierung dieser Images gibt es eine Vielzahl unterschiedlicher Formate, auf die an anderer Stelle noch ausführlich eingegangen wird.
Scanner sind in unterschiedlicher Ausprägung mit jeweils
spezifischen Funktionalitäten und in allen Preisklassen auf dem Markt:
Handscanner, Flachbettscanner, Einzugscanner und Trommelscanner [3]
In jüngster Zeit wurde diese Palette um einen neuen Typ bereichert,
den sog. Buch- oder Aufsichtscanner.
- Der Handscanner, praktisch aufgrund seiner Größe und, wie
ein Laptop, gut zu transportieren, kann beim Scannen mit einer Auflösung
von bis zu 400 dpi bereits durchaus respektable Leistungen erbringen und
auch für farbige Vorlagen eingesetzt werden. Aufgrund seiner geringen
Lesebreite (maximal ca. 11 cm) ist er für die Digitalisierung größerer
Textmengen ungeeignet sowie aus Gründen der Bestandserhaltung (direkte
Berührung) bedenklich.
Flachbettscanner
- Der Flachbettscanner hat von der Form her die größte Ähnlichkeit
mit einem kleinen Bürokopierer. Die Vorlage wird auf eine Glasplatte
gelegt, ein Schrittmotor bewegt eine Sensoreneinheit (CCD-Zeile) samt Optik
zum Abtasten an den aufgelegten Materialien vorbei. Das Scannen von farbigen
Vorlagen bereitet keine Probleme, Auflösungen von 600 dpi sind keine
Seltenheit mehr. Durch Interpolation können bis zu 2400 dpi erreicht
werden. Neben dem gängigen A4-Scanner werden auch A3- und in Sonderfällen
A0-Modelle angeboten.
Wie der Kopierer auch hat der Flachbettscanner beim Einsatz für
das Scannen von Büchern einen großen Nachteil: da die Vorlagen
möglichst dicht auf die Glasplatte aufgelegt werden müssen, ist
ein gewisser Druck auf den Buchrücken unvermeidlich. Dieser nicht
gerade schonende Umgang mag bei neuerer Literatur noch hingenommen werden;
für die geplante Digitalisierung älterer, in der Erhaltung gefährdeter
oder besonders schützenswerter Bücher ist dieser Typ des Scanners
sicher nicht einsetzbar.
Einzugscanner
- Während beim Flachbettscanner die Abtasteinheit an der Vorlage
vorbeigeführt wird, ist es beim Einzugscanner die Vorlage, die bewegt
wird. Bezüglich Auflösung und Farbscannen kann man sie in etwa
mit dem Flachbettscanner vergleichen. Sie können in der Regel Vorlagen
im Format A3 verarbeiten, möglich sind Formate bis A0.
Die Stärke des Einzugscanners liegt in der Möglichkeit
der raschen Verarbeitung großer Mengen. Können die Vorlagen
für den Einzelblatteinzug aufbereitet werden (z.B. durch das Aufschneiden
von Zeitschriftenheften), ist dieser Scannertyp für die Massendigitalisierung
sicher eine gute Wahl.
Trommelscanner
- Der Trommelscanner wird heute in erster Linie bei der professionellen
Bildverarbeitung im Reprobereich eingesetzt und kann extrem hohe Auflösungen
(bis 4000 dpi) erreichen. Für das Scannen von Büchern ist seine
Mechanik, die das Spannen der Vorlage auf eine Trommel erfordert, nicht
geeignet.
Buch- oder Aufsichtscanner
- Der jüngste unter den oben genannten Scannertypen ist der Buch-
oder Aufsichtscanner. Beide Namen sind sprechend und bezeichnen zum einen
das Einsatzgebiet dieses Geräts, das Scannen gebundener Bücher,
und zum anderen seine Funktionsweise, das Scannen mit einem Lesekopf von
oben auf das Buch herab.
Bei der Entwicklung dieses Scannertyps hat sicher die technische Ausrüstung für die Mikroverfilmung Pate gestanden. Deutlich wird dies besonders bei dem von der Firma Zeutschel (Tübingen) angebotenen Buchscanner Omniscan 3000 mit Buchwippe. Die Standardausstattung bei dieser Ausführung mit Grundgestell, vertikaler Säule, Beleuchtungsvorrichtung und Buch-Aufnahmewippe mit Glasplatte wird Mikroverfilmern bekannt vorkommen. Zu einem Scanner wird dieses System erst durch den an einer vertikalen Säule oberhalb der Auflage befestigten Scan-Kopf, einen CCD-Zeilenscanner. Dieser stammt von Kodak und wurde dort für den Kodak Imagelink 200-Buchscanner eingesetzt.
Die Art der Ausstattung zeigt, worauf bei diesem Scanner Wert gelegt wurde: die Möglichkeit des schonenden Umgangs mit dem (alten) Buch. Die Buchwippenfunktion ermöglicht lt. Herstellerangabe das Scannen von Büchern mit einer Dicke bis zu 15 cm.
Von Minolta wird der Scanner PS3000 angeboten. Anfänglich nur als geschlossenes System zum Anschluß an einen Digitalkopierer oder Drucker verwandt, gibt es ihn seit kurzem auch mit einer Schnittstelle zur Anbindung an den PC.
Ein Probeeinsatz dieser beiden Scanner in der Fotostelle der SUB Göttingen erbrachte - beim Scannen eines Buches (Oktav-Format) von 300 Seiten (=156 Aufnahmen) - eine Stundenleistung von 156 Scans (Minolta), 104 Scans (Zeutschel o. Buchwippe) und 62,4 Scans (Zeutschel m. Buchwippe).
Ein weiterer Buchscanner wurde im Januar 1997 von der Firma Rank Xerox (XBS, Düsseldorf) auf den Markt gebracht. Funktionalität und Einsatzmöglichkeiten sind prinzipiell der des Minoltaprodukts vergleichbar.
Im Überblick bieten sich die technischen Daten dieser drei
Buchscanner wie folgt dar:
Technische Daten
|
Minolta Buchscanner PS3000
|
Zeutschel (Kodak) Buchscanner Omniscan
3000 mit Buchwippe
|
Xerox Digital Book Scanner
Bookeye |
Vorlagenformat
|
bis DIN A3
|
bis DIN A2
|
bis DIN A3 (optional DIN A2)
|
Vorlagenstärke |
bis 10 cm
|
bis 15 cm
|
bis 10 cm
|
Auflösung
|
400 dpi
|
A3 und A4: 400 dpi
A2: 300 dpi |
300 dpi
|
Scanmodus
|
Text, Photo
|
keine Angabe
|
Text, Photo
|
Bildwiedergabe
|
bitonal s/w; (rechnerisch auch Graustufen)
|
bitonal s/w; (rechnerisch auch Graustufen)
|
bitonal s/w; (rechnerisch auch Graustufen)
|
Scangeschwindigkeit
|
1,27 Sek./A4
|
5 Sek./ A4, ca. 9 Sek./ A3
|
2,5 Sek./ A4, 3,2 Sek./ A3
4,0 Sek./ A2 |
Schnittstelle zum PC
|
z.Zt. Video-Schnittstelle; ISIS-Schnittstelle geplant
|
SCSI 2-Schnittstelle; ISIS-Schnittstelle geplant
|
Fujitsu-kompatible Videoschnitt-stelle (M3097); ISIS-Schnittstelle
wird zur Zeit erprobt
|
Daten-Ausgabe
|
TIFF-G3/G4
|
TIFF-G4
|
TIFF-G4
|
- Als Spezialist für alte Dokumente und Handschriften wird von IBM
der Pro/3000 Kamera-scanner angeboten. Die Firma weist ausdrücklich
auf die spezifische Einsatzmöglichkeit dieses Gerätes hin. So
wurde er beispielsweise für die Digitalisierung alter Handschriften
in der Vatikan-Bibliothek eingesetzt sowie zur Zeit für die Bestände
der Lutherhalle in Wittenberg. Die exzellente Qualität und die präzise
Farbwiedergabe gehen allerdings zu Kosten der Scanzeit. Hier werden ca.
8 Minuten pro Scan gerechnet.
In Schweden wurde für den Einsatz im Archivbereich ein Kamerascanner für bitonale, Halbton- und Farbvorlagen entwickelt, dessen Vorteile vom Hersteller neben dem großen Schärfentiefebereich (bis zu 25 cm) insbesondere in der Möglichkeit zum schnellen Ausdruck gesehen werden, der durch die Verbindung mit einem in Deutschland entwickelten Spezialmodul erreicht wird. Die Bilddaten werden dabei mit einer hohen Auflösung unter Umgehung des internen Drucker-Controllers direkt über ein Hochgeschwindigkeitskoaxialkabel an den Drucker (z.B. HP-Laserjet 4v) geleitet.
Die speziellen Funktionalitäten der beiden hier erwähnten
Scanner schlagen sich allerdings auch im Preis nieder, der bei beiden Scannern
je nach Ausstattung die 100.000 DM-Grenze übersteigen kann.
1.2 Scan- und Bildbearbeitungssoftware
- Jeder der zuvor genannten Buchscanner wird über eine eigene Software
angesteuert, die neben dem Einlesen der Vorlage auch Funktionalitäten
der Bildbearbeitung anbietet. Erwähnt seien beim Einscannen das automatische
Entfernen des Schattens von Falz und Rändern, das Scannen im Text-
und Fotomodus und eine ‘Fingererase’-Funktion. Standardbildbearbeitungsfunktionen
sind Kontrastverbesserung, Drehen, Ausrichten, Skalieren etc.
Weiter Möglichkeiten zur Bearbeitung der Images wie das Schreiben
zusätzlicher Informationen in den TIFF-Header des digitalen Masters,
bietet standardmäßig keines der eingesetzten Programme. Die
SUB Göttingen strebt aus diesem Grund in Kooperation mit einem Systemintegrator,
der Firma Satz-Rechen- Zentrum (SRZ) in Berlin, die Entwicklung einer Scan-
und Bildbearbeitungssoftware an, die alle Erfordernisse der Imageerstellung
und -bearbeitung, wie sie in dem vorliegenden Bericht definiert werden,
erfüllen.
- Die Umwandlung gedruckter Vorlagen in digitale Dokumente ist grundsätzlich
auf zwei Wegen vorstellbar:
1. Die Digitalisierung direkt vom Buch
2. Die Verfilmung des Buches mit anschließender Digitalisierung des Mikrofilms [4]
Ein Blick auf laufende Digitalisierungsvorhaben zeigt, daß beide Verfahren gängig sind. Die Library of Congress hat in ihren Ausschreibungen für externe Scan-Dienstleister detaillierte Konditionen für beide Vorgehensweisen formuliert.
Im Rahmen der nationalen Digitalisierungsinitiative in Australien zu Materialien aus der Zeit von 1840-1845 wird grundsätzlich der Weg über die Mikroverfilmung gegangen.
Vorhandene oder eigens für den Zweck der Digitalisierung erstellte Mikrofilme lassen sich vergleichsweise kostengünstig mit Hilfe spezieller Mikrofilmscanner digitalisieren. Die Filmdigitalisierung wird als Serviceleistung angeboten. Die Digitalisierung vom Mikrofilm führt zu besonders guten Ergebnissen und läßt sich besonders wirtschaftlich durchführen, wenn bei der Erstellung der Mikroformen und bei der Filmdigitalisierungselbst die entsprechenden Hinweise der Arbeitsgruppe „Digitalisierung" des Unterausschusses Bestandserhaltung der Deutschen Forschungsgemeinschaft beachtet werden. [5] So sollen als Mikroform Rollfilme 35mm möglichst mit Bildmarken (Blips) verwendet werden, die weitgehend automatisch digitalisiert werden können. Die Filme sollen mindestens eine den DIN-Normen entsprechende Qualität hinsichtlich der Filmdichte und der Wiedergabeschärfe (Lesbarkeit) aufweisen. Die einheitliche Ausrichtung und Positionierung der Vorlagen (Bücher) und ein einheitlicher Verkleinerungsfaktor über einen kompletten Film hinweg fördern einen weitgehend automatischen und damit rationellen Digitalisierungsvorgang. Schließlich erleichtert eine gute Strukturierung des Mikrofilms mit einer durchdachten Filmorganisation und Aufnahmedokumentation die mit der Digitalisierung zu verbindende formale und inhaltliche Aufbereitung der digitalisierten Images.
Da ordnungsgemäß verarbeitete Mikrofilme auf Polyesterunterlage als alterungsbeständige Informationsträger gelten,soll immer dann über die Zwischenstufe des Mikrofilms digitalisiert werden, wenn damit zugleich Sicherungs-, Schutz oder Erhaltungszwecke für Objekte verfolgt werden, die in ihrer Erhaltung gefährdet oder bereits beschädigt sind.Darüber hinaus kann es sich als wirtschaftlicher erweisen, insbesondere Bücher und andere Vorlagen, die nicht mit Flachbett- oder Einzugscannern rationell verarbeitet werden können,über die Zwischenstufe des Mikrofilms zu digitalisieren, da beim heutigen Preisgefüge bei solchen Objekten die Filmdigitalisierungskosten zuzüglich der Verfilmungskosten vielfach unter den Kosten für die unmittelbare Digitalisierung liegen.Der zusätzlich entstandene hochwertige Mikrofilm steht auch in diesen Fällen als relativ anspruchslos zu lagernder analoger Langzeitspeicher zur Verfügung, der unter anderem beliebig oft zur Digitalisierung und ggf. zusätzlich für den Zweck der Fernleihe herange-zogen werden kann.
Bei der Erstellung des Mikrofilms wird zukünftig auch verstärkt die Entwicklung der COM (Computer Output on Microfilm)-Techniken zu berücksichtigen sein. Diese sieht zunächst eine qualitativ hochwertige Digitalisierung, dann die Konversion der digitalen Vorlage auf Mikrofilm vor. [6]
Prinzipiell sollte jedes Buch, nicht zuletzt aus konservatorischen und
ökonomischen Gründen, nur einmal gescannt oder verfilmt werden.
Die Qualität der erstellten Images muß demnach so beschaffen
sein, daß eine etwaige Weiterverarbeitung wie Komprimierung und Konvertierung,
aber auch die Bearbeitung mit einer Texterkennungssoftware, von diesen
‘Erst-’ bzw. ‘Einmal-’scans vorgenommen werden kann. Unterschiedliche Versionen
sind deshalb von einer Vorlage zu erstellen.
- Die Entscheidung über die zu wählende Auflösung sollte
grundsätzlich im Zusammenhang mit der geplanten Verwendung der Scans
und der Art der zu digitalisierenden Vorlage gesehen werden. Die Arbeitsgruppe
„Digitalisierung" hat in ihrem Abschlußbericht in Anlehnung an amerikanische
Veröffentlichungen vorgeschlagen,beim Digitalisieren vom Original
oder vom Mikrofilm die Auflösung von der Schriftzeichengröße
der Vorlagen abhängig zu machen. [7]
Sie orientiert sich dabei an dem für die Beurteilung der Wiedergabequalität
graphischer Zeichen international gebräuchlichen Quality Index (QI)
und schlägt vor, für die Präsentation von Images unter Berücksichtigung
der Speicheranforderungen eine mittlere Qualität (QI=5) festzulegen.
In Verbindung mit normalem Schriftgut und gängigen Druckwerken sollen
demnach beim bitonalen Digitalisieren Auflösungen von mindestens 300
dpi angestrebt werden.
Technisch möglich und in großen amerikanischen Digitalisierungsprojekten als Standard angestrebt wird für s/w-Vorlagen eine Auflösung von 600 dpi. [8] Diese Auflösung stellt sicher, daß das Digitalisat als Grundlage für andere Ausgabeformen von hoher Qualität (hochqualitativer Ausdruck, COM) dienen kann.
Beim Digitalisieren mit Graustufen sollten Auflösungen zwischen 250 und 300 dpi gewählt werden, Farbvorlagen benötigen eine vergleichbare Qualität.
Wird zu einem späteren Zeitpunkt die Behandlung der digitalisierten Dokumente mit einer Texterkennungssoftware nicht ausgeschlossen, wird eine Auflösung von mindestens 400 dpi empfohlen. Tests, unter anderem an dem renommierten Electronic Text Center an der University of Virginia, haben hier eindeutig ergeben, daß gerade kleine Schriftgrößen bei einer Bearbeitung mit OCR-Software im Falle von 400 dpi deutlich besser erkannt werden als bei 300 dpi. [9]
Beim Digitalisieren von Fotografien sind je nach Detailreichtum geringere
Auflösungen ausreichend oder höhere Auflösungen (bis 600
dpi) erforderlich.Wichtiger ist dabei allerdings die Digitalisierung mit
Graustufen. Bei gerasterten Abbildungen in Büchern darf die Auflösung
beim Digitalisieren die Rasterauflösung nicht überschreiten.
- Beim Scannen direkt vom Buch (bitonal s/w) wird in der Regel mit einer
Farbtiefe von 1 bit per Pixel gearbeitet werden. Handschriften, Zeichnungen
mit Bleistift oder Farbstift, (auch Bleistiftanmerkungen in Verbindung
mit gedruckten Texten), Schreibmaschinenschrift mit Gewebefarbbändern,
farbige Illustrationen und Zeichnungen, Darstellungen mit verschiedenen
Grauabstufungen und Fotografien in schwarz-weiß oder Farbe sollen
je nach Vorlage mit 16 oder 256 Graustufen digitalisiert werden. Entsprechendes
gilt für die Digitalisierung vom Mikrofilm. [10]
Sollen Grautöne (Handschriften usw.) vom üblichen panchromatischen
AHU-Mikrofilm wiedergegeben werden, der den Kontrast von vornherein steigert,
genügt in der Regel eine Digitalisierung mit 16 Graustufen (4 Bit).
Wird von einem Halbton-Mikrofilm mit feiner Grauabstufung digitalisiert,
sollen 256 Graustufen (8 Bit) dargestellt werden. Allgemein gilt, daß
beim Digitalisieren mit Graustufen die Auflösung bei gleicher Wiedergabequalität
reduziert werden kann.
- Die Bandbreite der möglichen Dateiformate für Images ist
beeindruckend. Leistungsfähige Viewer- Software mit Lesemöglichkeiten
für mindestens 20 unterschiedliche Formate ist inzwischen Standard.
Hinzu kommen die verschiedenen Versionen ein- und desselben Formats, die,
ähnlich wie bei Softwareupgrades, von einigen Firmen für ihre
Produkte in gewissen Abständen auf den Markt gebracht werden.
Eine klare Unterscheidung ist zwischen dem beim Einscannen mit hohem Qualitätsanspruch erstellten Image und den zum späteren Zeitpunkt über das Internet zur Verfügung gestellten Bildern zu treffen. Das Scan-Image übernimmt im Rahmen der Retrodigitalisierung die Funktion eines „digitalen Masters", der auf geeigneten Speichermedien zur langfristigen Verwendung abgelegt wird und im Zuge einer Pflegeroutine in regelmäßigen Abständen auf Lesbarkeit und Kompatibilität zu überprüfen ist. Unter dem Gesichtspunkt der Langfristarchivierung des digitalen Masters ist bei der Auswahl eines Dateiformats unbedingt darauf zu achten, daß auf Standards zurückgegriffen wird, die im Rahmen späterer Konvertierungsvorhaben ohne nennenswerte Probleme der neuen Systemumgebung angepaßt werden können.
Das Image, welches der Benutzer auf Anforderung am Bildschirm sieht, wird durch Konvertierungsläufe vom digitalen Master erstellt und kann niedrigeren Qualitätsanfor-derungen genügen als die Archivierungsversion.
Eine weitere Version kann für das Herunterladen ganzer Image-Dokumente
erstellt werden. Diese Download- Version ist für den Benutzer, der
den online-Text ständig verfügbar haben möchte, von großer
Bedeutung. Vor dem Hintergrund bekannter Netzleitungsprobleme bezüglich
des Datendurchsatzes ist es ihm auf diesem Wege möglich, den gewünschten
Text auf dem eigenen Arbeitsplatzrechner lokal gespeichert zu halten.
- Die Anforderungen, die an den digitalen Master gestellt werden, sind
aus der Art der Digitalisierungsvorlagen abzuleiten. Das Hauptaugenmerk
der AG Technik war hier auf Textmaterialien, in erster Linie also auf bitonale
(s/w) Vorlagen gerichtet. Eine verbindliche Empfehlung für ein
Dateiformat des digitalen Masters abzugeben, hält die AG Technik zum
jetzigen Zeitpunkt nicht für angebracht, da sich auf diesem Gebiet
ein möglicher Wechsel der bisherigen Standards andeutet.
Das TIFF-Format [11]
- Für bitonale Vorlagen hat sich in der Praxis das von der Firma
Aldus entwickelte TIFF-Rasterformat zu einer Art quasi- Standard herauskristallisiert.
Reizvoll für viele Anwender ist dabei wohl besonders die Möglichkeit,
der einzelnen Imagedatei Informationen beizugeben, die in das ‘Image File
Directory’ der Datei geschrieben werden. Diese Informationen sind, wie
auch der Name des Formats sagt, nach Kategorien gegliedert. In der zur
Zeit aktuellen Version 6.0 (in der Spezifikation von Juni 1992), [12]
gibt es über 90 Kategorien, in denen Informationen zum Image untergebracht
werden können (zur Auflösung, Farbtiefe, Größe etc.).
Einige Felder sehen dabei auch die Aufnahme von Informationen im ASCII-Format
vor. (In Anlage
1 befindet sich eine Übersicht über die Kategorien, die bei
der Imageerstellung belegt werden sollten.) Die Library of Congress empfiehlt
aus diesem Grunde TIFF als Format für die Archivierung bitonaler Images
von Handschriften und gedruckten Vorlagen.
Da sich die Verwendung des unkomprimierten TIFFs aufgrund der zu bewältigenden
Speichermengen für die Archivierung großer Textmengen nicht
eignet (1 s/w A4-Seite unkomprimiertes TIFF bei 400 dpi Auflösung
= ca. 2 Mb) , wird die Verwendung der verlustfreien (Fax)-Komprimierung
Gruppe 4 (Standard der ehemaligen CCITT, heute ITU) empfohlen. Die Größe
einer Imagedatei bei dieser Komprimierung liegt dann zwischen 100 und 150
Kb.
Das PNG-Format
- In der jüngsten Zeit ist ein neues Dateiformat für Rasterimages
dabei, die Welt des World Wide Web zu erobern. Portable Network Graphics
(PNG, sprich: PING) wurde von einer Gruppe von Graphik- und Programmierungsspezialisten
unter der Leitung des WWW Consortium (W3C) - Mitglieds Chris Lilley entwickelt.
[13]
Hintergrund der Entwicklung ist der Erwerb des Patentrechts für das
gängige LZW-Komprimierungsverfahren durch die Unisys Corp., die in
der Folge Lizenzgebühren von den Anbietern forderte, die ihre Images
im kommerziellen Bereich einsetzten. Die so lizenzierte Komprimierungsform
wird beispielsweise bei dem Grafikaustauschformat GIF eingesetzt und ebenfalls
bei der Komprimierung von TIFF-Dateien, wenn es sich um Farbimages handelt.
Die Beachtung von PNG empfiehlt sich insbesondere vor dem Hintergrund einer Quasi-Standardsetzung dieses Format für den Datentransfer im Internet durch die jüngsten offiziellen Empfehlungen der Internet Engineering Task Force (IETF) und des World Wide Web Consortiums (W3C). Neben dieser offiziellen Empfehlung und der Tatsache, daß PNG vollständig in den Bereich ‘Public Domain’ fällt, gibt es auch technische Gründe, die für eine Verwendung von PNG als Dateiformat für den digitalen Master sprechen. So bietet PNG bei Farbvorlagen eine Farbtiefe von bis zu 48 Bits und für Graustufen 16 Bits an (zum Vergleich: TIFF bietet 24 Bits bei Farbe und 8 Bits bei Graustufen). Man sollte in diesem Zusammenhang jedoch darauf hinweisen, daß die bisher angebotene Farbtiefe im Normalfall sicher ausreicht. Im Bereich der Komprimierung scheint die bei PNG eingesetzte DEFLATE-Komprimierung für bitonale Vorlagen effektiver zu sein als Fax Gruppe 4 bei TIFF. Die Komprimierung für Farbimages kann darüber hinaus in der Zukunft zu Lizenzproblemen führen, weil TIFF hier das bereits erwähnte LZW-Verfahren anwendet.
Für TIFF als digitalen Master, jedenfalls bei der Digitalisierung von bitonalen Vorlagen, spricht hingegen weiterhin die oben beschriebene Möglichkeit der umfangreichen Informationsmitgabe in die Imagedatei selbst, was in diesem Umfang und in der strukturierten Form bei PNG nicht möglich ist.
Aus Sicht der Arbeitsgruppe kommen beide genannten Formate für
Digitalisierungsvorhaben in Frage, wobei TIFF bei abgeschlossenen und derzeit
laufenden Digitalisierungsvor-haben mit Abstand am häufigsten eingesetzt
wird.
[Letztmalige Aktualisierung: 16.10.1998 / am]