SUB-Logo


 

"Retrospektive Digitalisierung von Bibliotheksbeständen"

Bericht der Arbeitsgruppe Technik zur Vorbereitung des Programms "Retrospektive Digitalisierung von Bibliotheksbeständen" im Förderbereich "Verteilte Digitale Forschungsbibliothek"

 

Mitglieder der Arbeitsgruppe:

    Prof. Dr. Rudolf Bayer, Technische Universität München, Fakultät für Informatik

     Dr. Jürgen Bunzel, Deutsche Forschungsgemeinschaft, Bonn

     Dr. Marianne Dörr, Bayerische Staatsbibliothek München

     Dr. Reinhard Ecker, Beilstein-Institut bzw. ABC Datenservice GmbH, Frankfurt/Main

     Dipl.-Math. Heinz-Werner Hoffmann, Hochschulbibliothekszentrum NRW, Köln (als Gast für die AG der Verbundsysteme)

     Dr. Norbert Lossau, Niedersächsische Staats- und Universitätsbibliothek Göttingen (DFG-Projekt 'Verteilte Digitale Forschungsbibliothek')

     Prof. Dr. Elmar Mittler, Niedersächsische Staats- und Universitätsbibliothek Göttingen

     Dipl.-Inf. Christian Mönch, FB Informatik der J.W. Goethe-Universität Frankfurt

     Dr. Wilhelm R. Schmidt, Stadt- und Universitätsbibliothek Frankfurt

     Dr. Hartmut Weber, Landesarchivdirektion, Stuttgart
     
     

Arbeitssitzungen am 14. Mai 1996 (Frankfurt a. M.), 29.-30. Juli 1996 (München), 12.-13. Dezember 1996 (Göttingen)

 Redaktion: Dr. Norbert Lossau (letzte Überarbeitung September 1997)
 



Inhalt



Die Retrodigitalisierung von Bibliotheksbeständen

    Der Bibliotheksausschuß und die Kommission für Rechenanlagen der Deutschen Forschungsgemeinschaft (DFG) haben sich in ihren gemeinsamen Empfehlungen „Neue Informations-Infrastrukturen für Forschung und Lehre" dafür ausgesprochen,die Nutzung der neuen Kommunikations- und Publikationstechniken zur Verbesserung der wissenschaftlichen Arbeitsbedingungen beim Zugriff und bei der Verarbeitung von Literatur, sowie von wissenschaftlichen Daten und Informationenverstärkt zu fördern. Um elektronische Texte direkt am Arbeitsplatz des Wissenschaftlers bereitzustellen soll in einem Kernbereich der Förderung wissenschaftliche Forschungsliteratur aus den Beständen von Bibliotheken digitalisiert und über Kommunikationsnetze zugänglich gemacht werden.

     Zur Vorbereitung des neuen Programms der retrospektiven Digitalisierung wurde eine AG Technik ins Leben gerufen. Ihre Aufgabe ist die Bewertung der heute zur Verfügung stehenden technischen Möglichkeiten zur Digitalisierung, Speicherung, Verwaltung und Bereitstellung von digitalen Dokumenten. Die ersten Ergebnisse dieser Untersuchung wurden in dem vorliegendenBericht zusammengefaßt und sollen potentiellen Antragstellern des neuen Förderprogramms als konkrete Hilfestellung dienen.
     
     

Einführung

    Das Angebot an Bibliotheksmaterialien in elektronischer Form hat in den letzten Jahren in beträchtlichem Umfang zugenommen. Die Fragestellung, ob Publikationen nur in elektronischer Form, als Druck und in elektronischer Form oder nur als Druck vorliegen sollen, wird in zunehmendem Maße Thema der bibliothekarischen wie der fachwissenschaftlichen Diskussion. Dabei kann man bei der Literatur aus jüngster Zeit davon ausgehen, daß sie in der Regel bereits bei der Entstehung, spätestens aber für den Druck, in elektronische Form gebracht wird. In zunehmendem Umfang wird aber auch verlangt, bereits gedruckt vorliegende Literatur älterer Jahrgänge direkt am (EDV-) Arbeitsplatz verfügbar zu haben. Der räumlich und zeitlich unbegrenzte Zugriff auf solche ansonsten vielleicht nur schwer beschaffbare oder häufig nachgefragte Bibliotheksbestände kann so realisiert werden.

     Das neue Förderprogramm hat deshalb seinen Schwerpunkt dezidiert auf die retrospektive Digitalisierung von Bibliotheksbeständen gelegt.

     Der Aufbau einer Verteilten Digitalen Forschungsbibliothek (VDF) bedeutet für deutsche Bibliotheken in technischer und organisatorischer Hinsicht das Betreten von Neuland. Ziel ist es, die Ergebnisse der Digitalisierungsprojekte für Forschung und Studium möglichst rasch und umfassend zugänglich zu machen, um die Akzeptanz dieser neuen Bibliotheksdienstleistung zu demonstrieren und die Dienste in Reaktion auf Benutzerbedarf und Benutzungsanforderungen sukzessive weiter zu verbessern. 

    Technische Grundlage für die Bereitstellung digitalisierter Bibliotheksbestände werden in erster Linie Dokumentmanagementsysteme (DMS) und Multimedia-Ausstattungen sein, die zukünftig zum standardmäßigen Funktionsumfang lokaler Bibliothekssysteme gehören werden. Beschaffungsmittel für solche Ausstattungen sind im Hochschulsonderprogramm III ausgewiesen. 

    Ein wichtiges Ziel ist es jedoch, von vornherein auch einen integrierten und einheitlichen Zugriff auf die Gesamtheit der digitalisierten Bestände zu ermöglichen. Dies erfordert die Föderation der unterschiedlichen lokalen Lösungen im Kontext einer verteilten digitalen Bibliothek. Hierfür müssen gemeinsame Konventionen und „good practices" vereinbart werden.

     Gerade für kleinere Einrichtungen wird es nicht immer möglich sein, rasch die erforderlichen lokalen Systemausstattungen zu schaffen und aus eigener Kraft das erforderliche Know-How aufzubauen.

     Daher kommt insbesondere in der Anfangsphase der Entwicklung sogenannten Service- und Kompetenzzentren eine besondere Bedeutung zu, wie auch Erfahrungen aus bereits laufenden Digitalisierungsinitiativen in den Vereinigten Staaten, Großbritannien, Frankreich oder Australien zeigen.[1]

    Der Aufbau derartiger Zentren ist an der Staats- und Universitätsbibliothek (SUB) Göttingen und der Bayerischen Staatsbibliothek (BSB) München vorgesehen. Zu den Aufgaben der Kompetenzzentren zählen u.a.:
     
     

    • Aufbau einer Basis-Infrastruktur zur raschen, überregionalen Bereitstellung der Ergebnisse von Digitalisierungsprojekten im Internet,

    •  

       

    • Aufbau prototypischer Systeme für Dokumenten-Management und Präsentation der „Verteilten Digitalen Forschungsbibliothek" im WWW,

    •  

       

    • Verknüpfung der „Verteilten Digitalen Forschungsbibliothek" mit den vorhandenen Bibliotheksverbundsystemen,

    •  

       

    • Anpassung und Weiterentwicklung vorhandener Systeme,

    •  

       

    • Initiativfunktion bei der Vereinbarung von Konventionen, Standards und „good practices",

    •  

       

    • Einbindung lokaler Lösungen in das Gesamtsystem einer „Verteilten Digitalen Forschungsbibliothek",

    •  

       

    • Sicherung der dauerhaften überregionalen Bereitstellung der digitalen Dokumente

    •  

       

    Zudem stehen sie als Ansprechpartner für andere Bibliotheken und Institutionen im Bereich der retrospektiven Digitalisierung von Bibliotheksmaterialien zur Verfügung.

     In diesem Zuammenhang ist auch die Bedeutung der kooperativen Zusammenarbeit aller Beteiligten beim Aufbau der VDF hervorzuheben. Der Leitgedanke einer „National Digital Library Initiative", wie er sich in den Vereinigten Staaten im Rahmen der nationalen Digitalisierungsinitiative entwickelt hat, sollte auch für die deutsche Initiative tragend werden. 

    Unter Beachtung der Komplexität des gesamten Bereiches der Digitalisierung hat sich die AG Technik entschlossen, in dem vorliegendenBericht gewisse Schwerpunkte zu setzen. Diese betreffen zum einen die Bibliotheksmaterialien, zu denen Aussagen getroffen werden. Es erscheint zum jetzigen Zeitpunkt nicht möglich, auf die ganze Vielfalt dieser Materialien einzugehen (Photos, Karten, Bildvorlagen etc.). Es werden daher in erster Linie die technischen Rahmenbedingungen für eine digitale Konversion von Büchern untersucht.

     Zum anderen ist die Erschließung der digitalisierten Dokumente ein umfassender und äußerst vielschichtiger Komplex. Sie erstreckt sich von der reinen Bilderfassung über eine Volltexterfassung bis zur Strukturierung der Texte mit SGML (Standard Generalized Markup Language) oder der Umwandlung in das Austauschformat PDF (Portable Document Format). Die speziell auch im angloamerikanischen Bereich angewandte Strukturierung von digitalisierten Dokumenten in SGML richtet sich dabei zunehmend nach den jüngst entwickelten Richtlinien der TEI (Text Encoding Initiative), die ein sorgfältig ausdifferenziertes Beschreibungsinstrumentarium für elektronische Texte zur Verfügung stellen. Derart strukturiert werden hier im übrigen nicht nur die Dokumente selbst, sondern auch die sog. ‘finding aids’, also Katalogeinträge, Register etc. 

    Im Zusammenhang mit dem Förderprogramm der DFG ist davon auszugehen, daß der Schwerpunkt der Aktivitäten zunächstauf gedruckt vorliegenden Materialien liegen wird.

     In einem ersten Schritt werden hierBilder der gedruckten Vorlagen erzeugt. Erfahrungen aus Projekten im Bibliotheksbereich (vgl. DFG Projekt zur Digitalisierung der Titelblätter von Beständen der Bibliothek „Öttingen- Wallerstein"), in denen bereits heute Bild-Digitalisierungen bereitgestellt werden, zeigen, daß der Benutzer großes Interesse an solchen Images hat.

     Die zweite Stufe der digitalen Konversion, die Volltexterfassung, ist bei älteren Büchern mit Problemen behaftet. Uneinheitlicher Schriftsatz, Vergilbungen und in neuerer Zeit nur selten verwendete Schriftarten (z.B. Fraktur) bereiten bei einer automatisierten Texterkennung große Schwierigkeiten. Ist das Erstellen einer digitalen Volltextfassung aus diesen Gründen ökonomisch nicht durchführbar, ist der gezielte Zugriff auf einzelne Wörter im Text nicht möglich. Um so größere Bedeutung kommtdaher bei der reinen Bilddigitalisierung einer ergänzenden Erschließung der Texte zu. Über volltextdigitalisierte Inhalts-verzeichnisse und - soweit vorhanden - Register wird dem Benutzerder punktuelle Zugriff auf einzelne Seiten-Bilder ermöglicht.

     Langfristiges Ziel wird aber sein, nicht nur diese Materialien zu einem späteren Zeitpunkt als Volltexte zur Verfügung zu stellen sondern möglichst bald, auch in Kooperation mit Verlagen und anderen Inhabern von Rechten, neuere Literatur in eine digitale Forschungs-bibliothek aufzunehmen.

     Der vorliegende Bericht legt als Grundschema bei der Behandlung technischer Detailfragen die einzelnen Schritte bei der Durchführung eines Digitalisierungsvorhabens zugrunde:
     
     

      1. Digitales Erfassen

       2. Speichern

       3. Erschließen und Verwalten

       4. Suchen und Zugreifen

       5. Bereitstellen und Nutzen

       6. Rechteverwaltung
       
       

    Im folgenden wird ausführlich auf die Themenbereiche 1 bis 5 eingegangen. Mit dem Bereich 6, der Rechteverwaltung, wird man sich zu einem späteren Zeitpunkt eingehend befassen.
     
     

1 Digitales Erfassen

1.1 Scanner
 
 
    Der Scanner ist ein Lesegerät, das über eine geeignete Software (gedruckte) Vorlagen für die Weiterverarbeitung mit einem Computer in maschinenlesbare Form umwandelt [2]

     Er wird als Peripheriegerät an den Computer angeschlossen. Dabei ist es von Vorteil, wenn er über eine SCSI-Schnittstelle als Subsystem angesteuert werden kann. Diese Schnittstelle - zur Zeit SCSI-2 - erlaubt neben dem gleichzeitigen Anschluß mehrerer intelligenter Subsysteme auch die unproblematische Anbindung dieser Systeme an den Computer. Für den Einsatzzweck der Digitalisierung ist zudem die hohe Übertragungsgeschwindigkeit der Daten von Bedeutung.

     Die durch den Scanner erzeugten Bilder oder Images werden in Pixel (Bildpunkte) zerlegt. Für die Strukturierung dieser Images gibt es eine Vielzahl unterschiedlicher Formate, auf die an anderer Stelle noch ausführlich eingegangen wird.

     Scanner sind in unterschiedlicher Ausprägung mit jeweils spezifischen Funktionalitäten und in allen Preisklassen auf dem Markt: Handscanner, Flachbettscanner, Einzugscanner und Trommelscanner [3] In jüngster Zeit wurde diese Palette um einen neuen Typ bereichert, den sog. Buch- oder Aufsichtscanner.
     
     

Handscanner
 
 
    Der Handscanner, praktisch aufgrund seiner Größe und, wie ein Laptop, gut zu transportieren, kann beim Scannen mit einer Auflösung von bis zu 400 dpi bereits durchaus respektable Leistungen erbringen und auch für farbige Vorlagen eingesetzt werden. Aufgrund seiner geringen Lesebreite (maximal ca. 11 cm) ist er für die Digitalisierung größerer Textmengen ungeeignet sowie aus Gründen der Bestandserhaltung (direkte Berührung) bedenklich.
     
     

Flachbettscanner
 
 

    Der Flachbettscanner hat von der Form her die größte Ähnlichkeit mit einem kleinen Bürokopierer. Die Vorlage wird auf eine Glasplatte gelegt, ein Schrittmotor bewegt eine Sensoreneinheit (CCD-Zeile) samt Optik zum Abtasten an den aufgelegten Materialien vorbei. Das Scannen von farbigen Vorlagen bereitet keine Probleme, Auflösungen von 600 dpi sind keine Seltenheit mehr. Durch Interpolation können bis zu 2400 dpi erreicht werden. Neben dem gängigen A4-Scanner werden auch A3- und in Sonderfällen A0-Modelle angeboten. 

    Wie der Kopierer auch hat der Flachbettscanner beim Einsatz für das Scannen von Büchern einen großen Nachteil: da die Vorlagen möglichst dicht auf die Glasplatte aufgelegt werden müssen, ist ein gewisser Druck auf den Buchrücken unvermeidlich. Dieser nicht gerade schonende Umgang mag bei neuerer Literatur noch hingenommen werden; für die geplante Digitalisierung älterer, in der Erhaltung gefährdeter oder besonders schützenswerter Bücher ist dieser Typ des Scanners sicher nicht einsetzbar.
     
     

Einzugscanner
 
 

    Während beim Flachbettscanner die Abtasteinheit an der Vorlage vorbeigeführt wird, ist es beim Einzugscanner die Vorlage, die bewegt wird. Bezüglich Auflösung und Farbscannen kann man sie in etwa mit dem Flachbettscanner vergleichen. Sie können in der Regel Vorlagen im Format A3 verarbeiten, möglich sind Formate bis A0.

     Die Stärke des Einzugscanners liegt in der Möglichkeit der raschen Verarbeitung großer Mengen. Können die Vorlagen für den Einzelblatteinzug aufbereitet werden (z.B. durch das Aufschneiden von Zeitschriftenheften), ist dieser Scannertyp für die Massendigitalisierung sicher eine gute Wahl. 
     
     

Trommelscanner
 
 

    Der Trommelscanner wird heute in erster Linie bei der professionellen Bildverarbeitung im Reprobereich eingesetzt und kann extrem hohe Auflösungen (bis 4000 dpi) erreichen. Für das Scannen von Büchern ist seine Mechanik, die das Spannen der Vorlage auf eine Trommel erfordert, nicht geeignet.
     
     

Buch- oder Aufsichtscanner
 
 

    Der jüngste unter den oben genannten Scannertypen ist der Buch- oder Aufsichtscanner. Beide Namen sind sprechend und bezeichnen zum einen das Einsatzgebiet dieses Geräts, das Scannen gebundener Bücher, und zum anderen seine Funktionsweise, das Scannen mit einem Lesekopf von oben auf das Buch herab.

     Bei der Entwicklung dieses Scannertyps hat sicher die technische Ausrüstung für die Mikroverfilmung Pate gestanden. Deutlich wird dies besonders bei dem von der Firma Zeutschel (Tübingen) angebotenen Buchscanner Omniscan 3000 mit Buchwippe. Die Standardausstattung bei dieser Ausführung mit Grundgestell, vertikaler Säule, Beleuchtungsvorrichtung und Buch-Aufnahmewippe mit Glasplatte wird Mikroverfilmern bekannt vorkommen. Zu einem Scanner wird dieses System erst durch den an einer vertikalen Säule oberhalb der Auflage befestigten Scan-Kopf, einen CCD-Zeilenscanner. Dieser stammt von Kodak und wurde dort für den Kodak Imagelink 200-Buchscanner eingesetzt.

     Die Art der Ausstattung zeigt, worauf bei diesem Scanner Wert gelegt wurde: die Möglichkeit des schonenden Umgangs mit dem (alten) Buch. Die Buchwippenfunktion ermöglicht lt. Herstellerangabe das Scannen von Büchern mit einer Dicke bis zu 15 cm.

     Von Minolta wird der Scanner PS3000 angeboten. Anfänglich nur als geschlossenes System zum Anschluß an einen Digitalkopierer oder Drucker verwandt, gibt es ihn seit kurzem auch mit einer Schnittstelle zur Anbindung an den PC.

     Ein Probeeinsatz dieser beiden Scanner in der Fotostelle der SUB Göttingen erbrachte - beim Scannen eines Buches (Oktav-Format) von 300 Seiten (=156 Aufnahmen) - eine Stundenleistung von 156 Scans (Minolta), 104 Scans (Zeutschel o. Buchwippe) und 62,4 Scans (Zeutschel m. Buchwippe). 

Ein weiterer Buchscanner wurde im Januar 1997 von der Firma Rank Xerox (XBS, Düsseldorf) auf den Markt gebracht. Funktionalität und Einsatzmöglichkeiten sind prinzipiell der des Minoltaprodukts vergleichbar.

 Im Überblick bieten sich die technischen Daten dieser drei Buchscanner wie folgt dar:
 
 
Technische Daten
Minolta Buchscanner PS3000 
Zeutschel (Kodak) Buchscanner Omniscan 3000 mit Buchwippe 
Xerox Digital Book Scanner 

Bookeye 

Vorlagenformat
bis DIN A3 
bis DIN A2 
bis DIN A3 (optional DIN A2) 
Vorlagenstärke
bis 10 cm 
bis 15 cm 
bis 10 cm 
Auflösung
400 dpi 
A3 und A4: 400 dpi 

A2: 300 dpi 

300 dpi 
Scanmodus
Text, Photo 
keine Angabe 
Text, Photo 
Bildwiedergabe
bitonal s/w; (rechnerisch auch Graustufen) 
bitonal s/w; (rechnerisch auch Graustufen) 
bitonal s/w; (rechnerisch auch Graustufen) 
Scangeschwindigkeit
1,27 Sek./A4 
5 Sek./ A4, ca. 9 Sek./ A3 
2,5 Sek./ A4, 3,2 Sek./ A3 

4,0 Sek./ A2 

Schnittstelle zum PC
z.Zt. Video-Schnittstelle; ISIS-Schnittstelle geplant 
SCSI 2-Schnittstelle; ISIS-Schnittstelle geplant 
Fujitsu-kompatible Videoschnitt-stelle (M3097); ISIS-Schnittstelle wird zur Zeit erprobt 
Daten-Ausgabe
TIFF-G3/G4 
TIFF-G4 
TIFF-G4 

 
 

Kamerascanner
 
 
    Als Spezialist für alte Dokumente und Handschriften wird von IBM der Pro/3000 Kamera-scanner angeboten. Die Firma weist ausdrücklich auf die spezifische Einsatzmöglichkeit dieses Gerätes hin. So wurde er beispielsweise für die Digitalisierung alter Handschriften in der Vatikan-Bibliothek eingesetzt sowie zur Zeit für die Bestände der Lutherhalle in Wittenberg. Die exzellente Qualität und die präzise Farbwiedergabe gehen allerdings zu Kosten der Scanzeit. Hier werden ca. 8 Minuten pro Scan gerechnet. 

    In Schweden wurde für den Einsatz im Archivbereich ein Kamerascanner für bitonale, Halbton- und Farbvorlagen entwickelt, dessen Vorteile vom Hersteller neben dem großen Schärfentiefebereich (bis zu 25 cm) insbesondere in der Möglichkeit zum schnellen Ausdruck gesehen werden, der durch die Verbindung mit einem in Deutschland entwickelten Spezialmodul erreicht wird. Die Bilddaten werden dabei mit einer hohen Auflösung unter Umgehung des internen Drucker-Controllers direkt über ein Hochgeschwindigkeitskoaxialkabel an den Drucker (z.B. HP-Laserjet 4v) geleitet.

     Die speziellen Funktionalitäten der beiden hier erwähnten Scanner schlagen sich allerdings auch im Preis nieder, der bei beiden Scannern je nach Ausstattung die 100.000 DM-Grenze übersteigen kann.
     
     

1.2 Scan- und Bildbearbeitungssoftware
 
 

    Jeder der zuvor genannten Buchscanner wird über eine eigene Software angesteuert, die neben dem Einlesen der Vorlage auch Funktionalitäten der Bildbearbeitung anbietet. Erwähnt seien beim Einscannen das automatische Entfernen des Schattens von Falz und Rändern, das Scannen im Text- und Fotomodus und eine ‘Fingererase’-Funktion. Standardbildbearbeitungsfunktionen sind Kontrastverbesserung, Drehen, Ausrichten, Skalieren etc.

     Weiter Möglichkeiten zur Bearbeitung der Images wie das Schreiben zusätzlicher Informationen in den TIFF-Header des digitalen Masters, bietet standardmäßig keines der eingesetzten Programme. Die SUB Göttingen strebt aus diesem Grund in Kooperation mit einem Systemintegrator, der Firma Satz-Rechen- Zentrum (SRZ) in Berlin, die Entwicklung einer Scan- und Bildbearbeitungssoftware an, die alle Erfordernisse der Imageerstellung und -bearbeitung, wie sie in dem vorliegenden Bericht definiert werden, erfüllen.
     
     

1.3 Erstellen der Images
 
 

    Die Umwandlung gedruckter Vorlagen in digitale Dokumente ist grundsätzlich auf zwei Wegen vorstellbar:

     1. Die Digitalisierung direkt vom Buch

     2. Die Verfilmung des Buches mit anschließender Digitalisierung des Mikrofilms [4]

     Ein Blick auf laufende Digitalisierungsvorhaben zeigt, daß beide Verfahren gängig sind. Die Library of Congress hat in ihren Ausschreibungen für externe Scan-Dienstleister detaillierte Konditionen für beide Vorgehensweisen formuliert.

     Im Rahmen der nationalen Digitalisierungsinitiative in Australien zu Materialien aus der Zeit von 1840-1845 wird grundsätzlich der Weg über die Mikroverfilmung gegangen. 

    Vorhandene oder eigens für den Zweck der Digitalisierung erstellte Mikrofilme lassen sich vergleichsweise kostengünstig mit Hilfe spezieller Mikrofilmscanner digitalisieren. Die Filmdigitalisierung wird als Serviceleistung angeboten. Die Digitalisierung vom Mikrofilm führt zu besonders guten Ergebnissen und läßt sich besonders wirtschaftlich durchführen, wenn bei der Erstellung der Mikroformen und bei der Filmdigitalisierungselbst die entsprechenden Hinweise der Arbeitsgruppe „Digitalisierung" des Unterausschusses Bestandserhaltung der Deutschen Forschungsgemeinschaft beachtet werden. [5] So sollen als Mikroform Rollfilme 35mm möglichst mit Bildmarken (Blips) verwendet werden, die weitgehend automatisch digitalisiert werden können. Die Filme sollen mindestens eine den DIN-Normen entsprechende Qualität hinsichtlich der Filmdichte und der Wiedergabeschärfe (Lesbarkeit) aufweisen. Die einheitliche Ausrichtung und Positionierung der Vorlagen (Bücher) und ein einheitlicher Verkleinerungsfaktor über einen kompletten Film hinweg fördern einen weitgehend automatischen und damit rationellen Digitalisierungsvorgang. Schließlich erleichtert eine gute Strukturierung des Mikrofilms mit einer durchdachten Filmorganisation und Aufnahmedokumentation die mit der Digitalisierung zu verbindende formale und inhaltliche Aufbereitung der digitalisierten Images.

     Da ordnungsgemäß verarbeitete Mikrofilme auf Polyesterunterlage als alterungsbeständige Informationsträger gelten,soll immer dann über die Zwischenstufe des Mikrofilms digitalisiert werden, wenn damit zugleich Sicherungs-, Schutz oder Erhaltungszwecke für Objekte verfolgt werden, die in ihrer Erhaltung gefährdet oder bereits beschädigt sind.Darüber hinaus kann es sich als wirtschaftlicher erweisen, insbesondere Bücher und andere Vorlagen, die nicht mit Flachbett- oder Einzugscannern rationell verarbeitet werden können,über die Zwischenstufe des Mikrofilms zu digitalisieren, da beim heutigen Preisgefüge bei solchen Objekten die Filmdigitalisierungskosten zuzüglich der Verfilmungskosten vielfach unter den Kosten für die unmittelbare Digitalisierung liegen.Der zusätzlich entstandene hochwertige Mikrofilm steht auch in diesen Fällen als relativ anspruchslos zu lagernder analoger Langzeitspeicher zur Verfügung, der unter anderem beliebig oft zur Digitalisierung und ggf. zusätzlich für den Zweck der Fernleihe herange-zogen werden kann. 

    Bei der Erstellung des Mikrofilms wird zukünftig auch verstärkt die Entwicklung der COM (Computer Output on Microfilm)-Techniken zu berücksichtigen sein. Diese sieht zunächst eine qualitativ hochwertige Digitalisierung, dann die Konversion der digitalen Vorlage auf Mikrofilm vor. [6]

    Prinzipiell sollte jedes Buch, nicht zuletzt aus konservatorischen und ökonomischen Gründen, nur einmal gescannt oder verfilmt werden. Die Qualität der erstellten Images muß demnach so beschaffen sein, daß eine etwaige Weiterverarbeitung wie Komprimierung und Konvertierung, aber auch die Bearbeitung mit einer Texterkennungssoftware, von diesen ‘Erst-’ bzw. ‘Einmal-’scans vorgenommen werden kann. Unterschiedliche Versionen sind deshalb von einer Vorlage zu erstellen.
     
     

1.3.1 Auflösung beim Scannen
 
 

    Die Entscheidung über die zu wählende Auflösung sollte grundsätzlich im Zusammenhang mit der geplanten Verwendung der Scans und der Art der zu digitalisierenden Vorlage gesehen werden. Die Arbeitsgruppe „Digitalisierung" hat in ihrem Abschlußbericht in Anlehnung an amerikanische Veröffentlichungen vorgeschlagen,beim Digitalisieren vom Original oder vom Mikrofilm die Auflösung von der Schriftzeichengröße der Vorlagen abhängig zu machen. [7] Sie orientiert sich dabei an dem für die Beurteilung der Wiedergabequalität graphischer Zeichen international gebräuchlichen Quality Index (QI) und schlägt vor, für die Präsentation von Images unter Berücksichtigung der Speicheranforderungen eine mittlere Qualität (QI=5) festzulegen. In Verbindung mit normalem Schriftgut und gängigen Druckwerken sollen demnach beim bitonalen Digitalisieren Auflösungen von mindestens 300 dpi angestrebt werden. 

    Technisch möglich und in großen amerikanischen Digitalisierungsprojekten als Standard angestrebt wird für s/w-Vorlagen eine Auflösung von 600 dpi. [8] Diese Auflösung stellt sicher, daß das Digitalisat als Grundlage für andere Ausgabeformen von hoher Qualität (hochqualitativer Ausdruck, COM) dienen kann.

     Beim Digitalisieren mit Graustufen sollten Auflösungen zwischen 250 und 300 dpi gewählt werden, Farbvorlagen benötigen eine vergleichbare Qualität.

     Wird zu einem späteren Zeitpunkt die Behandlung der digitalisierten Dokumente mit einer Texterkennungssoftware nicht ausgeschlossen, wird eine Auflösung von mindestens 400 dpi empfohlen. Tests, unter anderem an dem renommierten Electronic Text Center an der University of Virginia, haben hier eindeutig ergeben, daß gerade kleine Schriftgrößen bei einer Bearbeitung mit OCR-Software im Falle von 400 dpi deutlich besser erkannt werden als bei 300 dpi. [9]

    Beim Digitalisieren von Fotografien sind je nach Detailreichtum geringere Auflösungen ausreichend oder höhere Auflösungen (bis 600 dpi) erforderlich.Wichtiger ist dabei allerdings die Digitalisierung mit Graustufen. Bei gerasterten Abbildungen in Büchern darf die Auflösung beim Digitalisieren die Rasterauflösung nicht überschreiten. 
     
     

1.3.2 Farbtiefe 

    Beim Scannen direkt vom Buch (bitonal s/w) wird in der Regel mit einer Farbtiefe von 1 bit per Pixel gearbeitet werden. Handschriften, Zeichnungen mit Bleistift oder Farbstift, (auch Bleistiftanmerkungen in Verbindung mit gedruckten Texten), Schreibmaschinenschrift mit Gewebefarbbändern, farbige Illustrationen und Zeichnungen, Darstellungen mit verschiedenen Grauabstufungen und Fotografien in schwarz-weiß oder Farbe sollen je nach Vorlage mit 16 oder 256 Graustufen digitalisiert werden. Entsprechendes gilt für die Digitalisierung vom Mikrofilm. [10] Sollen Grautöne (Handschriften usw.) vom üblichen panchromatischen AHU-Mikrofilm wiedergegeben werden, der den Kontrast von vornherein steigert, genügt in der Regel eine Digitalisierung mit 16 Graustufen (4 Bit). Wird von einem Halbton-Mikrofilm mit feiner Grauabstufung digitalisiert, sollen 256 Graustufen (8 Bit) dargestellt werden. Allgemein gilt, daß beim Digitalisieren mit Graustufen die Auflösung bei gleicher Wiedergabequalität reduziert werden kann.
     
     

1.3.3 Dateiformate der Images
 
 

    Die Bandbreite der möglichen Dateiformate für Images ist beeindruckend. Leistungsfähige Viewer- Software mit Lesemöglichkeiten für mindestens 20 unterschiedliche Formate ist inzwischen Standard. Hinzu kommen die verschiedenen Versionen ein- und desselben Formats, die, ähnlich wie bei Softwareupgrades, von einigen Firmen für ihre Produkte in gewissen Abständen auf den Markt gebracht werden.

     Eine klare Unterscheidung ist zwischen dem beim Einscannen mit hohem Qualitätsanspruch erstellten Image und den zum späteren Zeitpunkt über das Internet zur Verfügung gestellten Bildern zu treffen. Das Scan-Image übernimmt im Rahmen der Retrodigitalisierung die Funktion eines „digitalen Masters", der auf geeigneten Speichermedien zur langfristigen Verwendung abgelegt wird und im Zuge einer Pflegeroutine in regelmäßigen Abständen auf Lesbarkeit und Kompatibilität zu überprüfen ist. Unter dem Gesichtspunkt der Langfristarchivierung des digitalen Masters ist bei der Auswahl eines Dateiformats unbedingt darauf zu achten, daß auf Standards zurückgegriffen wird, die im Rahmen späterer Konvertierungsvorhaben ohne nennenswerte Probleme der neuen Systemumgebung angepaßt werden können.

     Das Image, welches der Benutzer auf Anforderung am Bildschirm sieht, wird durch Konvertierungsläufe vom digitalen Master erstellt und kann niedrigeren Qualitätsanfor-derungen genügen als die Archivierungsversion.

     Eine weitere Version kann für das Herunterladen ganzer Image-Dokumente erstellt werden. Diese Download- Version ist für den Benutzer, der den online-Text ständig verfügbar haben möchte, von großer Bedeutung. Vor dem Hintergrund bekannter Netzleitungsprobleme bezüglich des Datendurchsatzes ist es ihm auf diesem Wege möglich, den gewünschten Text auf dem eigenen Arbeitsplatzrechner lokal gespeichert zu halten.
     
     

1.3.3.1 Digitaler Master
 
 

    Die Anforderungen, die an den digitalen Master gestellt werden, sind aus der Art der Digitalisierungsvorlagen abzuleiten. Das Hauptaugenmerk der AG Technik war hier auf Textmaterialien, in erster Linie also auf bitonale (s/w) Vorlagen gerichtet. Eine verbindliche Empfehlung für ein Dateiformat des digitalen Masters abzugeben, hält die AG Technik zum jetzigen Zeitpunkt nicht für angebracht, da sich auf diesem Gebiet ein möglicher Wechsel der bisherigen Standards andeutet. 
     
     

Das TIFF-Format [11]

    Für bitonale Vorlagen hat sich in der Praxis das von der Firma Aldus entwickelte TIFF-Rasterformat zu einer Art quasi- Standard herauskristallisiert. Reizvoll für viele Anwender ist dabei wohl besonders die Möglichkeit, der einzelnen Imagedatei Informationen beizugeben, die in das ‘Image File Directory’ der Datei geschrieben werden. Diese Informationen sind, wie auch der Name des Formats sagt, nach Kategorien gegliedert. In der zur Zeit aktuellen Version 6.0 (in der Spezifikation von Juni 1992), [12] gibt es über 90 Kategorien, in denen Informationen zum Image untergebracht werden können (zur Auflösung, Farbtiefe, Größe etc.). Einige Felder sehen dabei auch die Aufnahme von Informationen im ASCII-Format vor. (In Anlage 1 befindet sich eine Übersicht über die Kategorien, die bei der Imageerstellung belegt werden sollten.) Die Library of Congress empfiehlt aus diesem Grunde TIFF als Format für die Archivierung bitonaler Images von Handschriften und gedruckten Vorlagen. 

    Da sich die Verwendung des unkomprimierten TIFFs aufgrund der zu bewältigenden Speichermengen für die Archivierung großer Textmengen nicht eignet (1 s/w A4-Seite unkomprimiertes TIFF bei 400 dpi Auflösung = ca. 2 Mb) , wird die Verwendung der verlustfreien (Fax)-Komprimierung Gruppe 4 (Standard der ehemaligen CCITT, heute ITU) empfohlen. Die Größe einer Imagedatei bei dieser Komprimierung liegt dann zwischen 100 und 150 Kb.
     
     

Das PNG-Format
 
 

    In der jüngsten Zeit ist ein neues Dateiformat für Rasterimages dabei, die Welt des World Wide Web zu erobern. Portable Network Graphics (PNG, sprich: PING) wurde von einer Gruppe von Graphik- und Programmierungsspezialisten unter der Leitung des WWW Consortium (W3C) - Mitglieds Chris Lilley entwickelt. [13] Hintergrund der Entwicklung ist der Erwerb des Patentrechts für das gängige LZW-Komprimierungsverfahren durch die Unisys Corp., die in der Folge Lizenzgebühren von den Anbietern forderte, die ihre Images im kommerziellen Bereich einsetzten. Die so lizenzierte Komprimierungsform wird beispielsweise bei dem Grafikaustauschformat GIF eingesetzt und ebenfalls bei der Komprimierung von TIFF-Dateien, wenn es sich um Farbimages handelt.

     Die Beachtung von PNG empfiehlt sich insbesondere vor dem Hintergrund einer Quasi-Standardsetzung dieses Format für den Datentransfer im Internet durch die jüngsten offiziellen Empfehlungen der Internet Engineering Task Force (IETF) und des World Wide Web Consortiums (W3C). Neben dieser offiziellen Empfehlung und der Tatsache, daß PNG vollständig in den Bereich ‘Public Domain’ fällt, gibt es auch technische Gründe, die für eine Verwendung von PNG als Dateiformat für den digitalen Master sprechen. So bietet PNG bei Farbvorlagen eine Farbtiefe von bis zu 48 Bits und für Graustufen 16 Bits an (zum Vergleich: TIFF bietet 24 Bits bei Farbe und 8 Bits bei Graustufen). Man sollte in diesem Zusammenhang jedoch darauf hinweisen, daß die bisher angebotene Farbtiefe im Normalfall sicher ausreicht. Im Bereich der Komprimierung scheint die bei PNG eingesetzte DEFLATE-Komprimierung für bitonale Vorlagen effektiver zu sein als Fax Gruppe 4 bei TIFF. Die Komprimierung für Farbimages kann darüber hinaus in der Zukunft zu Lizenzproblemen führen, weil TIFF hier das bereits erwähnte LZW-Verfahren anwendet.

     Für TIFF als digitalen Master, jedenfalls bei der Digitalisierung von bitonalen Vorlagen, spricht hingegen weiterhin die oben beschriebene Möglichkeit der umfangreichen Informationsmitgabe in die Imagedatei selbst, was in diesem Umfang und in der strukturierten Form bei PNG nicht möglich ist.

     Aus Sicht der Arbeitsgruppe kommen beide genannten Formate für Digitalisierungsvorhaben in Frage, wobei TIFF bei abgeschlossenen und derzeit laufenden Digitalisierungsvor-haben mit Abstand am häufigsten eingesetzt wird.
     
     


 

[Letztmalige Aktualisierung: 16.10.1998 / am]