Archivierung der Digitalisate am Münchener Digitalisierungszentrum
1. Allgemeine Informationen
Das Münchener Digitalisierungszentrum verfügt seit 2004 mit der "Zentralen Erfassungs- und Nachweisdatenbank für Digitalisate" über einen maßgeschneiderten, skalierbaren und leistungsfähigen Workflow. Alle anfallenden Bearbeitungs-, Bereitstellungs- und Archivierungsprozesse werden weitgehend automatisch gesteuert, so z. B. Auftragsverwaltung, Image-Konversion, Erschließung, Katalognachweis, Bereitstellung und Langzeitarchivierung der Digitalisate.
Alle Systemkomponenten wurden auf Open-Source-Basis realisiert und innerhalb einer verteilten, plattformunabhängigen Hard- und Software-Architektur umgesetzt. XML-Frameworks ermöglichen optional eine Erschließung der Digitalisate durch Suchfunktionen sowie eine logische Gruppierung und Einbindung in übergeordnete Themenportale.
Der Workflow umfasst u. a. folgende Schritte:
1) Erfassung des Digitalisierungsauftrags, Katalogisierung, Vorbereitung
2) Scannen (1:1 in Bezug auf das Originalformat)
3) Qualitätskontrolle und Korrektur
4) Erstellung der Präsentationsderivate (JPGs für die Web-Präsentation)
5) Manuelle und automatische Erschließung, OCR-Bearbeitung
6) Erfassung technischer Metadaten
7) Vergabe eines URN (Uniform Resource Name)
8) Erfassung technischer Metadaten
9) Verlinkung des Digitalisats im Katalog
10) Freigabe zur Web-Publikation
11) Erstellung des Archivpakets, Archivierung aller Daten (Ingest)
12) Dokumentation (Archivierungsprotokoll)
Für jedes Digitalisat werden folgende Daten archiviert:
- für jede Seite des Werkes (inklusive Buchdeckel) eine digitale Master-Datei in hoher Qualität, im Format TIFF, unkomprimiert, in einer Auflösung von 300 oder 400 ppi und mit eingebettetem Farbprofil;
- für jede Seite des Werkes zwei oder drei Präsentationsderivate im Format JPG;
- (wenn vorhanden) für jede Seite des Werkes zwei Text- bzw. XML-Dateien mit dem OCR-Rohtext sowie dem erschlossenen Text ;
- ein Satz von XML-Dateien mit bibliographischen Informationen, technischen Metadaten und der Struktur des Werkes (Konkordanz native Seitenzählung - Imagezählung).
Der Umfang eines archivierten Digitalisats hängt von der Größe des ursprünglichen Werkes und vom Erschließungsgrad ab. Beispielsweise wird aus einem Buch mit 300 Seiten ohne weitere inhaltliche Erschließung ein Archivpaket von ca. 900 bis 1200 Dateien. Sind zusätzlich OCR-Daten vorhanden, kann die Zahl der Dateien auf 1500 bis 1800 steigen. Die Größe des Werkes in Megabyte hängt vom Ausgangsformat und von Dateiformat ab, welches für die Master-Dateien gewählt wurde. Sie beträgt in der Regel mehrere Gigabyte
2. Der Digitalisierungsworkflow im Überblick
(Zum Vergrößern bitte auf das Bild klicken)
V. 4.2.1 de
Neue Digitalisate in unseren Sammlungen
Täglich aktuell: Neue Digitalisate in den Digitalen Sammlungen der Bayerischen Staatsbibliothek. Titel online: 2.530.686
[02.03.2021]