Website-Archivierung an der BSB

FAQs zur Web-ArchivierungFAQs zur Web-Archivierung

Allgemeine Informationen

Das Münchener Digitalisierungszentrum der Bayerischen Staatsbibliothek trägt die technische Verantwortung für die Langzeitarchivierung von fachlich einschlägigen Websites, die im Rahmen ihrer traditionellen Sammelschwerpunkte sowie ihrer landesweiten Aufgaben gesammelt und für Wissenschaft und Forschung dauerhaft öffentlich zugänglich gemacht werden. Als Grundlage für die Auswahl und Archivierung von Websites dient dabei eine spezielles Sammel- und Archivierungsprofil, das in  Abstimmung mit den fachlich verantwortlichen Koordinatoren erstellt wurde. Seit Januar 2012 läuft die Webarchivierung im Regelbetrieb, derzeit werden ca. 1500 Websites fortlaufend archiviert (Stand: 07/2016).

Im Zeitraum 2013-2016 wurde das von der Deutschen Forschungsgemeinschaft geförderte Projekt Langzeitarchivierung von Websites: Entwicklung eines Servicemodells auf Grundlage praktischer Erfahrungen durchgeführt. Ein Darstellung des Projekts sowie zentrale Ergebnisse finden Sie hier.

Ziele und Grenzen der Webarchivierung

Eine Website ist ein virtueller Platz im World Wide Web, an dem sich meist mehrere Webpages oder Dokumente (Dateien) und andere Ressourcen befinden. Diese sind unter einer http-Adresse zu erreichen. Das Web kann als ein aktives „Publikationssystem“ bezeichnet werden, das ständig neue oder sich verändernde Inhalte produziert und in dem viele Informationen wieder verschwinden, weil sie ersetzt, verschoben oder gelöscht wurden. Zugleich wandeln sich auch die Darstellungsformen und Applikationen, mit denen die Inhalte präsentiert werden.

Ziel der Website-Archivierung ist es deshalb, (ausgewählte) Websites zu sammeln, persistent zu speichern und dauerhaft zur Verfügung zu stellen, nicht zuletzt um einem Wissensverlust durch die Abschaltung wissenschaftlich relevanter Angebote im WWW entgegenzuwirken.

Im Rahmen der Webarchivierung kann man grundsätzlich unterscheiden zwischen einem Domain Harvesting, das das gesamte Webangebot einer Domain (z. B. *.de) umfasst, einem selektiven Harvesting, das nur ausgewählte Websites zu ausgewählten Themengebieten speichert und dem sogenannten Event Harvesting, das Internetangebote zu einem bestimmten Ereignis (z. B. Bundestagswahl 2009) archiviert. Die Bayerische Staatsbibliothek betreibt derzeit routinemäßig selektives Harvesting.

Da sich die ständige Veränderung und Weiterentwicklung sowohl der Inhalte als auch der Darstellungsformen sehr schnell vollzieht, sind dem Ziel der Webarchivierung Grenzen gesetzt. So wird es immer nur möglich sein, bestimmte Zeitschnitte einer Website abzubilden, z. B. die Archivierung eines Internetangebots im Halbjahres- oder Jahresrhythmus. Zudem sind die aktuellen Webcrawler technisch oftmals noch nicht in der Lage, dynamisch generierte Inhalte (z.B. Flash-Animationen), Datenbankinhalte, das Deep Web oder gestreamte Inhalte (d.h. in Echtzeit in einem Viewer übertragene Audio oder Video-Dateien wie z.B. YouTube) zu erfassen und zu archivieren. Daher kann es teilweise passieren, dass nicht alle Elemente einer Website in der archivierten Version wiedergegeben werden. Externe Links, Formulare und Suchfunktionen werden in der Regel nicht funktionieren.

Rechtlicher Hintergrund

Aus rechtlichen Gründen werden seitens der BSB nur Websites geharvestet, archiviert und bereitgestellt, für die eine explizite Genehmigung vorliegt oder die gemäß der Bekanntmachung der Bayerischen Staatsregierung vom 2. Dezember 2008 (Az.: B II 2-480-30) zur Abgabe amtlicher Veröffentlichungen an Bibliotheken als elektronische amtliche Veröffentlichungen von der BSB dauerhaft zu speichern und zugänglich zu machen sind. Deshalb wird, sofern es sich nicht um elektronische amtliche Veröffentlichungen einer Behörde, Dienststelle oder Einrichtung des Freistaates Bayern handelt, in einem ersten Bearbeitungsschritt eine Genehmigungsmail an den jeweiligen Website-Betreiber versandt. Dieser kann entweder per E-Mail dem Harvest- und Archivierungsverfahren zustimmen oder er sendet ein ausgefülltes Genehmigungsformular an die BSB zurück.

Da hier deutsches Recht geltend gemacht wird, liegt das Genehmigungsformular in deutscher Sprache vor. Eine Übersetzung in englischer Sprache ist in das Genehmigungsformular integriert. Erst wenn eine schriftliche Genehmigung des Website-Betreibers vorliegt (per E-Mail oder Genehmigungsformular), kann der Harvest- und Archivierungsprozess gestartet werden. Wählen Sie dieses Formblatt für die Archivierung und Bereitstellung Ihrer Website durch die Bayerische Staatsbibliothek.

Technik und Workflows

Die Bayerische Staatsbibliothek setzt für die Website-Archivierung das Web Curator Tool ein. Die Open-Source-Software wurde von der British Library zusammen mit der National Library of New Zealand entwickelt und befindet sich auch an weiteren Institutionen seit mehreren Jahren erfolgreich im Einsatz.

Das Web Curator Tool bietet einen integrierten Bearbeitungsprozess von der Genehmigungseinholung, über den automatisierten Harvest-Prozess in bestimmten Zeit-Intervallen sowie die Qualitätskontrolle bis hin zur Archivierung. Die Langzeitarchivierung erfolgt im System Rosetta von ExLibris.

 

 

Webarchivierung

Für einen automatischen Harvest-Prozess in bestimmten Intervallen (im Moment werden die ausgewählten Websites halbjährlich geharvestet) wird das Target (URL der Website) einmalig angelegt, mit der entsprechenden Genehmigung verknüpft und erstmalig angestoßen. Die Website wird mit dem Crawler Heritrix geharvestet, der vom Internet Archive speziell für die Webarchivierung entwickelt und in das Web Curator Tool integriert wurde.

Die Bayerische Staatsbibliothek macht alle archivierten Websites über ihren Katalog auffindbar und öffentlich zugänglich. Katalogisiert wird dabei die gesamte Website als intellektuelle Einheit und nicht jeder einzelne Webschnitt einer Website. Der Nutzer erhält einen Link, der ihm mittels dem Viewer OpenWayback zunächst eine chronologische Übersicht aller im Archiv vorhandenen Zeitschnitte einer Website bietet, die er dann einzeln gezielt aufrufen kann. Ebenso erfolgt eine Verzeichnung der archivierten Websites in den Internetressourcen-Führern der Virtuellen Fachbibliotheken bzw. Fachinformationsdienste und steht damit auch in den fachspezifischen Informationsportalen für wissenschaftliche Recherchen zur Verfügung.



V. 4.2.1 de

zur Homepage der BSB

dsa_logo

Neue Digitalisate in unseren Sammlungen

Täglich aktuell: Neue Digitalisate in den Digitalen Sammlungen der Bayerischen Staatsbibliothek. Titel online: 1.200.613Neue Digitalisate in unseren Sammlungen

[29.03.2017]

1,2-millionstes Werk digitalisiert!

1,2-millionstes Werk digitalisiert!

Mit der Digitalisierung eines der prächtigsten Stundenbücher der Gent-Brügger Schule (Clm 28345) hat das Münchener Digitalisierungszentrum sein 1,2-millionstes Werk online zugänglich gemacht. Die Handschrift mit 28 ganzseitigen, 60 halb-, viertelseitigen und kleineren Miniaturen sowie 24 Bas-de-Page-Kalenderminiaturen kann ab sofort online komplett durchgeblättert werden. [zum Stundenbuch]1,2-millionstes Werk digitalisiert!

[27.03.2017]

Die Reformation in Bayern – digital, regional, vielfältig

Die Reformation in Bayern – digital, regional, vielfältig

Unter dem Titel „Martin Luther und die frühe Reformation in Bayern. Anhänger, Gegner, Sympathisanten“ präsentiert das Kulturportal bavarikon im Luther-Jahr 2017 seine erste virtuelle Ausstellung. Sie ist nicht nur vom Umfang her, sondern auch im Ansatz einzigartig: 21 Kultureinrichtungen beteiligen sich an der digitalen Schau, die 123 hochkarätige Exponate zeigt. [weitere Informationen]Die Reformation in Bayern – digital, regional, vielfältig

[27.03.2017]

6 000 Tondokumente aus 229 Orten: Sprechender Sprachatlas von Niederbayern und dem angrenzenden Böhmerwald geht online

6 000 Tondokumente aus 229 Orten: Sprechender Sprachatlas von Niederbayern und dem angrenzenden Böhmerwald geht online

Die Bayerische Staatsbibliothek München und die Universität Passau bringen in einem Kooperationsprojekt den „Sprechenden Sprachatlas von Niederbayern und dem angrenzenden Böhmerwald“ online. Das interaktive Angebot richtet sich an ein breites Publikum und ist ab sofort über die Bayerische Landesbibliothek Online abrufbar. [weitere Informationen]6 000 Tondokumente aus 229 Orten: Sprechender Sprachatlas von Niederbayern und dem angrenzenden Böhmerwald geht online

[27.03.2017]

IIIF: Wertvolle Inhalte präsentieren, teilen und bearbeiten

IIIF: Wertvolle Inhalte präsentieren, teilen und bearbeiten

Content Sharing mit dem IIIF-Standard (IIIF – International Image Interoperability Framework): Die Bayerische Staatsbibliothek (BSB) stellt heute in einer ersten Ausbaustufe etwa 12.000 digitalisierte Objekte – über 4.000 mittelalterliche Handschriften und 8.000 Inkunabeln – im neuen IIIF-Standard bereit. Der Einsatz des IIIF-Standards ermöglicht die Visualisierung, die Strukturierung und den Austausch digitaler Objekte zwischen Kulturinstitutionen aus aller Welt. Die BSB setzt dafür den IIIF-konformen Viewer „Mirador“ ein, der zugleich eine Forschungsumgebung ist. Mit Mirador wird beispielsweise ein Vergleich mittelalterlicher Handschriften ermöglicht, die aus über die ganze Welt verteilten IIIF-Kultureinrichtungen wie der Digital Library in Oxford, e-codices in der Schweiz oder der University Library in Stanford stammen können. Die Bayerische Staatsbibliothek arbeitet an der Umstellung von 1,2 Millionen bereits digitalisierten Werken auf den IIIF-Standard.
Zum IIIF-WebangebotIIIF: Wertvolle Inhalte präsentieren, teilen und bearbeiten

[21.03.2017]

zur Homepage des MDZ