Website-Archivierung an der BSB

FAQs zur Web-ArchivierungFAQs zur Web-Archivierung

Allgemeine Informationen

Das Münchener Digitalisierungszentrum der Bayerischen Staatsbibliothek trägt die technische Verantwortung für die Langzeitarchivierung von fachlich einschlägigen Websites, die im Rahmen ihrer traditionellen Sammelschwerpunkte sowie ihrer landesweiten Aufgaben gesammelt und für Wissenschaft und Forschung dauerhaft öffentlich zugänglich gemacht werden. Als Grundlage für die Auswahl und Archivierung von Websites dient dabei eine spezielles Sammel- und Archivierungsprofil, das in  Abstimmung mit den fachlich verantwortlichen Koordinatoren erstellt wurde. Seit Januar 2012 läuft die Webarchivierung im Regelbetrieb, derzeit werden ca. 1500 Websites fortlaufend archiviert (Stand: 07/2016).

Im Zeitraum 2013-2016 wurde das von der Deutschen Forschungsgemeinschaft geförderte Projekt Langzeitarchivierung von Websites: Entwicklung eines Servicemodells auf Grundlage praktischer Erfahrungen durchgeführt. Ein Darstellung des Projekts sowie zentrale Ergebnisse finden Sie hier.

Ziele und Grenzen der Webarchivierung

Eine Website ist ein virtueller Platz im World Wide Web, an dem sich meist mehrere Webpages oder Dokumente (Dateien) und andere Ressourcen befinden. Diese sind unter einer http-Adresse zu erreichen. Das Web kann als ein aktives „Publikationssystem“ bezeichnet werden, das ständig neue oder sich verändernde Inhalte produziert und in dem viele Informationen wieder verschwinden, weil sie ersetzt, verschoben oder gelöscht wurden. Zugleich wandeln sich auch die Darstellungsformen und Applikationen, mit denen die Inhalte präsentiert werden.

Ziel der Website-Archivierung ist es deshalb, (ausgewählte) Websites zu sammeln, persistent zu speichern und dauerhaft zur Verfügung zu stellen, nicht zuletzt um einem Wissensverlust durch die Abschaltung wissenschaftlich relevanter Angebote im WWW entgegenzuwirken.

Im Rahmen der Webarchivierung kann man grundsätzlich unterscheiden zwischen einem Domain Harvesting, das das gesamte Webangebot einer Domain (z. B. *.de) umfasst, einem selektiven Harvesting, das nur ausgewählte Websites zu ausgewählten Themengebieten speichert und dem sogenannten Event Harvesting, das Internetangebote zu einem bestimmten Ereignis (z. B. Bundestagswahl 2009) archiviert. Die Bayerische Staatsbibliothek betreibt derzeit routinemäßig selektives Harvesting.

Da sich die ständige Veränderung und Weiterentwicklung sowohl der Inhalte als auch der Darstellungsformen sehr schnell vollzieht, sind dem Ziel der Webarchivierung Grenzen gesetzt. So wird es immer nur möglich sein, bestimmte Zeitschnitte einer Website abzubilden, z. B. die Archivierung eines Internetangebots im Halbjahres- oder Jahresrhythmus. Zudem sind die aktuellen Webcrawler technisch oftmals noch nicht in der Lage, dynamisch generierte Inhalte (z.B. Flash-Animationen), Datenbankinhalte, das Deep Web oder gestreamte Inhalte (d.h. in Echtzeit in einem Viewer übertragene Audio oder Video-Dateien wie z.B. YouTube) zu erfassen und zu archivieren. Daher kann es teilweise passieren, dass nicht alle Elemente einer Website in der archivierten Version wiedergegeben werden. Externe Links, Formulare und Suchfunktionen werden in der Regel nicht funktionieren.

Rechtlicher Hintergrund

Aus rechtlichen Gründen werden seitens der BSB nur Websites geharvestet, archiviert und bereitgestellt, für die eine explizite Genehmigung vorliegt oder die gemäß der Bekanntmachung der Bayerischen Staatsregierung vom 2. Dezember 2008 (Az.: B II 2-480-30) zur Abgabe amtlicher Veröffentlichungen an Bibliotheken als elektronische amtliche Veröffentlichungen von der BSB dauerhaft zu speichern und zugänglich zu machen sind. Deshalb wird, sofern es sich nicht um elektronische amtliche Veröffentlichungen einer Behörde, Dienststelle oder Einrichtung des Freistaates Bayern handelt, in einem ersten Bearbeitungsschritt eine Genehmigungsmail an den jeweiligen Website-Betreiber versandt. Dieser kann entweder per E-Mail dem Harvest- und Archivierungsverfahren zustimmen oder er sendet ein ausgefülltes Genehmigungsformular an die BSB zurück.

Da hier deutsches Recht geltend gemacht wird, liegt das Genehmigungsformular in deutscher Sprache vor. Eine Übersetzung in englischer Sprache ist in das Genehmigungsformular integriert. Erst wenn eine schriftliche Genehmigung des Website-Betreibers vorliegt (per E-Mail oder Genehmigungsformular), kann der Harvest- und Archivierungsprozess gestartet werden. Wählen Sie dieses Formblatt für die Archivierung und Bereitstellung Ihrer Website durch die Bayerische Staatsbibliothek.

Technik und Workflows

Die Bayerische Staatsbibliothek setzt für die Website-Archivierung das Web Curator Tool ein. Die Open-Source-Software wurde von der British Library zusammen mit der National Library of New Zealand entwickelt und befindet sich auch an weiteren Institutionen seit mehreren Jahren erfolgreich im Einsatz.

Das Web Curator Tool bietet einen integrierten Bearbeitungsprozess von der Genehmigungseinholung, über den automatisierten Harvest-Prozess in bestimmten Zeit-Intervallen sowie die Qualitätskontrolle bis hin zur Archivierung. Die Langzeitarchivierung erfolgt im System Rosetta von ExLibris.

 

 

Webarchivierung

Für einen automatischen Harvest-Prozess in bestimmten Intervallen (im Moment werden die ausgewählten Websites halbjährlich geharvestet) wird das Target (URL der Website) einmalig angelegt, mit der entsprechenden Genehmigung verknüpft und erstmalig angestoßen. Die Website wird mit dem Crawler Heritrix geharvestet, der vom Internet Archive speziell für die Webarchivierung entwickelt und in das Web Curator Tool integriert wurde.

Die Bayerische Staatsbibliothek macht alle archivierten Websites über ihren Katalog auffindbar und öffentlich zugänglich. Katalogisiert wird dabei die gesamte Website als intellektuelle Einheit und nicht jeder einzelne Webschnitt einer Website. Der Nutzer erhält einen Link, der ihm mittels dem Viewer OpenWayback zunächst eine chronologische Übersicht aller im Archiv vorhandenen Zeitschnitte einer Website bietet, die er dann einzeln gezielt aufrufen kann. Ebenso erfolgt eine Verzeichnung der archivierten Websites in den Internetressourcen-Führern der Virtuellen Fachbibliotheken bzw. Fachinformationsdienste und steht damit auch in den fachspezifischen Informationsportalen für wissenschaftliche Recherchen zur Verfügung.



V. 4.2.1 de

zur Homepage der BSB

dsa_logo

Workshop Webarchivierung

Die Archivierung des Web als Mittel des digitalen Bestandsaufbaus: Eine Standortbestimmung. Unser Workshop startet am 10.03.2016 um 11.00 Uhr . Wir erwarten derzeit mehr als 55 Teilnehmer und freuen uns auf vielfältige und interessante Gespräche und Vorträge.

[Info & Anmeldung]

Neue Digitalisate in unseren Sammlungen

Neue Digitalisate in unseren Sammlungen

Täglich aktuell: Neue Digitalisate in den Digitalen Sammlungen der Bayerischen Staatsbibliothek. Titel online: 1.169.594Neue Digitalisate in unseren Sammlungen

[28.08.2016]

Aktuelle Stellenangebote

Aktuelle Stellenangebote

Wir möchten unser Team verstärken und suchen Mitarbeiter für die Entwicklung von Webapplikationen und Java-Entwicklung.

[12.08.2016]

Aktuelles

Weitere aktuelle Meldungen

zur Homepage des MDZ