Website-Archivierung an der BSB

FAQs zur Web-ArchivierungFAQs zur Web-Archivierung

Allgemeine Informationen

Das Münchener Digitalisierungszentrum der Bayerischen Staatsbibliothek trägt die technische Verantwortung für die Langzeitarchivierung von fachlich einschlägigen Websites, die im Rahmen ihrer traditionellen Sammelschwerpunkte sowie ihrer landesweiten Aufgaben gesammelt und für Wissenschaft und Forschung dauerhaft öffentlich zugänglich gemacht werden. Als Grundlage für die Auswahl und Archivierung von Websites dient dabei eine spezielles Sammel- und Archivierungsprofil, das in  Abstimmung mit den fachlich verantwortlichen Koordinatoren erstellt wurde. Seit Januar 2012 läuft die Webarchivierung im Regelbetrieb, derzeit werden ca. 1500 Websites fortlaufend archiviert (Stand: 07/2016).

Im Zeitraum 2013-2016 wurde das von der Deutschen Forschungsgemeinschaft geförderte Projekt Langzeitarchivierung von Websites: Entwicklung eines Servicemodells auf Grundlage praktischer Erfahrungen durchgeführt. Ein Darstellung des Projekts sowie zentrale Ergebnisse finden Sie hier.

Ziele und Grenzen der Webarchivierung

Eine Website ist ein virtueller Platz im World Wide Web, an dem sich meist mehrere Webpages oder Dokumente (Dateien) und andere Ressourcen befinden. Diese sind unter einer http-Adresse zu erreichen. Das Web kann als ein aktives „Publikationssystem“ bezeichnet werden, das ständig neue oder sich verändernde Inhalte produziert und in dem viele Informationen wieder verschwinden, weil sie ersetzt, verschoben oder gelöscht wurden. Zugleich wandeln sich auch die Darstellungsformen und Applikationen, mit denen die Inhalte präsentiert werden.

Ziel der Website-Archivierung ist es deshalb, (ausgewählte) Websites zu sammeln, persistent zu speichern und dauerhaft zur Verfügung zu stellen, nicht zuletzt um einem Wissensverlust durch die Abschaltung wissenschaftlich relevanter Angebote im WWW entgegenzuwirken.

Im Rahmen der Webarchivierung kann man grundsätzlich unterscheiden zwischen einem Domain Harvesting, das das gesamte Webangebot einer Domain (z. B. *.de) umfasst, einem selektiven Harvesting, das nur ausgewählte Websites zu ausgewählten Themengebieten speichert und dem sogenannten Event Harvesting, das Internetangebote zu einem bestimmten Ereignis (z. B. Bundestagswahl 2009) archiviert. Die Bayerische Staatsbibliothek betreibt derzeit routinemäßig selektives Harvesting.

Da sich die ständige Veränderung und Weiterentwicklung sowohl der Inhalte als auch der Darstellungsformen sehr schnell vollzieht, sind dem Ziel der Webarchivierung Grenzen gesetzt. So wird es immer nur möglich sein, bestimmte Zeitschnitte einer Website abzubilden, z. B. die Archivierung eines Internetangebots im Halbjahres- oder Jahresrhythmus. Zudem sind die aktuellen Webcrawler technisch oftmals noch nicht in der Lage, dynamisch generierte Inhalte (z.B. Flash-Animationen), Datenbankinhalte, das Deep Web oder gestreamte Inhalte (d.h. in Echtzeit in einem Viewer übertragene Audio oder Video-Dateien wie z.B. YouTube) zu erfassen und zu archivieren. Daher kann es teilweise passieren, dass nicht alle Elemente einer Website in der archivierten Version wiedergegeben werden. Externe Links, Formulare und Suchfunktionen werden in der Regel nicht funktionieren.

Rechtlicher Hintergrund

Aus rechtlichen Gründen werden seitens der BSB nur Websites geharvestet, archiviert und bereitgestellt, für die eine explizite Genehmigung vorliegt oder die gemäß der Bekanntmachung der Bayerischen Staatsregierung vom 2. Dezember 2008 (Az.: B II 2-480-30) zur Abgabe amtlicher Veröffentlichungen an Bibliotheken als elektronische amtliche Veröffentlichungen von der BSB dauerhaft zu speichern und zugänglich zu machen sind. Deshalb wird, sofern es sich nicht um elektronische amtliche Veröffentlichungen einer Behörde, Dienststelle oder Einrichtung des Freistaates Bayern handelt, in einem ersten Bearbeitungsschritt eine Genehmigungsmail an den jeweiligen Website-Betreiber versandt. Dieser kann entweder per E-Mail dem Harvest- und Archivierungsverfahren zustimmen oder er sendet ein ausgefülltes Genehmigungsformular an die BSB zurück.

Da hier deutsches Recht geltend gemacht wird, liegt das Genehmigungsformular in deutscher Sprache vor. Eine Übersetzung in englischer Sprache ist in das Genehmigungsformular integriert. Erst wenn eine schriftliche Genehmigung des Website-Betreibers vorliegt (per E-Mail oder Genehmigungsformular), kann der Harvest- und Archivierungsprozess gestartet werden. Wählen Sie dieses Formblatt für die Archivierung und Bereitstellung Ihrer Website durch die Bayerische Staatsbibliothek.

Technik und Workflows

Die Bayerische Staatsbibliothek setzt für die Website-Archivierung das Web Curator Tool ein. Die Open-Source-Software wurde von der British Library zusammen mit der National Library of New Zealand entwickelt und befindet sich auch an weiteren Institutionen seit mehreren Jahren erfolgreich im Einsatz.

Das Web Curator Tool bietet einen integrierten Bearbeitungsprozess von der Genehmigungseinholung, über den automatisierten Harvest-Prozess in bestimmten Zeit-Intervallen sowie die Qualitätskontrolle bis hin zur Archivierung. Die Langzeitarchivierung erfolgt im System Rosetta von ExLibris.

 

 

Webarchivierung

Für einen automatischen Harvest-Prozess in bestimmten Intervallen (im Moment werden die ausgewählten Websites halbjährlich geharvestet) wird das Target (URL der Website) einmalig angelegt, mit der entsprechenden Genehmigung verknüpft und erstmalig angestoßen. Die Website wird mit dem Crawler Heritrix geharvestet, der vom Internet Archive speziell für die Webarchivierung entwickelt und in das Web Curator Tool integriert wurde.

Die Bayerische Staatsbibliothek macht alle archivierten Websites über ihren Katalog auffindbar und öffentlich zugänglich. Katalogisiert wird dabei die gesamte Website als intellektuelle Einheit und nicht jeder einzelne Webschnitt einer Website. Der Nutzer erhält einen Link, der ihm mittels dem Viewer OpenWayback zunächst eine chronologische Übersicht aller im Archiv vorhandenen Zeitschnitte einer Website bietet, die er dann einzeln gezielt aufrufen kann. Ebenso erfolgt eine Verzeichnung der archivierten Websites in den Internetressourcen-Führern der Virtuellen Fachbibliotheken bzw. Fachinformationsdienste und steht damit auch in den fachspezifischen Informationsportalen für wissenschaftliche Recherchen zur Verfügung.



V. 4.2.1 de

zur Homepage der BSB

dsa_logo

Workshop Webarchivierung

Die Archivierung des Web als Mittel des digitalen Bestandsaufbaus: Eine Standortbestimmung. Unser Workshop startet am 10.03.2016 um 11.00 Uhr . Wir erwarten derzeit mehr als 55 Teilnehmer und freuen uns auf vielfältige und interessante Gespräche und Vorträge.

[Info & Anmeldung]

Neue Digitalisate in unseren Sammlungen

Neue Digitalisate in unseren Sammlungen

Täglich aktuell: Neue Digitalisate in den Digitalen Sammlungen der Bayerischen Staatsbibliothek. Titel online: 1.197.540Neue Digitalisate in unseren Sammlungen

[23.01.2017]

Bildähnlichkeitssuche recherchiert in 43 Millionen Bildern nach ähnlichen Motiven

Bildähnlichkeitssuche recherchiert in 43 Millionen Bildern nach ähnlichen Motiven

Die Bayerische Staatsbibliothek vergrößert erneut ihr digitales Angebot. Nutzer aus Wissenschaft und Forschung können ab sofort mit der neuen Version der Bildähnlichkeitssuche alle bis heute vorhandenen Digitalisate – also ca. 1,2 Millionen Bände mit rund 270 Millionen Buchseiten und 43 Millionen Bildern – nach ähnlichen Motiven und Bildern durchsuchen. Dabei werden Illustrationen mittelalterlicher Bibelhandschriften ebenso berücksichtigt wie Fotos aus Boulevardzeitungen der 1920er Jahre. Die Ähnlichkeitssuche fördert auf diese Weise unbekannte, ungewöhnliche und oftmals überraschende Bezüge zwischen unterschiedlichsten Werken aus verschiedenen Epochen zu Tage. Das Angebot wird vom Münchener Digitalisierungszentrum betreut und steht auch für mobile Endgeräte zur Verfügung.

Zur vollständigen Pressemitteilung der BSB
Zur BildähnlichkeitssucheBildähnlichkeitssuche recherchiert in 43 Millionen Bildern nach ähnlichen Motiven

[18.01.2017]

Das Historische Lexikon Bayerns: Über eine Million Seitenzugriffe im Jahr 2016

Das Historische Lexikon Bayerns: Über eine Million Seitenzugriffe im Jahr 2016

Das vom Münchener Digitalisierungszentrum technisch betreute Historische Lexikon Bayerns (HLB) kann eine erfolgreiche Bilanz ziehen: 2016 hat das Online-Lexikon mit über einer Million Seitenzugriffen einen Rekord verzeichnet. Im Vergleich zum Vorjahr bedeutet dies eine Steigerung um ca. 40 Prozent. Und auch die Besucherzahlen stimmen. Über 630 000 Nutzerinnen und Nutzer aus aller Welt haben 2016 unter www.historisches-lexikon-bayerns.de das umfassende Informationsangebot zur bayerischen Geschichte in Anspruch genommen – so viele wie noch nie.

Zur vollständigen Pressemitteilung der BSB
Zum Historischen Lexikon BayernsDas Historische Lexikon Bayerns: Über eine Million Seitenzugriffe im Jahr 2016

[18.01.2017]

Neuzugänge in bavarikon im Januar 2017

Neuzugänge in bavarikon im Januar 2017

Neuzugänge in unserem Portal bavarikon im Januar: Fünf neue 3D-Objekte, darunter eine Bügelfibel, eine Gesichtsmaske für Reiterkampfspiele und eine Statuette des Herkules, sowie 64 Musikalische Cimelien, u. a. von Haydn, Mozart, Beethoven, Schubert und zahlreichen anderen Komponisten.Neuzugänge in bavarikon im Januar 2017

[16.01.2017]

Literaturportal Bayern präsentiert literarische Glanzlichter der Bayerischen Staatsbibliothek

Literaturportal Bayern präsentiert literarische Glanzlichter der Bayerischen Staatsbibliothek

In einer eigenen Reihe stellt die Redaktion des Literaturportals Bayern literarische Schätze aus dem Archiv der Bayerischen Staatsbibliothek vor: ausgewählte Höhepunkte, die in ihrer Entstehung, Überlieferung und Wirkung einen Bezug zu Bayern haben und in die Literaturgeschichte eingegangen sind. Spannweite und Vielfalt dieser Literatur aus zwölf Jahrhunderten lassen sich aus digitalisierten Handschriften, Drucken, Manuskripten und Briefen exemplarisch ablesen, die im Kulturportal bavarikon versammelt sind. Eine Auswahl wird im Blog des Literaturportals präsentiert. Bisher wurden vier literarische Schätze aus der Bayerischen Staatsbibliothek vorgestellt: Das Wessobrunner Gebet, der Ehrenbrief von Jakob Püterich von Reichertshausen, die Kunst Ciromantia von Johannes Hartlieb, sowie ein Brief Kaspar Hausers an Magdalena von SchultesLiteraturportal Bayern präsentiert literarische Glanzlichter der Bayerischen Staatsbibliothek

[12.12.2016]

zur Homepage des MDZ