Website-Archivierung an der BSB

FAQs zur Web-ArchivierungFAQs zur Web-Archivierung

1. Allgemeine Informationen

In einer Pilotphase testete das MDZ der Bayerischen Staatsbibliothek die Website-Archivierung von fachlich einschlägigen Webressourcen, die im Rahmen der von der DFG geförderten Virtuellen Fachbibliotheken der BSB (b2i, Chronicon, Propylaeum, ViFaMusik, ViFaOst und ViFarom) und der Bayerischen Landesbibliothek Online (BLO), aufwändig erschlossen werden. Sie sind in den einzelnen Internetquellen-Datenbanken der ViFas nachgewiesen.

Im Januar 2012 wurde die Website-Archivierung in den Regelbetrieb überführt. Ab diesem Zeitpunkt wird die Bayerische Staatsbibliothek auch mit der regelmäßigen Sammlung, Archivierung und Bereitstellung der Websites von Behörden, Dienststellen und Einrichtungen des Freistaates Bayern beginnen. Gemäß der Bekanntmachung der Bayerischen Staatsregierung vom 2. Dezember 2008 (Az.: B II 2-480-30) zur Abgabe amtlicher Veröffentlichungen an Bibliotheken ist die Bayerische Staatsbibliothek als Archivbibliothek des Freistaates Bayern zur dauerhaften Speicherung und Bereitstellung von elektronischen amtlichen Veröffentlichungen verpflichtet. Die Sammlung der Websites durch die Bayerische Staatsbibliothek erfolgt zweimal jährlich mittels eines Harvesting-Verfahrens, ein aktives Handeln vonseiten der bayerischen Behörden und Einrichtungen ist im diesem Falle nicht notwendig. Dieses Vorgehen entspricht den Standards der Deutschen Nationalbibliothek.

Ziele und Grenzen der Website-Archivierung

Definitionen
Eine Website ist ein virtueller Platz im World Wide Web, an dem sich meist mehrere Webpages oder Dokumente (Dateien) und andere Ressourcen befinden. Diese sind unter einer http-Adresse zu erreichen. Das Internet kann als ein aktives „Publikationssystem“ bezeichnet werden, das ständig neue oder sich verändernde Inhalte produziert und in dem viele Informationen wieder verschwinden, weil sie ersetzt, verschoben oder gelöscht wurden. Zugleich wandeln sich auch die Darstellungsformen und Applikationen, mit denen die Inhalte präsentiert werden.
Ziel der Website-Archivierung ist es deshalb, (ausgewählte) Websites zu sammeln, persistent zu speichern und dauerhaft zur Verfügung zu stellen, nicht zuletzt um einem Wissensverlust durch die Abschaltung wissenschaftlich relevanter Angebote im WWW entgegenzuwirken.

Ziele
Im Rahmen der Website-Archivierung kann man grundsätzlich unterscheiden zwischen einem „domain harvesting“, das das gesamte Webangebot einer domain (z. B. *.de) umfasst, einem „selective harvesting“, das nur ausgewählte Websites speichert und dem sogenannten „event harvesting“, das das Internetangebot zu einem bestimmten Ereignis (z. B. Bundestagswahl 2009) archiviert. Das MDZ setzt derzeit ein selektives Harvesting ein.

Da sich die ständige Veränderung und Weiterentwicklung sowohl der Inhalte als auch der Darstellungsformen sehr schnell vollzieht, sind dem Ziel der Website-Archivierung Grenzen gesetzt. So wird es immer nur möglich sein, bestimmte Zeitschnitte einer Website abzubilden („Webschnitte“), z. B. die Archivierung eines Internetangebots im Halbjahres- oder Jahresrhythmus. Alle Veränderungen, die in der Zwischenzeit vorgenommen wurden, lassen sich nicht mehr nachvollziehen.

Von den Harvestern kann auch selten der gesamte Inhalt einer Website erfasst werden, da viele Inhalte dynamisch, z. B. durch eine Datenbankabfrage generiert werden („deep web“ oder „hidden web“) und somit nicht statisch zur Verfügung stehen. Auch dynamische Applikationen wie JavaScript, Flash-Angebote oder YouTube-Videos können zurzeit nicht geharvestet werden. Externe Verlinkungen werden grundsätzlich „abgeschnitten“, da die Archivierung sonst in zu großem Umfang vorgenommen würde. Die BSB setzt im Rahmen der Archivierung digitaler Objekte auf modernste Technik. Mit der reinen Speicherung der Websites allein ist es jedoch nicht getan. Der rasche technologische Wandel in der Internet-Welt lässt erwarten, dass in Zukunft ein zusätzlicher technischer Aufwand erforderlich sein wird, um ihre Nutzbarkeit zu erhalten.

2. Genehmigungsverfahren und -formular

Aus rechtlichen Gründen werden seitens der BSB nur Websites geharvestet, archiviert und bereitgestellt, für die eine explizite Genehmigung vorliegt oder die gemäß der Bekanntmachung der Bayerischen Staatsregierung vom 2. Dezember 2008 (Az.: B II 2-480-30) zur Abgabe amtlicher Veröffentlichungen an Bibliotheken als elektronische amtliche Veröffentlichungen von der BSB dauerhaft zu speichern und zugänglich zu machen sind. Deshalb wird, sofern es sich nicht um elektronische amtliche Veröffentlichungen einer Behörde, Dienststelle oder Einrichtung des Freistaates Bayern handelt, in einem ersten Bearbeitungsschritt eine Genehmigungsmail an den jeweiligen Website-Betreiber versandt. Dieser kann entweder per E-Mail dem Harvest- und Archivierungsverfahren zustimmen oder er sendet ein ausgefülltes Genehmigungsformular an die BSB zurück.

Da hier deutsches Recht geltend gemacht wird, liegen die Genehmigungsformulare ausschließlich in deutscher Sprache vor. Eine entsprechende Erläuterung in den gängigen anderen Sprachen kann aber jederzeit eingeholt werden. Erst wenn eine schriftliche Genehmigung des Website-Betreibers vorliegt (E-Mail oder Genehmigungsformular), kann der Harvest- und Archivierungsprozess gestartet werden. Wählen Sie dieses BewilligungFormblatt [PDF] für die Archivierungsbewilligung für eine Offline-Kopie einer Website oder eines Internet-Angebots.

3. Technik und Workflows

Die Bayerische Staatsbibliothek setzt für die Website-Archivierung das Web Curator ToolWeb Curator Tool ein. Die Open-Source-Software wurde von der British Library zusammen mit der National Library of New Zealand entwickelt und befindet sich auch an weiteren Institutionen seit mehreren Jahren erfolgreich im Einsatz.

Das Web Curator Tool bietet einen integrierten Bearbeitungsprozess von der Genehmigungseinholung, über den automatisierten Harvest-Prozess in bestimmten Zeit-Intervallen sowie die Qualitätskontrolle bis hin zur Archivierung.



Für einen automatischen Harvest-Prozess in bestimmten Intervallen (im Moment werden die ausgewählten Websites halbjährlich geharvestet) wird das „target“ (url) einmalig angelegt, mit dem Genehmigungsprozess verknüpft und erstmalig angestoßen. Seitdem wird von der Bayerischen Staatsbibliothek auch die regelmäßige Sammlung, Archivierung und Bereitstellung der Websites von ausgewählten Behörden, Dienststellen und Einrichtungen des Freistaates Bayern durchgeführt. Die Website wird mit dem Crawler Heritrix„Heritrix“ geharvestet, der vom Internet Archive„Internet Archive“ speziell für die Website-Archivierung entwickelt und in das Web Curator Tool integriert wurde.

Präsentation der archivierten Websites

Einerseits erfolgt eine Bereitstellung eines Website-Archivs direkt in den Virtuellen Fachbibliotheken als zusätzlicher Link zur aktuellen Website (in Vorbereitung). Andererseits macht die BSB alle archivierten Websites über ihren Katalog auffindbar und zugänglich. Katalogisiert wird das Webarchiv als intellektuelle Einheit und nicht jeder einzelne Webschnitt einer Website. Der Nutzer erhält einen Link, der ihm mittels der Wayback-MachineWayback-Machine eine chronologische Auflistung aller Webschnitte bietet, die er einzeln browsen kann.

4. Prozessbeschreibung

(Zum Vergrößern bitte auf die Grafik klicken)




V. 4.2.1 de

zur Homepage der BSB

dsa_logo

Neue Digitalisate in unseren Sammlungen

Täglich aktuell: Neue Digitalisate in den Digitalen Sammlungen der Bayerischen Staatsbibliothek. Titel online: 1.158.451Neue Digitalisate in unseren Sammlungen

[30.06.2016]

Neu in bavarikon

Neu in bavarikon

Aktuelle Neuzugänge in unserem Portal bavarikon: weitere Planzeichnungen und Fotografien aus dem Projekt "Ländliches Bauen in Bayern seit der Frühen Neuzeit", Handschriften und Drucke der BSB, davon 12 Glanzlichter und ein Lithografiestein in 3D aus dem Landesamt für Digitalisierung, Breitband und VermessungNeu in bavarikon

[29.06.2016]

Deutsche Biographie: Mehr Inhalte, verbesserte Gebrauchstauglichkeit und neue Funktionen

Deutsche Biographie: Mehr Inhalte, verbesserte Gebrauchstauglichkeit und neue Funktionen

2010 ging die Deutsche Biographie (DB), deren Kern die aktuell 48.000 Artikel der Allgemeinen Deutschen Biographie (ADB) und der Neuen Deutschen Biographie (NDB) bilden, online. Seitdem hat sich dieses von der Historischen Kommission bei der Bayerischen Akademie der Wissenschaften und der Bayerischen Staatsbibliothek (BSB) gemeinsam betriebene und seit vielen Jahren von der Deutschen Forschungsgemeinschaft (DFG) kontinuierlich geförderte Projekt stetig weiterentwickelt. In dem DFG-Förderzeitraum von Dezember 2014 bis Juni 2016 verdoppelte sich die Anzahl der recherchierbaren Personen in der DB auf nunmehr ca. 540.000. Darüber hinaus konnten die Suchfunktionen entscheidend verbessert werden: Informationen der verschiedenen Reiter "Index", "Partnerlinks", "Weitere Angebote", "Relationen", "Erwähnungen" und "Orte" wurden zusammengeführt, wodurch nun mit nur einem Klick der Zugriff auf hochwertige Partnerangebote ermöglicht wird. Zudem konnten innovative Funktionalitäten ergänzt werden, z.B. die grafische Veranschaulichung von "Lehrer-Schüler-Beziehungen". Schließlich wurden die Geofunktionen ausgebaut, so dass nun zu mehr als 17.000 Orten nach Persönlichkeiten gesucht werden kann. Weitere Informationen finden Sie in der aktuellen PressemeldungDeutsche Biographie: Mehr Inhalte, verbesserte Gebrauchstauglichkeit und neue Funktionen

[29.06.2016]

10 Jahre Historisches Lexikon Bayerns

10 Jahre Historisches Lexikon Bayerns

Das Historische Lexikon Bayerns (HLB) feiert heute sein 10jähriges Bestehen. Aus diesem Anlass wurde ein Lexikonbeitrag in eigener Sache publiziert. Weitere aktuelle Artikel befassen sich mit der Hochgerichtsbarkeit in Schwaben und Gerichtsverfahren im Spätmittelalter. Siehe auch die Pressemitteilung der BSB zum Jubiläum des HLB.10 Jahre Historisches Lexikon Bayerns

[23.06.2016]

Digitalisierungsarbeiten von „VD16 digital“ abgeschlossen

Digitalisierungsarbeiten von „VD16 digital“ abgeschlossen

Nach einer Laufzeit von ca. zehn Jahren wurden 2016 die Digitalisierungsarbeiten für das DFG-Projekt „VD16 digital“ abgeschlossen. Im ScanZentrum der Bayerischen Staatsbibliothek wurden dabei über 26.000 Titel digitalisiert. Im Rahmen des Projekts kam 2007 weltweit erstmals Scanrobotertechnik für Werke des 16. Jahrhunderts zum Einsatz. Die Digitalisate sind online zu finden.

[20.06.2016]

Aktuelles Stellenangebot

Aktuelles Stellenangebot

Wir suchen zum 1. September Verstärkung für unser Team und haben ein Stellenangebot veröffentlicht: Softwareentwickler (m/w).

[14.06.2016]

Aktuelles

Weitere aktuelle Meldungen

zur Homepage des MDZ