Wayback Machine – Zeitreisen im Internet

Der Beitrag erklärt die Bedeutung und Handhabung von Wayback Machine, einem kostenlosen und frei zugänglichen Service von Internet Archive, der weltgrößten digitalen Bibliothek.

Bereits im Jahre 2008 habe ich über die Wayback Machine und das Archivieren von Internetquellen geschrieben: Ein Artikel beschäftigte sich mit Webcite®, einem inzwischen aufgelassenen (kostenlosen) Dienst. Der andere Beitrag beschäftigte sich bereits mit dem Internet Archive, der heute weltgrößten digitalen Bibliothek.

Qualitätssicherung und Reproduzierbarkeit

Anlassfall für die damaligen Beiträge waren unter anderem wissenschaftliche Arbeiten meiner Studierenden, die sich thematisch mit dem Internet beschäftigten, bzw. Quellen aus dem Internet zitierten.

Als besonderes Problem stellte sich dabei die Frage: Wie kann Qualitätssicherung und Reproduzierbarkeit – beides extrem wichtige Eigenschaften für die Entwicklung von Wissenschaft – gesichert werden, wenn die Quellenlage im Internet extrem instabil ist? Ich meine hier nicht nur, dass Webseiten verschwinden, sondern auch – was für die Nachvollziehbarkeit noch weit gefährlicher ist – dass sie sich häufig zwischenzeitlich inhaltlich geändert haben. Wie kann da z.B. ein kritisches Zitat, das auf eine bestimmte Textstelle abzielt, Jahre später überprüft werden?

Ich habe damals Webcite® zum permanenten Archivieren präferiert und erklärt, wie der Dienst genutzt werden kann. Die damals gespeicherten Seiten sind zwar noch vorhanden und können weiterhin zitiert werden, aber es ist nicht mehr möglich Webseiten zu archivieren. Deshalb möchte ich mich hier mich auf die Services von Internet Archive konzentrieren.

Universal Access to All Knowledge

Das Internet Archive ist eine nicht auf Gewinn orientierte Organisation, die ihre digitale Bibliothek als freien Zugang für Forscher*innen, Personen, die keine Druckerzeugnisse nutzen können sowie ganz generell für die allgemeine Öffentlichkeit organisiert hat. Das Internet Archive ist DIE Organisation, die heute weltweit einzigartig unser kulturelles digitales Erbe sammelt, archiviert und öffentlich zugänglich haltet. Seit 1996 wurden inzwischen 569 Milliarden (!) Webseiten archiviert.

Screenshot eines Ausschnitt der Startseite von Internet Archives, die zeigt wieviele digitale Ressourcen in verschiedenen Kategorien bereits archiviert wurden. Kategorien sind: gesamt 569 Milliarden, Bücher 31 , Filme 7,1, Musik 13, TV 2,2 Bilder 3,9 Millionen und Tonaufnahmen 227.000.
Abb. 1: Internet Archive ist eine gemeinnützige Organisation, die (Stand 24. Mai 2021) über 569 Milliarden digitale Ressourcen frei zur Verfügung stellt.

Ich möchte die Nutzung des Internet Archives in drei Aspekten beschreiben:

  1. Wie finde ich eine historische Internet Ressource?
  2. Wie erstelle ich eine permanent einsehbare und zitierfähige Internet Ressource?
  3. Wie zitiere ich eine historische Internet Ressource?

Ein wichtiger vierter Aspekt – die professionelle Nutzung der archivierten Internetquellen für historische Forschungen – benötigt statistische und publizistische Infrastruktur. Deshalb habe ich diesen Aspekt in meinem englischen Weblog unter Nutzung von R und blogdown/Hugo beschreiben.

Wayback Machine und ähnliche Dienste

Das wichtigste Werkzeug zur Nutzung des Internet Archivs ist die Browser-Erweiterung zur Wayback Machine. Aber Achtung: Es gibt bereits einige ähnliche Plugins, die jeweils verschiedene Aspekte des Services betonen. Ich konzentriere mich hier auf den offiziellen Plugin des Internet Archives, der alleine über Google Chrome bereits über 100.000 mal installiert wurde und auch für FireFox (13.288 Nutzer*innen) erhältlich ist.

Screenshot der Download-Seite von Google Chrome Erweiterungen, die jene Erweiterungen anzeigt, die eine Ähnlichkeit mit der Wayback-Machine des Internet Archives haben.
Abb. 2: Es gibt mehrere Browser-Erweiterungen, die das Logo des Internet Archives anzeigen, aber nicht das offizielle Plugin darstellen. Obwohl einige durchaus nützlich sind, konzentriere ich mich hier auf die „offizielle“ Version, die auch die umfassensten Services bereit stellt.

Obwohl ich mich auf den „offiziellen“ Plugin konzentriere, möchte ich doch auf einige andere interessante Erweiterungen hinweisen:

  • Wayback Machine: 100.000+ Users. Last update: August 11, 2020. Die offizielle Browser-Erweiterung des Internet Archives. Wird im Artikel noch näher beschrieben.
  • Memento Time Travel: Harihar Shankar, 3000+ Users. Last update: March 28, 2018. — Der erste Plugin, der das Memento Projekt realisiert, auf das sich auch die API vom Internet Archive bezieht. Ich gehe auf das Memento Protocol noch näher in meinem englischen Beitrag Memento Time Travel ein.
  • Save to the Wayback Machine: https://verifiedjoseph.com/, 10.000+ Users. Last update: April 7, 2021. Archiviert Webseiten mit Hilfe der Wayback Machine in das Internet Archive.
  • Wayback Everywhere: Gokulakrishna Sudharsan, 980 Users. Last update: January 26, 2019. Lenkt automatisch alle Seiten, auf die in der Wayback Machine archivierte Version. Es kann festgelegt werden, welche Seiten von der Umleitung ausgeschlossen werden sollen.
Ausschnitt aus der Einstellungsseite von Brave Browser, die zeigt, dass das Wayback-Service des Internet Achrives bereits integriert ist. Die Funktion "Wayback-Machine-Hinweis auf 404 Seiten anzeigen" kann ein- oder ausgeschaltet werden.
Abb. 3a: Brave, der Browser, den ich persönlich verwende, hat das Service der Wayback-Machine bereits integriert.
Screenshot einer 404 Fehlermeldung meiner Webseite in Brave Browser, die rechts oben eine rote Schaltfläche anbietet mit dem Text: "Auf gespeicherte Version überprüfen?"
Abb. 3b: Wird eine Seite einer existierenden Domäne nicht gefunden, bietet Brave mir an nachzuschauen, ob eine im Internet Archive gespeicherte Version dieser Seite existiert.
Logo der Wayback Machine mit dem text: "Page not available? View a saved version courtesy of the Internet Archive Wayback Machine. Click here toi see archived version". Wobei Wayback Machine ganz groß geschrieben und rot hervorgehoben ist.
Abb. 3c: Wenn die Browser-Erweiterung „Wayback Machine“ installiert und eingeschaltet ist, dann erscheint (manchmal) obige Grafik und es kann gleich nach dieser Webseite gesucht werden.

Wayback Machine: Archivierte Seiten finden

Es gibt zwei Möglichkeiten eine bestimmte archivierte Seite zu finden:

Internet Archive Startseite

Die einfachste Möglichkeit ist es, direkt auf der Startseite von Internet Archive die URL eingeben. Er scheint dann eine kalenderartige Darstellung, die grafisch anzeigt, wie lange zurück diese Seite und wie häufig sie archiviert worden ist.

Abb. 4: Internet Archive hat Gedankensplitter 2002 begonnen zu archivieren. Insgesamt wurde meine Startseite bis heute (24.5.2021) 419x archiviert, wobei besonders 2005 viele Schnappschüsse gemacht wurden.

Es kann im Kalender geblättert werden und eine bestimmtes Archivierungsdatum ausgewählt und die damalige Seite aufgerufen werden. So kann z.B. angezeigt werden, wie sich die Seite über die Jahre verändert hat.

Internet Archive Plugin

Eine andere Möglichkeit besteht über die Browser-Erweiterung. Von einer Webseite kann direkt die zuletzt archivierte, die erste archivierte oder aber die Kalender-Version aufgerufen werden („recent version“, „first version“ oder „Overview“). Es kann auch direkt die URL einer Seite eingegeben werden (Feld „Search“) um die letzte archivierte Version zu suchen.

Abb. 5: Aufruf der Browser-Erweiterung „Wayback Machine“

Es gibt bei der Wayback Machine Erweiterung noch weitere Dienste auf die ich hier – mit Ausnahme von „Save Page now“ – nicht eingehe.

Wayback Machine: Seiten archivieren

Die meisten Seiten, die wir über die Wayback Machine angezeigt bekommen, sind automatisch archiviert worden. Das hat den Nachteil, dass keine explizite Steuerung möglich ist. So schwankt die Frequenz von Schnappschüssen mit der Besucher*innen-Zahl der Seite. Am häufigsten werden deshalb die Startseiten archiviert.

Wenn aber eine ganz bestimmte Seite später noch reproduzierbar sein soll, so muss sie manuell archiviert werden. Dieses Service ist kostenlos und frei zugänglich, funktioniert aber nur für Seiten, die dies zulassen, also sog. „Internet-Crawler“ nicht verbieten.

Wiederum gibt es zwei Möglichkeiten: Entweder über die Seite des Internet Archive selbst, oder über die Browser-Erweiterung. In dem einen Fall (Abb. 6) muss die URL in das Feld „Save Page Now“ manuell eingegeben werden. Mittels des Plugins braucht nur die grüne Schaltfläche „Save Page Now“ geklickt werden.

Abb. 6: Über das Eingabefeld „Save Page Now“ im rechten unteren Bereich kann die URL einer Seite eingegeben werden, die zum gegenwärtigen Zeitpunkt archiviert werden soll.

Die Wayback Machine zeigt die Seite – sobald sie erfolgreich archiviert ist – an. Das kann aber einige Zeit (etwa eine Minute) dauern.

Abb. 7: Die neu archivierte Seite. Aus der URL lässt sich der genaue Zeitpunkt entnehmen. https://web.archive.org/web/20210524110201/https://peter.baumgartner.name/ bedeutet 24.Mai 2021, um 11:02 und eine Sekunde Uhr (+2 Stunden).

Auch in der Kalenderansicht gibt es nun den neuen Eintrag.

Abb. 8: Die Kalenderansicht zeigt das Datum und die genaue Zeit, wann die Seite archiviert worden ist. Mit der langen URL https://web.archive.org/web/20210524110201/https://peter.baumgartner.name/ kann dann immer darauf verwiesen werden. (Für den praktische Gebrauch können URL-Verkürzer (URL-Shortener) genutzt werden.

Wayback Machine Seiten korrekt zitieren

Der dritte und letzte Aspekt, den ich hier noch beschreiben möchte, ist die korrekte bibliographische Quellenangabe der archivierten Internet-Ressource.

Internet Archive fragte die Modern Language Association (MLA) wie archivierte Internetquellen zitiert werden sollen.

MLA said that there is no established format for resources like the Wayback Machine, but it’s best to err on the side of more information. You should cite the webpage as you would normally, and then give the Wayback Machine information

FAQs: How do I cite Wayback Machine urls in MLA format?

Inzwischen gibt es einen expliziten Eintrag im MLA-Handbuch dazu mit einem konkreten Beispiel

If an online source becomes defunct before I turn in or publish my paper, what do I do?

The primary goal of documentation is not to ensure perpetual access to a source but to verify the publication facts of the version you consulted. Thus it is acceptable to cite the original version with the defunct URL:

Bluestone, Gabrielle. “Three Jailed in Myanmar for Posting Image of a Buddha Wearing Headphones.” Gawker, 19 Mar. 2015,  gawker.com/three-jailed-in-myanmar-for-posting-image-of-a-buddha-w-1692317287.  

If you subsequently fact-check your work using an archiving website such as Wayback Machine, however, we recommend that you cite the new version of the page that you have consulted; be sure to include the name of the original site in your entry:

Bluestone, Gabrielle. “Three Jailed in Myanmar for Posting Image of a Buddha Wearing Headphones.” Gawker, 19 Mar. 2015. Wayback Machine, web.archive.org/web/20150319101001/http://gawker.com/three-jailed-in-myanmar-for-posting-image-of-a-buddha-w-1692317287.

Ich halte jedoch den ersten Teil der Argumentation, nämlich dass ein ständiger Zugang zur Quelle nicht das primäre Ziel der Dokumentation ist, für falsch. Das widerspricht aus meiner Sicht dem Kriterium der Überprüfbarkeit, und damit der Qualitätssicherung und Reproduzierbarkeit wissenschaftlicher Arbeiten. Genau deshalb ist ja die Wayback Machine so wichtig!

Die richtige Zitierweise einer Internet-Ressource, die mit der Wayback Machine archiviert wurde, besteht also darin, dass zur ursprünglichen Quelleangabe auch noch der Zusatz

Wayback Machine, <archivierte URL>

angegeben wird.

Zusammenfassung

Der Beitrag bespricht verschiedene Aspekte von permanent archivierten Internetquellen. Neben der Bedeutung für die Wissenschaft (Qualitätssicherung, Reproduzierbarkeit und Forschungsquelle) erkläre ich die Handhabung von Wayback Machine, einem kostenlosen und frei zugänglichen Service von Internet Archive. Gezeigt wird einerseits, wie eine archivierte Ressource gefunden und zitiert wird. Andererseits erkläre ich auch, wie eine aktuelle Quelle permanent archiviert wird, damit genau jener inhaltlicher Zustand, auf den es ankommt, jederzeit eingesehen bzw. nachvollzogen werden kann.

Von Peter Baumgartner

Seit mehr als 30 Jahren treiben mich die Themen eLearning/Blended Learning und (Hochschul)-Didaktik um. Als Universitätsprofessor hat sich dieses Interesse in 13 Bücher, knapp über 200 Artikel und 20 betreuten Dissertationen niedergeschlagen. Jetzt in der Pension beschäftige ich mich zunehmend auch mit Open Science und Data Science Education.

Eine Antwort auf „Wayback Machine – Zeitreisen im Internet“

[…] Gerade dort, wo es um die Überprüfbarkeit von Online-Quellen geht, also zum Beispiel in wissenschaftlichen Arbeiten, kann das Internet Archive eine wichtige Rolle spielen. Der Dienst bietet übrigens auch Services, die mir gar nicht bewusst waren, wie zum Beispiel die verschiedenen Browser-Erweiterungen und die Möglichkeit der manuellen Archivierung einzelner Seiten. Peter Baumgartner, Gedankensplitter, 27. Mai 2021 […]

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Captcha loading...