Das Internet archivieren – eine gigantische Aufgabe

Zahlen und Daten zum Internet und die Rolle des Internet Archives

Beim Lesen eines Buchbeitrags zum persönlichen Informationsmanagement (PIM) bin ich erstmals auf die ganz große Problematik der Erhaltung, Langzeitsspeicherung und Wiederauffindung von Internet Ressourcen gestoßen [1]. Obwohl es Catherine Marshall in diesen interessanten – und über das Internet frei erhältlichen – Artikel How People Manage Personal Information Over a Lifetime (PDF, 84 kB) – vor allem um den Umgang mit persönlichen (An)sammlungen von digitalisierten Daten geht, wird in einer Stelle prominent auf das Internet Archive verwiesen.

Im Zusammenhang mit Zotero hatte ich bereits vor einigen Wochen erstmals vom Internet Archive gelesen [2]. Jetzt jedoch – im Zusammenhang meiner Recherchen zu den neueren Entwicklungen der Bibliotheken und der damit zusammenhängenden Entwicklung von digitalen Repositorien – gewann dieser Hinweis eine andere Bedeutung. Was ist das Internet Archive? Was will es und wozu brauchen wir es?

Error 404 – Site Not Found

Eine normale Webseite – so analysierte eine Studie aus dem Jahr 2000 – hat nur eine durchschnittliche Lebensdauer von 44 Tagen. Woher ich diese Zahl habe? Nun: Diese Zahl wird im obigen Artikel [1:68] mit Verweis auf Lyman 2002 [3] erwähnt. Sucht man dann jedoch diese referenzierte Studie auf, so erfährt man, dass die Zahlen aus einer 2000 im Internet veröffentlichen Studie stammen, die allerdings selbst bereits das Zeitliche gesegnet hat und nicht mehr im Netz ist. Catch-22! Kein Wunder auch, sind doch 44% aller Webseiten von 1998 bereits ein Jahr später bereits verschwunden.

Glücklicherweise ist Peter Lyman selbst ein Autor dieser Studie gewesen und hat (a) nicht nur die originalen Quellen und Daten von 2000 samt Exceltabelle reproduziert, sondern (b) auch die Studie 2003 mit einer Gruppe von Forschern wiederholt [4]. (Allerdings ohne nochmals auf die durchschnittliche Lebensdauer von Webseiten einzugehen.)

Es gibt eine konzeptionelle und damit letztlich unvermeidliche Ursache für das Error 404 Problem: Die schrittweise „Linkverwesung“ (link rot) ist der Struktur des Internet inhärent. Sie ist auf die damalige Entscheidung von Tim Berners-Lee zurück zu führen, das Internet so einfach wie möglich zu gestalten. Der Hyperlink wurden unidirektional (statt bidirektional) konzipiert. Damit ist das Generieren von Außenlinks (Outbound Links) unabhängig von jenen Stellen, auf die die URLs verweisen. Im Normalfall weiß also die Stelle auf die der Link verweist, nichts davon und kann daher auch nicht etwaige Änderungen mitteilen. Berner-Lees Konzept hat daher zu einer sich selbst organisierenden, nicht-hierarchischen aber auch chaotischen Struktur des WWW geführt. Diese einfache Struktur war aber auch dafür verantwortlich, dass sich das Web innerhalb kürzester Zeit weltweit durchsetzen konnte. (Ich habe kürzlich irgendwo gelesen, dass Berners-Lee gefragt wurde, ob er aus heutiger Sicht etwas anders machen würde. Seine Antwort: Ja die doppelten Schrägstriche bei der Adresse http://… würde er heute weglassen. Sie haben zu Millionen Stunden verlorener Lebenszeit geführt, wenn man bedenkt, wie viele Leute sie wie häufig ständig eingeben müssen.)

Langlebigkeit und/oder Archivieren?

Dem Problem der Flüchtigkeit von Webseiten lässt sich mit zweierlei Strategien zu Leibe rücken:

  1. Langlebige (persistente) Kennzeichnungen: Hier tut sich in letzter Zeit sehr viel und es ist noch nicht ganz klar, welcher Ansatz sich hier durchsetzen wird. Es ist hier nicht der Platz darauf näher einzugehen. Stellvertretend und unvollständig möchte ich aber doch die Idee beschreiben und einige Fachbegriffe wie DOI, ARK, PURL und OpenURL erwähnen. Die prinzipielle technische Idee besteht von persistenter Identifikation besteht darin, dass zwischen URL,URN und URI unterschieden wird. Statt direkt auf den Ort (Location) der Ressource zu zeigen (URL = Unified Resource Locator), wird die Ressource (a) mit einem eindeutigen Kennung bzw. Identifizierungskennzeichen versehen, das (b) über eine spezielle Resolver Software „aufgelöst“ wird, indem auf die aktuelle URL verwiesen wird. Diese technische Lösung funktioniert aber nur dann, wenn die Eigentümer der Ressource auch tatsächlich jede Änderung auch immer in die Resolver Datenbank eintragen. Letztlich kommt es bei Lanlebigkeit (Persistenz) von Internet Ressourcen also nicht bloß auf die technische Lösung an, sondern auf die Verläßlichkeit der dahinterstehende(n) Person(en) oder Organisation(en). Ein guter Überblick zu dieser gesamten Problematik findet sich in Implementing Persistent Identifiers (PDF, 588kB) [5].
  2. Archivierung: Auch dieser Lösungsansatz ist nicht trivial, wenn man die enormen Ausmaße und Wachstum des Internets berücksichtigt: Bereits Anfang 2005 wurde die Größe auf 11,5 Milliarden Seiten geschätzt [6:81]. Und selbst diese damalige Zahl bezieht sich nur auf das „flache“ Web, also jene Seiten, die öffentlich zugänglich sind und nicht durch Passwörter in einem Intranet verdeckt sind oder durch Datenbanken dynamisch generiert werden (sog. „deep Web“). Das Wachstum der Webseiten hat sich zwar etwas eingebremst gegenüber 1993 als noch alle 3 Monate eine Verdoppelung erreicht wurde. Der Grund für diese kurze Verdoppelungszeit lag natürlich in der damaligen relativ geringen Menge an Webseiten. Heute sind etwa 77 Mio. Websites online, eine Zahl, die sich jährlich um etwa 13 Mio erhöht. (eigene Extrapolation einer Tabelle bei [6:82] Ende Dezember wurden lt. Internet World Stats 1,32 Mrd. InternetbenutzerInnen geschätzt, was einem Wachstum von über 265% zwischen 2000-2007 entspricht. Heute ist jeder 5. Erdbewohner bereits mit dem Internet verbunden. Insgesamt werden

Das Internet Archive – eine wichtige Initiative

Eine wesentliche Rolle bei der Archivierung von Internetressourcen spielt das 1996 von Brewster Kahle gegründete Internet Archive. Als gemeinnützige Organisation hat es sich die Aufgabe gestellt, einen Beitrag zur Bewahrung unseres kulturellen Erbes – das sich zunehmend auch über die Internet Resourcen manifestiert – zu leisten. Mit der speziell für Archivzwecke entwickelten Open Source Software (sog. „Crawler“) Heritrix werden in Zusammenarbeit mit der Suchmaschine Alexa ständig weltweit die Webseiten durchsucht und archiviert. Alexa stellt die Webseiten nach einer 6-monatigen „Schonfrist“ – also dann, wenn die Daten kommerziell nicht mehr besonders interessant und verwertbar sind – dem Internet Archive zu Verfügung. Über eine spezielle Software der sogenannten Wayback Machine kann dann auf diese archivierten Seiten zugegriffen werden. So finden Sie z.B. alte Versionen meiner Homepage unter: http://web.archive.org/web/*/http://www.peter-baumgartner.at.

Bereits 2006 hatte das Internet Archive über 2 petabyte (!) Daten archiviert. Das ist eine unvorstellbare Datenmenge, die sich aus der Reihenfolge Kilo-Mega-Giga-Teray-Peta oder auch durch 1015 (eine 1 mit 15 Nullen hinten dran: 1,000,000,000,000,000) erahnen lässt. Das Arhciv wächst mit mindestens 20 terabytes pro Monat, womit es sogar die Wachstumsrate der Library of Congress – der weltweit größten Bibliothek – übertrifft. Das Internet Archive war nicht unumstritten und es gab in den USA auch bereits einige Musterprozesse bezüglich Copyright, die aber alle inzwischen gewonnen bzw. beigelegt wurden: BetreiberInnen einer Webseite können ja über den robots.txt Standard Suchmaschinen den Eintritt in die eigene Webseite verbieten. Tun sie das nicht, dann haben sie indirekt der Archivierung zugestimmt.

Nach einer turbulenten Zeit ist das Internet Archive (IA) inzwischen vom Staat Californien als Bibliothek anerkannt und Mitglied der American Library Asociation (ALA).Die enormen Datenbestände des IA werden in der Bibliothek von Alexandrien (Ägypten) gespiegelt. Das IA ist somit die einzige Bibliothek weltweit mit einer Spiegelung d.h. Verdoppelung ihrer Datenbestände. Eine sehr gute Einführung in die Idee des IA gibt ein Interview (englisch, jedoch mit deutschen Untertiteln) von Brewster Kahle im Elektronischen Reporter (ein übrigens sehr witziger und trotzdem gleichzeitig informativer Videokanal oder Vodcast des Handelsblatt).

Literaturliste

  • [1] Marshall, Catherine C. 2007. How People Manage Information over a Lifetime. In Personal Information Management, Hg. v. William Jones und Jaime Teevan, 57-75, Seattle, Washington, United States: University of Washington Press http://www.csdl.tamu.edu/~marshall/PIM%20Chapter-Marshall.pdf (Zugegriffen März 26, 2008).
  • [2] Owens, Trevor. 2007. Zotero and the Internet Archive Join Forces. Zotero: The Next-Generation Research Tool. http://www.zotero.org/blog/zotero-and-the-internet-archive-join-forces/ (Zugegriffen März 30, 2008).
  • [3] Lyman, P. 2002. Building a National Strategy for Preservation: Issues in Digital Media Archiving, chapter Archiving the World Wide Web. 100, Washington, D.C. http://www.clir.org/pubs/reports/pub106/pub106.pdf (Zugegriffen März 28, 2008).
  • [4] Lyman, Peter, Hal R. Varian, Kirsten. Swearingen, und Peter Charles. 2003. How much information? 2003. University of California: Berkeley. School of Information Management and Systems. http://www.sims.berkeley.edu/research/projects/how-much-info-2003/.
  • [5] Hilse, Hans-Werner, und Jochen Kothe. 2006. Implementing Persistent Identifiers. Consortium of European Research Libraries http://www.knaw.nl/ecpa/publ/pdf/2732.pdf (Zugegriffen März 13, 2008).
  • [6] Witten, Ian H., Marco Gori, und Teresa Numerico. 2006. Web Dragons: Inside the Myths of Search Engine Technology. Academic Press.

Flattr this!

Verschlagwortet mit , , . Bookmark the permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Time limit is exhausted. Please reload CAPTCHA.