Benutzerspezifische Werkzeuge

Sektionen
Webseiten archivieren

Direkt zum Inhalt | Direkt zur Navigation

Webseiten archivieren

26.07.2014 in TechTalk
Mit httrack lassen sich ganz einfach dynamische Webseiten in statische HTML-Dateien umwandeln.

Es gibt mehrere Gründe, Webseiten als statische HTML-Dateien zu archivieren, unter anderem:

  • die Technologie/das Framework ist veraltet und wird auf aktuellen Webservern nicht mehr unterstützt. Ein Remake der Seite ist nicht wirtschaftlich, die bestehenden Inhalte sollen aber weiterhin verfügbar sein
  • Inhalte sollen ohne Webserver direkt im Browser verfügbar sein, z.B. der Produktkatalog wird für den Kunden auf eine CD gebrannt
  • die Webseite sollte in nicht mehr veränderbaren Zustand archiviert werden, um beispielsweise vor Gericht als Beweismittel verwendet werden zu können

Für Linux-Benutzer gibt es dafür das Werkzeug httrack, das die Inhalte herunterlädt, die Dateinamen in .html anpasst und die Pfade richtig hinbiegt.

Httrack lässt sich einfach mittels yum oder aptitude installieren, bzw. über das jeweilige Software-Center der Distribution.

Folgender Aufruf speichert dann anschließend die Seite webmeisterei.com nach /home/julian/webseite/webmeisterei-2014

httrack http://webmeisterei.com/ -W -O "/home/julian/websites/webmeisterei-2014"  -%v -s0 -A1024000 -%e*

Parameter:

  • -W lässt httrack die Seite spiegeln
  • -O zeigt das Zielverzeichnis
  • -%v zeigt den Fortschritt im Terminal an
  • -s0 ignoriert die robots.txt, notwendig für eine vollständige Archivierung
  • -A1024000 gibt die maximale Download-Geschwindigkeit an in Bytes/Sekunde
  • -%e* verhindert, dass externe Webseiten mit archiviert werden

Bei einer durchschnittlichen Webseite, kann dieser Vorgang leicht 1-3 Stunden dauern und mehrere Tausend Dateien anlegen. Das Ergebnis lässt sich in diesem Beispiel dann im Webbrowser unter file:///home/julian/webseite/webmeisterei-2014/webmeisterei.com/index.html öffnen.


Kommentare unterstützt durch Disqus

Webmeisterei GmbH, Bildgasse 10d, 6850 Dornbirn, AT, Telefon +43 5572 908000, Fax +43 5572 908000-15, office@webmeisterei.com