Speichern einer web-Seite und der extern verlinkten assets als unabhängige statische Ressource
Wir haben eine Anforderung zum cache-web-Seiten so genau wie möglich, so dass wir zurück gehen können und anzeigen einer version einer Seite zu jedem früheren Zeitpunkt. Wir möchten in der Lage sein, um die Seite anzuzeigen, wie Sie wirklich war - mit dem richtigen css, javascript, Bilder etc.
Gibt es irgendwelche OS-Bibliotheken (alle Sprachen), der Abruf einer Seite, download aller extern verlinkten assets und re-schreiben die links wie Sie Sie zeigen, um die lokal zwischengespeicherten Vermögen?
Oder ist dies ein Fall von rolling unsere eigenen?
Dank
Edit: mir ist klar, dass ohne rendering dynamisch generierte links, etc, dass dies nicht zu 100% möglich, es sei denn, wir tun, DOM-rendering. Aber vorerst können wir wohl Leben, ohne diese.
- Richard, bitte wählen Sie die richtige Antwort, oder sagen Sie uns, was Sie noch brauchen, dass die hier vorgestellten Lösungen nicht.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Schlage ich vor, HTTrack:
http://www.httrack.com/
Weil die software ist kostenlos, open source und unterstützt sowohl visuelle Schnittstelle und Befehl-Linie, ich glaube, man kann Sie integrieren oder passen Sie es Ihren Bedürfnissen reibungslos.
Siehe die Beschreibung:
"HTTrack können Sie download a World Wide Web site aus dem Internet in ein lokales Verzeichnis, Gebäude rekursiv alle Verzeichnisse bekommen, HTML, Bilder und andere Dateien vom server auf Ihren computer.
Es ordnet die original-Website der relative link-Struktur. Öffnen Sie einfach eine Seite der "gespiegelten" - website in Ihrem browser und durchsuchen Sie die Website von link zu link, als wenn Sie wurden anzeigen es online.
Kann das update auch eine bestehende gespiegelte Website, und abgebrochene downloads wieder aufnehmen."
, Was OS Sie laufen können, es:
WebHTTrack für Linux/Unix/BSD: Debian, Ubuntu, Gentoo, RPM-Paket (Mandriva & RedHat), OSX (MacPorts), Fedora und FreeBSD i386-Pakete.
WinHTTrack für Windows 2000/XP/Vista/Seven
--
Update: das Projekt ist aktiv und die aktuelle version wurde eingereicht, in 04/01/2017
warum gelten nicht, ein base-href zu den Seiten, ersetzen Sie die internen absoluten links durch relative absolute und halten Sie die Struktur?
Könnten Sie die mht/mhtml-format zu speichern, als ein einheitliches Dokument.
Wiki-Beschreibung: http://en.wikipedia.org/wiki/MHTML
Eine schnelle Suche zeigen einige Quellen der code, dies zu tun.