Spiegel einzelne Seite mit httrack
Ich versuche, mit httrack ( http://www.httrack.com/ ), um zum laden einer einzelnen Seite, nicht die gesamte Website. Also, wenn Sie zum Beispiel mit httrack zum herunterladen www.google.com es sollte nur der download der html finden Sie unter www.google.com zusammen mit allen stylesheets, Bildern und javascript und nicht Folgen Sie den links zu images.google.com, labs.google.com oder www.google.com/subdir/etc.
Ich habe versucht, die -w
option, aber das machte keinen Unterschied.
Was wäre der richtige Befehl?
BEARBEITEN
Versuchte ich mit httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1
aber dann nicht kopieren, keine Bilder.
Was ich im Grunde will, ist nur das herunterladen der index-Datei der Domäne, zusammen mit allen Vermögenswerten, aber nicht den Inhalt jeglicher externen oder internen links.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Könntest du wget anstelle von httrack?
wget -p
herunterladen einer einzigen Seite und mit all seinen "Voraussetzungen" (Bilder, stylesheets).httrack
, so auf der Strecke bleiben. wget nicht ausführen JSwget
schlägt fehl, wenn die Ressourcen haben, Abfragezeichenfolgen. Es download-Dateien mit dem Namen mit dem querystring selbst.wget
funktioniert nicht richtig für einige sites/Seiten. Ich brauchte, umhttrack
als pro @torger Antwort unten, um alle benötigten CSS-Dateien und die links korrigiert.option-n (oder-Nähe) herunterladen von Bildern auf einer Webseite, egal wo es sich befindet.
Sagen Bilder befinden sich in google.com/foo/bar/logo.png. wie, Sie sind mit s0(Aufenthalt auf gleichen Verzeichnis), es wird nicht das Bild herunterladen, es sei denn, Sie geben --in der Nähe von
Blick auf das Beispiel:
Der Letzte Teil ist eine regex. Nur ein völlig passenden regex.
Hatte ich zu lokalisieren, sonst bekomme ich eine redirect-Seite. Sie sollten lokalisieren, je nachdem, was google bekommen Sie gerichtet.
-
in Ihren Parametern.Zweck der HTTTrack ist das follow-links. Versuchen Sie
--ext-depth=0
.