Wie Sie reguläre Ausdrücke in wget für die Ablehnung der Dateien?
Ich versuche zum herunterladen der Inhalte einer Webseite mit wget-tool. Ich benutzte option-R zu verwerfen einige Datei-Typen. aber es gibt einige Dateien, die ich nicht herunterladen möchten. Diese Dateien werden wie folgt benannt und haben keine Dateiendungen.
string-ID
Beispiel:
newsbrief-02
Wie ich sagen kann wget nicht zum download dieser Dateien (die Dateien, die Ihren Namen mit dem angegebenen string)?
InformationsquelleAutor Hakim | 2012-06-27
Du musst angemeldet sein, um einen Kommentar abzugeben.
Können Sie nicht geben Sie einen regulären Ausdruck in der
wget -R
- Taste, aber Sie können auch eine Vorlage (wie template-Datei in einer shell).Die Antwort sieht wie folgt aus:
Können Sie auch
?
- und symbol-Klassen[]
.Weitere Informationen finden Sie unter info wget.
InformationsquelleAutor Igor Chubin
Da (anscheinend) v1.14
wget
reguläre Ausdrücke :--reject-regex
und--accept-regex
(mit--regex-type posix
können standardmäßig festgelegt werden, umpcre
wenn kompiliert mitlibpcre
Unterstützung).Beachten Sie, dass es scheint, Sie können es verwenden
--reject-regex
nur einmal prowget
nennen. Das heißt, Sie haben zu verwenden|
in einem einzigen regex-wenn Sie möchten, wählen Sie auf mehrere regex :Tut reject-regex arbeiten mit Dingen wie
.
oder*
, welche Art von regex ist es, erweiterte regex oder PCRE-regex?Der zweite Teil Ihrer Frage ist bereits angesprochen in meiner Antwort. Es funktioniert mit
.
und*
z.B.wget -r --reject-regex ".*foobar.*" http://example.com
zu verwerfenhttp://example.com/foobar/
.Beachten Sie, dass es scheint, regex funktioniert nur auf rekursive downloads, obwohl.
Ich habe es mit
--spider
, und ich hatte die Flucht[]
, das bedeutet also, dass[]
ist auch ein spezielles. Ich habe nur gefragt, welche Art von regex ist, weil GNU grep unterstützt auch verschiedene Arten von regex, wie erweiterte regex-und pcre-regex.InformationsquelleAutor Skippy le Grand Gourou