Scrapy wiederholen oder umleiten von middleware

Beim Crawlen durch eine Website mit scrapy, ich bekommen umgeleitet, wenn der Benutzer die gesperrte Seite ungefähr 1/5th der Zeit. Verliere ich die Seiten, die ich bekommen umgeleitet von, wenn das passiert. Ich weiß nicht, welche middleware zu verwenden oder welche Einstellungen zu verwenden, die middleware, sondern ich will dies:

DEBUG: Redirecting (302) to (GET http://domain.com/foo.aspx) from (GET http://domain.com/bar.htm)

NICHT fallen bar.htm. Ich am Ende mit keine Daten aus bar.htm wenn die Spachtel gemacht, aber ich bin rotierende proxies, so dass, wenn Sie es versucht bar.htm wieder (vielleicht ein paar mal mehr), sollte ich es bekommen. Wie kann ich die Anzahl der versuche für, die?

Wenn es darauf ankommt, ich bin nur so dass der crawler die Verwendung einer sehr spezifischen Start-url und dann nur Folgen "nächste Seite" - links, so sollte es gehen, um durch eine kleine Anzahl von Seiten - also warum muss ich es entweder erneut versuchen, z.B., Seite 34, oder kommen später zurück. Scrapy-Dokumentation sagt, es sollte wiederholen, 20 mal standardmäßig, aber ich sehe es nicht wiederholen, bei allen. Auch wenn es hilft: Alle Weiterleitungen gehen auf die gleiche Seite ("go away" - Seite, die foo.com oben) - gibt es eine Möglichkeit zu sagen, Scrapy, dass diese Seite "zählt nicht" und wenn es immer umgeleitet Sie es, zu halten, zu wiederholen? Ich sah etwas in der downloader-middleware bezogen auf bestimmte http-codes in eine Liste, die kann ich hinzufügen, 302, um die "immer versuchen, diese" Liste irgendwie?

InformationsquelleAutor Xodarap777 | 2013-12-27
Schreibe einen Kommentar