Scrapy wiederholen oder umleiten von middleware

Beim Crawlen durch eine Website mit scrapy, ich bekommen umgeleitet, wenn der Benutzer die gesperrte Seite ungefähr 1/5th der Zeit. Verliere ich die Seiten, die ich bekommen umgeleitet von, wenn das passiert. Ich weiß nicht, welche middleware zu verwenden oder welche Einstellungen zu verwenden, die middleware, sondern ich will dies:

DEBUG: Redirecting (302) to (GET http://domain.com/foo.aspx) from (GET http://domain.com/bar.htm)

NICHT fallen bar.htm. Ich am Ende mit keine Daten aus bar.htm wenn die Spachtel gemacht, aber ich bin rotierende proxies, so dass, wenn Sie es versucht bar.htm wieder (vielleicht ein paar mal mehr), sollte ich es bekommen. Wie kann ich die Anzahl der versuche für, die?

Wenn es darauf ankommt, ich bin nur so dass der crawler die Verwendung einer sehr spezifischen Start-url und dann nur Folgen "nächste Seite" - links, so sollte es gehen, um durch eine kleine Anzahl von Seiten - also warum muss ich es entweder erneut versuchen, z.B., Seite 34, oder kommen später zurück. Scrapy-Dokumentation sagt, es sollte wiederholen, 20 mal standardmäßig, aber ich sehe es nicht wiederholen, bei allen. Auch wenn es hilft: Alle Weiterleitungen gehen auf die gleiche Seite ("go away" - Seite, die foo.com oben) - gibt es eine Möglichkeit zu sagen, Scrapy, dass diese Seite "zählt nicht" und wenn es immer umgeleitet Sie es, zu halten, zu wiederholen? Ich sah etwas in der downloader-middleware bezogen auf bestimmte http-codes in eine Liste, die kann ich hinzufügen, 302, um die "immer versuchen, diese" Liste irgendwie?

InformationsquelleAutor Xodarap777 | 2013-12-27

Ich hatte das gleiche problem heute mit einer Webseite verwendet, 301..303-Weiterleitungen, aber manchmal auch meta-redirect. Ich habe bauen eine wiederholen middleware und einige Stücke aus dem umleiten middlewares:

from scrapy.contrib.downloadermiddleware.retry import RetryMiddleware
from scrapy.selector import HtmlXPathSelector
from scrapy.utils.response import get_meta_refresh
from scrapy import log

class CustomRetryMiddleware(RetryMiddleware):

    def process_response(self, request, response, spider):
        url = response.url
        if response.status in [301, 307]:
            log.msg("trying to redirect us: %s" %url, level=log.INFO)
            reason = 'redirect %d' %response.status
            return self._retry(request, reason, spider) or response
        interval, redirect_url = get_meta_refresh(response)
        # handle meta redirect
        if redirect_url:
            log.msg("trying to redirect us: %s" %url, level=log.INFO)
            reason = 'meta'
            return self._retry(request, reason, spider) or response
        hxs = HtmlXPathSelector(response)
        # test for captcha page
        captcha = hxs.select(".//input[contains(@id, 'captchacharacters')]").extract()
        if captcha:
            log.msg("captcha page %s" %url, level=log.INFO)
            reason = 'capcha'
            return self._retry(request, reason, spider) or response
        return response

Um diese middleware ist es wahrscheinlich am besten zu deaktivieren, beenden, umleiten von middlewares für dieses Projekt in settings.py:

DOWNLOADER_MIDDLEWARES = {
                         'YOUR_PROJECT.scraper.middlewares.CustomRetryMiddleware': 120,
                          'scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware': None,
                          'scrapy.contrib.downloadermiddleware.redirect.MetaRefreshMiddleware': None,
}

InformationsquelleAutor symbiotech

4

Können Sie handle 302 Antworten durch hinzufügen handle_httpstatus_list = [302] am Anfang deiner Spinne so:
```
class MySpider(CrawlSpider):
    handle_httpstatus_list = [302]

    def parse(self, response):
        if response.status == 302:
            # Store response.url somewhere and go back to it later
```
- Wollte nur hinzufügen, dass für eine große Lösung (nicht unbedingt für diese Frage) leitet auch die Verwendung des HTTP-status-code 307 (beachten Sie die in den Protokollen), so in diesem Fall können Sie ersetzen handle_httpstatus_list = [302] mit handle_httpstatus_list = [302, 307] und if response.status == 302: mit if response.status in self.handle_httpstatus_list:
InformationsquelleAutor marven

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.