Vorbei request limit in dem Crawlen einer Website

Arbeite ich an einem web-crawler, dass die Indizes der Seiten, die nicht indiziert werden sollen.

Mein Erster Versuch:
Ich schrieb eine c# - crawler, der geht durch jede Seite und lädt Sie herunter.
Dies führte zu meiner IP geblockt wird von Ihren Servern innerhalb von 10 Minuten.

Zog ich es zu amazon EC2 und schrieb eine verteilte python-Skript, das ausgeführt wird, etwa 50 Instanzen. Dies bleibt nur knapp über der Schwelle von Booten mir. Dies sind auch Kosten über $1900 pro Monat...

Zog ich wieder zu meiner ursprünglichen Idee, und legte es hinter eine verkürzte version des TOR-Netzwerks. Dies funktionierte, war aber sehr langsam.

Ich bin aus Ideen heraus. Wie kann ich an Ihnen vorbei, blockiert mich für die wiederholten Anfragen.

Dem ich sage, "blockieren" Sie sind tatsächlich geben Sie mir eine random 404 nicht gefunden " - Fehler auf Seiten, die definitiv existieren. Es ist zufällig und nur beginnt, die passiert, nachdem ich den pass über 300 Anfragen in einer Stunde.

InformationsquelleAutor brandon | 2011-12-12
Schreibe einen Kommentar