Proxy-IP für Scrapy framework
Ich bin die Entwicklung einer web-crawling-Projekt mit Python und Scrapy Rahmen. Es krabbelt approax 10k web-Seiten von e-commerce-shopping-websites. ganze Projekt ist in Ordnung, aber bevor der code vom Testserver in die Produktion server ich möchte wählen Sie eine bessere proxy-ip-provider-Dienst, so dass ich nicht sorgen über meine IP-Blockierung oder Verweigert den Zugriff von websites auf meine Spinnen .
Bis jetzt bin ich mit middleware Scrapy manuell drehen die ip von freien proxy-ip-Liste zur Verfügung, von verschiedenen websites wie diese
Nun bin ich verwirrt über die Optionen sollte ich wählen
- Kaufen premium-proxy-Liste von http://www.ninjasproxy.com/ oder http://hidemyass.com/
- Verwenden TOR
- Verwenden VPN-Dienst wie http://www.hotspotshield.com/
- Jede Option besser als die drei oben genannten
InformationsquelleAutor Rohit.nib | 2013-10-18
Du musst angemeldet sein, um einen Kommentar abzugeben.
Hier sind die Optionen, die ich bin derzeit mit (je nach meine Bedürfnisse):
Letztere Lösung ist das, was derzeit am besten funktioniert für mich, und drückt etwa 20-30 GB pro Tag an traffic ohne Probleme.
können Sie mehr Informationen darüber, wie zu implementieren, die zweite option. alle guides, die für uns zum suchen auf. sehr geschätzt wird. vielen Dank 🙂
InformationsquelleAutor herrherr
Crawlera ist speziell für web-crawling-Projekte. Zum Beispiel, es setzt intelligente algorithmen ein, um zu vermeiden, verboten, und es wird verwendet, um das Crawlen von sehr großen und hohen Profil-Webseiten.
Disclaimer: ich arbeite für die Mutter-Unternehmen Scrapinghub, die auch core-Entwickler von Scrapy.
InformationsquelleAutor Rolando Max
Wenn Sie nicht wollen, zu einem kostenpflichtigen service bitte beachten, die nur mit einem scrapy-Bibliothek, automatische rotierende proxies für Sie: https://github.com/TeamHG-Memex/scrapy-rotating-proxies
Können Sie einen Blick für eine vollständige Anleitung, wie automatisiert man das hier: https://tinyendian.com/articles/how-to-scrape-the-web-and-not-get-caught
Beachten Sie, dass, wenn die Verbindung über einen proxy immer auferlegt, die ein performance-Einbußen, aber 10K web-Seiten, die du erwähnt hast, ist immer noch gut in Ihrer Reichweite.
InformationsquelleAutor Karol Majta