viele Seiten mit pycurl?
Ich möchte viele Seiten von einer website, wie
curl "http://farmsubsidy.org/DE/browse?page=[0000-3603]" -o "de.#1"
aber die Seiten' Daten in python, nicht Dateien auf der Festplatte.
Kann jemand bitte posten pycurl
code um dies zu tun,
oder schnell urllib2
(nicht ein-at-a-time), wenn das möglich ist,
oder andere sagen "vergiss es, curl ist schneller und robuster" ? Dank
Du musst angemeldet sein, um einen Kommentar abzugeben.
hier ist eine Lösung basierend auf urllib2 und threads.
class Spider
- sehr schön!So haben Sie 2 problem und lassen Sie mich Ihnen zeigen, in einem Beispiel. Beachten Sie die pycurl schon multithreading/nicht ein-at-a-time w/o Ihre harte Arbeit.
Schließlich, dieser code ist vor allem auf ein Beispiel auf der pycurl site =.=
werden kann, sollten Sie wirklich Lesen, doc. die Leute verbringen viel Zeit auf Sie.
Können Sie nur in einem bash-Skript in eine for-Schleife.
Allerdings haben Sie vielleicht mehr Erfolg bei der Analyse jeder Seite mit python.
http://www.securitytube.net/Crawling-the-Web-for-Fun-and-Profit-video.aspx
Sie werden in der Lage sein, um den genauen Daten und speichern Sie es gleichzeitig in eine db.
http://www.securitytube.net/Storing-Mined-Data-from-the-Web-for-Fun-and-Profit-video.aspx
Wenn Sie wollen, um das Crawlen einer Webseite mit python, sollten Sie einen Blick auf scrapy http://scrapy.org
Mit BeautifulSoup4 und Anfragen -
Packen Kopf der Seite:
Erstellen Sie ein array von Anfragen:
Anforderungen erfordert gevent um dies zu tun btw.
Kann ich empfehlen Ihnen, user, async-Modul human_curl
Aussehen Beispiel:
Verwendung sehr einfach. Dann Seite Erfolg geladen fehlgeschlagen async_client rufen Sie Rückruf. Sie können auch geben Sie die Anzahl an parallelen verbindungen.