Welches ist das Beste in Python: urllib2, PycURL oder mechanize?

Ok also ich brauche zum herunterladen von einigen web-Seiten mit Python und habe eine schnelle Untersuchung meiner Optionen.

Enthalten mit Python:

das urllib - mir scheint, dass ich verwenden soll, urllib2 statt. das urllib hat keine cookie-Unterstützung, HTTP/FTP/lokale Dateien nur (kein SSL)

urllib2 - vollständige HTTP - /FTP-client, unterstützt die meisten benötigten Dinge wie cookies, unterstützt nicht alle HTTP-Verben (nur GET und POST, keine SPUR, etc.)

Voll ausgestattet:

mechanisieren - /speichern-Firefox/IE cookies, die Aktionen, wie Folgen Sie den zweiten link, aktiv gepflegt (0.2.5 veröffentlicht im März 2011)

PycURL - unterstützt alles was LOCKE tut (FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE und LDAP), bad news: nicht aktualisiert seit Sep 9, 2008 (7.19.0)

Neue Möglichkeiten:

urllib3 - unterstützt die Verbindung re-/pooling-und Datei-posting

Veraltet (ein.k.ein. verwenden Sie das urllib/urllib2 statt):

httplib - HTTP/nur HTTPS (kein FTP)

httplib2 - HTTP/nur HTTPS (kein FTP)

Das erste, was mir auffällt ist, dass das urllib/urllib2/PycURL/mechanize sind alle ziemlich ausgereifte Lösungen, die gut funktionieren. mechanisieren und PycURL Schiff mit einer Reihe von Linux-Distributionen (z.B. Fedora 13) und BSDs, so dass die installation ist ein nicht-Thema in der Regel (so gut).

urllib2 sieht gut aus, aber ich Frage mich, warum PycURL und mechanisieren beide scheinen sehr beliebt ist, ist es etwas, das ich vermisst werde (d.h. wenn ich mit urllib2 werde ich malen, mich in eine Ecke an einem gewissen Punkt?). Ich würde wirklich gerne ein feedback über die vor/Nachteile von diesen Dingen, also kann ich machen, die beste Wahl für mich.

Edit: zusätzlicher Hinweis auf verb Unterstützung in urllib2

Kommentar zu dem Problem

Was bedeutet "beste"? Am besten mit in Bezug auf was? Schnellste? Größten? Beste Verwendung von Cookies? Was müssen Sie tun? Kommentarautor: S.Lott

httplib ist nicht "veraltet". Es ist eine untere Ebene, die Modul urllib2 auf. Sie können es direkt benutzen, aber es ist einfacher via urllib2 Kommentarautor: Corey Goldberg

Was Corey sagte, z.B. urllib3 ist eine Ebene auf der Oberseite der httplib. Auch, httplib2 ist nicht veraltet - es ist tatsächlich neuer als urllib2 und behebt die Probleme, wie die Verbindung wiederzuverwenden (gleiche mit urllib3). Kommentarautor: Yang

Es ist eine neuere Bibliothek namens-Anfragen. Siehe docs.python-requests.org/en/latest/index.html Kommentarautor: ustun

Mit @ustun auf diese: Aufträge nutzen. Kommentarautor: hughdbrown

InformationsquelleAutor der Frage bigredbob | 2010-03-05

34
- urllib2 ist in jeder Python-Installation überall, so ist eine gute Grundlage, auf der zu beginnen.
- PycURL ist nützlich für Menschen, die bereits verwendet, um mit libcurl, macht mehr von der low-level-details von HTTP, plus es erhält alle fixes oder Verbesserungen angewandt, um libcurl.
- mechanize wird verwendet, um beharrlich Laufwerk eine Verbindung ähnlich wie ein browser.
Es ist nicht die Frage, ob eins besser als das andere, es ist eine Frage der Wahl der geeigneten tool für den job.

InformationsquelleAutor der Antwort Ignacio Vazquez-Abrams
44

Ich denke, dieser Vortrag (auf pycon 2009), hat die Antworten für das, was Sie suchen (Asheesh Laroia hat viel Erfahrung auf der Rolle). Und er weist darauf hin, die guten und die schlechten von den meisten Ihrer Präsentation
Aus der PYCON 2009 Zeitplan:

Tun, finden Sie sich konfrontiert mit
- websites, die Daten, die Sie brauchen, um
extrahieren?
Würde Ihr Leben einfacher sein, wenn
Sie könnten programmgesteuert input-Daten
in web-Anwendungen, auch diejenigen,
abgestimmt zu widerstehen Interaktion von bots?

Besprechen wir die Grundlagen von web
Schaben, und dann Tauchen Sie ein in die
details von unterschiedlichen Methoden und wo
Sie am besten einsetzbar sind.

Werden Sie verlassen
mit einem Verständnis von, wenn gilt
unterschiedlichen tools und erfahren Sie mehr über
"schwerer hammer" für screen scraping
ich nahm an einem Projekt für die
Electronic Frontier Foundation.

Atendees sollten einen laptop mitbringen, wenn
möglich, zu versuchen, die Beispiele, die wir
diskutieren und Optional Notizen.

Update:
Asheesh Laroia aktualisiert hat seine Präsentation für die pycon 2010
- PyCon 2010: Kratzen Web:
  Strategien für die Programmierung von Webseiten
  dass nicht erwartet, dass es
```
* My motto: "The website is the API."
* Choosing a parser: BeautifulSoup, lxml, HTMLParse, and html5lib.
* Extracting information, even in the face of bad HTML: Regular expressions, BeautifulSoup, SAX, and XPath.
* Automatic template reverse-engineering tools.
* Submitting to forms.
* Playing with XML-RPC
* DO NOT BECOME AN EVIL COMMENT SPAMMER.
* Countermeasures, and circumventing them:
      o IP address limits
      o Hidden form fields
      o User-agent detection
      o JavaScript
      o CAPTCHAs 
* Plenty of full source code to working examples:
      o Submitting to forms for text-to-speech.
      o Downloading music from web stores.
      o Automating Firefox with Selenium RC to navigate a pure-JavaScript service. 
* Q&A; and workshopping
* Use your power for good, not evil. 
```
Update 2:

PyCon US-2012 - Web scraping: Zuverlässig und effizient ziehen die Daten von Seiten, die es nicht erwarten

Spannende Informationen ist gefangen in web-Seiten und hinter HTML-Formulare. In diesem tutorial, >erfahren Sie, wie zu analysieren, diese Seiten und, wenn um fortschrittliche Techniken, die das machen, >kratzen schneller und stabiler. Wir ll decken die parallele downloads mit Twisted, gevent, >und andere; die Analyse von Websites hinter SSL; driving-JavaScript-y-Seiten mit Selen; und >die Umgehung der gemeinsamen anti-scraping Techniken.

InformationsquelleAutor der Antwort Diego Castro
38

Python Anfragen ist auch ein guter Kandidat für die HTTP-Sachen. Es hat eine schönere api IMHO eine Beispiel-http-Anforderung von Ihrem offcial Dokumentation:
```
>>> r = requests.get('https://api.github.com', auth=('user', 'pass'))
>>> r.status_code
204
>>> r.headers['content-type']
'application/json'
>>> r.content
...
```
InformationsquelleAutor der Antwort Tutul
3

"Holen Sie sich einige Webseiten", verwenden Sie Anfragen!

Vom http://docs.python-requests.org/en/latest/ :

Python ' s standard-urllib2-Modul bietet die meisten HTTP
Fähigkeiten, die Sie benötigen, aber die API ist gründlich gebrochen. Es wurde gebaut,
für eine andere Zeit und eine andere Webseite. Es erfordert eine enorme
Umfang der Arbeit (auch Methode überschreibt), um die einfachsten
Aufgaben.

Dinge sollten nicht so sein. Nicht in Python.
```
>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'private_gists': 419, u'total_private_repos': 77, ...}
```
InformationsquelleAutor der Antwort mit
2

Mach dir keine sorgen "Letzte Aktualisierung". HTTP hat sich nicht viel verändert in den letzten Jahren 😉

urllib2 ist am besten (wie die eingebauten), dann wechseln Sie zu mechanisieren, wenn Sie müssen cookies von Firefox. mechanize benutzt werden kann als drop-in Ersatz für urllib2 - Sie haben ähnliche Methoden etc. Mit Firefox cookies bedeutet, dass Sie sich Dinge von Webseiten (wie z.B. StackOverflow) mit Ihren persönlichen Zugangsdaten. Nur, verantwortlich mit Ihrer Anzahl von Anfragen (oder du wirst gesperrt).

PycURL ist für Menschen, die alle low-level " - Sachen in libcurl. Ich würde versuchen, den anderen Bibliotheken im ersten.

InformationsquelleAutor der Antwort wisty
2

Urllib2 unterstützt nur HTTP GET und POST, es gibt vielleicht workarounds, aber Wenn die app hängt sich auf andere HTTP-Verben, werden Sie wahrscheinlich lieber ein anderes Modul.

InformationsquelleAutor der Antwort mikerobi
1

Jeder python-Bibliothek, die spricht HTTP hat seine eigenen Vorteile.

Verwenden Sie die eine, die die minimale Menge an notwendigen Funktionen für eine bestimmte Aufgabe.

Deiner Liste fehlt mindestens urllib3 - ein Cooler third-party-HTTP-Bibliothek, die wiederverwenden kann, eine HTTP-Verbindung und beschleunigt erheblich den Prozess der Abruf mehrere URLs aus der gleichen Website.

InformationsquelleAutor der Antwort jedi_coder
1

Werfen Sie einen Blick auf Grab (http://grablib.org). Es ist eine Netzwerk-Bibliothek stellt zwei Haupt-Schnittstellen:
1) Greifen für die Erstellung von Netzwerk-Anfragen und analysieren von abgerufenen Daten
2) Spinne für das erstellen von bulk-Website Schaber

Unter die Haube Packen verwendet pycurl und lxml aber es ist möglich andere Netz transportiert (zum Beispiel Anfragen, die Bibliothek). Anforderungen-transport ist nicht gut getestet wurden noch.

InformationsquelleAutor der Antwort Gregory Petukhov

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.