Wie suchen internet mit Python?
Ich möchte ein Programm schreiben, dass die Suche über eine Recht große website und extrahiert bestimmte Dinge. Ich habe ein paar online-Python-Kurse, aber keiner sagte etwas darüber, wie der internet-Zugriff mit Python. Ich habe keine Ahnung, wo ich sollte, mit diesem zu starten.
Du wirst Lesen müssen, über HTTP, HTML und wahrscheinlich JS/PHP/etc., wahrscheinlich in der Liste Tauchen Sie Ihre Zehen in robuster Verständnis des DOMs, dann erfahren Sie mehr über text-Analyse/Verarbeitung. Blick auf das urllib/urllib2/httplib/Anfragen/etc., und so etwas wie BeautifulSoup oder auch Selen, je nach Komplexität und Interaktivität, die Sie benötigen.
Haben Sie sah die Python-Dokumentation? Erstes Ergebnis bei Google für "Internet-Python" durch die Art und Weise...
Haben Sie sah die Python-Dokumentation? Erstes Ergebnis bei Google für "Internet-Python" durch die Art und Weise...
InformationsquelleAutor JETM | 2013-04-03
Du musst angemeldet sein, um einen Kommentar abzugeben.
Müssen Sie zuerst Lesen Sie über die standard-python-Bibliothek urllib2.
Sobald Sie sind komfortabel mit den grundlegenden Ideen, die hinter dieser lib kann man versuchen Anfragen das ist viel einfacher zu interagieren mit dem web-vor allem-APIs. Ich schlage vor, verwenden Sie es parallel mit httpie zu testen, Abfragen, quick und dirty aus der Befehlszeile.
Wenn Sie ein wenig weiter gehen Aufbau einer librairy oder eine engine, die das web Crawlen müssen Sie irgendeine Art von asynchroner Programmierung, empfehle ich, beginnend mit Gevent
Schließlich, wenn Sie möchten, erstellen Sie ein crawler/bot können Sie einen Blick auf Scrapy. Allerdings sollten Sie beginnen, mit Standard-Bibliotheken vor dem Tauchen in diese ein, da kann es ziemlich Komplex
InformationsquelleAutor Chakib
Es klingt wie Sie wollen ein web-crawler/scraper. Welche Arten von Dingen, die Sie tun möchten, zu ziehen? Bilder? Links? Nur der job für einen web-crawler/scraper.
Starten Sie es, es sollte viel Artikel auf Stackoverflow, die helfen Ihnen bei der Umsetzung details, wie die Verbindung zum internet (immer eine web-Antwort).
Sehen diese Artikel.
InformationsquelleAutor actkatiemacias
Es ist viel mehr im internet als nur websites, aber ich nehme an, Sie wollen einfach nur zum Crawlen von ein paar html-Seiten und extrahieren von Daten aus Ihnen. Sie haben viele, viele Optionen, um dieses problem zu lösen. Nur einige Ansatzpunkte:
InformationsquelleAutor Achim