Wie Sie das Crawlen einer website/extrahieren von Daten in die Datenbank mit python?
Ich würde gerne bauen, eine webapp zu helfen anderen Studenten an meiner Universität erstellen Ihre Zeitpläne. Zu tun, dass ich zu kriechen, die das master Schedule (ein riesiges html-Seite) sowie einen link zu einer detaillierten Beschreibung für jeden Kurs in eine Datenbank, vorzugsweise in python. Auch, ich brauche die log-in Zugriff auf die Daten.
- Wie würde das funktionieren?
- Welche Werkzeuge/Bibliotheken kann/sollte ich verwenden?
- Gibt es gute tutorials?
- Wie kann ich das beste Angebot mit binären Daten (z.B. Recht pdf)?
- Gibt es bereits gute Lösungen für das?
InformationsquelleAutor McEnroe | 2011-12-01
Du musst angemeldet sein, um einen Kommentar abzugeben.
Anfragen
für das herunterladen der Seiten.lxml
zum Schaben der Daten.Wenn Sie möchten, verwenden Sie ein leistungsfähiges Schabe-framework gibt es
Scrapy
. Es hat einige gute Dokumentation auch. Es kann sein, ein wenig übertrieben, je nach Ihrer Aufgabe, obwohl.InformationsquelleAutor Acorn
Scrapy ist wahrscheinlich das beste Python-Bibliothek für das Crawlen. Es kann beibehalten des Status für den authentifizierten Sitzungen.
Umgang mit binären Daten sollten separat behandelt werden. Für jede Datei-Typ, müssen Sie behandeln Sie anders-nach Ihrer eigenen Logik. Für fast jede Art von format, die Sie wahrscheinlich in der Lage sein, eine Bibliothek zu finden. Zum Beispiel werfen Sie einen Blick auf PyPDF für die Handhabung von PDF-Dateien. Für excel-Dateien können Sie versuchen, xlrd.
InformationsquelleAutor sharjeel
Gefiel mir mit BeatifulSoup für die Extraktion von html-Daten
Es ist so einfach wie diese:
tun Sie es in mehreren threads
InformationsquelleAutor Alexey Grigorev
Gibt es für diesen Zweck ein sehr nützliches tool namens " web-harvest
Link zu Ihrer website http://web-harvest.sourceforge.net/
Ich benutze diese zum Crawlen von Webseiten
InformationsquelleAutor Riz