Wie Sie das Crawlen einer website/extrahieren von Daten in die Datenbank mit python?

Ich würde gerne bauen, eine webapp zu helfen anderen Studenten an meiner Universität erstellen Ihre Zeitpläne. Zu tun, dass ich zu kriechen, die das master Schedule (ein riesiges html-Seite) sowie einen link zu einer detaillierten Beschreibung für jeden Kurs in eine Datenbank, vorzugsweise in python. Auch, ich brauche die log-in Zugriff auf die Daten.

Wie würde das funktionieren?
Welche Werkzeuge/Bibliotheken kann/sollte ich verwenden?
Gibt es gute tutorials?
Wie kann ich das beste Angebot mit binären Daten (z.B. Recht pdf)?
Gibt es bereits gute Lösungen für das?

InformationsquelleAutor McEnroe | 2011-12-01

python web-crawler

11
- Anfragen für das herunterladen der Seiten.
  - Hier ist ein Beispiel, wie login auf einer Webseite und download-Seiten: https://stackoverflow.com/a/8316989/311220
- lxml zum Schaben der Daten.
Wenn Sie möchten, verwenden Sie ein leistungsfähiges Schabe-framework gibt es Scrapy. Es hat einige gute Dokumentation auch. Es kann sein, ein wenig übertrieben, je nach Ihrer Aufgabe, obwohl.

Würden Sie empfehlen, das gleiche für dies: stackoverflow.com/questions/23917790/...

InformationsquelleAutor Acorn
3

Scrapy ist wahrscheinlich das beste Python-Bibliothek für das Crawlen. Es kann beibehalten des Status für den authentifizierten Sitzungen.

Umgang mit binären Daten sollten separat behandelt werden. Für jede Datei-Typ, müssen Sie behandeln Sie anders-nach Ihrer eigenen Logik. Für fast jede Art von format, die Sie wahrscheinlich in der Lage sein, eine Bibliothek zu finden. Zum Beispiel werfen Sie einen Blick auf PyPDF für die Handhabung von PDF-Dateien. Für excel-Dateien können Sie versuchen, xlrd.

InformationsquelleAutor sharjeel
1

Gefiel mir mit BeatifulSoup für die Extraktion von html-Daten

Es ist so einfach wie diese:
```
from BeautifulSoup import BeautifulSoup 
import urllib

ur = urllib.urlopen("http://pragprog.com/podcasts/feed.rss")
soup = BeautifulSoup(ur.read())
items = soup.findAll('item')

urls = [item.enclosure['url'] for item in items]
```
Ich bin mit diesem auch. Ich muss kriechen über 1000 links auf die gleiche Seite ... aber es dauert viel zu lange... würden Sie mir empfehlen einige bessere Ansatz? Ich kann den code auch
tun Sie es in mehreren threads

InformationsquelleAutor Alexey Grigorev
0

Gibt es für diesen Zweck ein sehr nützliches tool namens " web-harvest
Link zu Ihrer website http://web-harvest.sourceforge.net/
Ich benutze diese zum Crawlen von Webseiten

InformationsquelleAutor Riz

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.