Wie kann ich das Durchlaufen der Seiten einer website mithilfe von Python?

Ich bin neu in der software-Entwicklung, und ich bin nicht sicher, wie gehen über diese. Ich möchte auf jede Seite einer website und schnappen Sie sich ein bestimmtes bit der Daten aus jeweils. Mein problem ist, ich weiß nicht, wie zu iterieren durch alle vorhandenen Seiten, ohne zu wissen, die einzelnen urls vor der Zeit. Zum Beispiel, die ich besuchen möchte jede Seite, deren url beginnt mit

"http://stackoverflow.com/questions/"

Gibt es eine Möglichkeit, eine Liste zusammenzustellen und dann Durchlaufen, oder ist es möglich, dies zu tun, ohne eine Riesen Liste mit urls?

InformationsquelleAutor ReginaldJ | 2012-06-14

4

Versuchen Scrapy.

Es übernimmt alle durchforsten für Sie und lässt Sie konzentrieren sich auf die Verarbeitung der Daten, nicht entpacken. Anstelle von kopieren-einfügen den code schon in das tutorial, werde ich überlasse es Ihnen, es zu Lesen.
- +1 für Scrapy. Hat ein bisschen eine Lernkurve, aber einfach zu bedienen, sobald Sie eine Dreh raus.
- Danke, ich denke, ich werde versuchen, dass. Mein problem ist nicht wirklich die Verarbeitung der Daten, aber die Suche nach ihm. Ich nehme an, wenn ich weiß, die technischen Begriffe, ich könnte ausgesehen haben dieser bis mich. Vielen Dank für die Hilfe!
InformationsquelleAutor Blender
0

Greifen ein bestimmtes bit von Daten von einer Website, die Sie verwenden konnten einige web-scraping-tool, z.B., scrapy.

Wenn die erforderlichen Daten generiert werden, die per javascript dann müssen Sie vielleicht, browser-ähnliches tool wie Selenium WebDriver und implementieren Crawlen der links von hand.

InformationsquelleAutor jfs
-2

Zum Beispiel, können Sie eine einfache for-Schleife, wie folgt aus:
```
def webIterate():
    base_link = "http://stackoverflow.com/questions/"
    for i in xrange(24):
        print "http://stackoverflow.com/questions/%d" % (i)
```
Ist die Ausgabe:
```
http://stackoverflow.com/questions/0
http://stackoverflow.com/questions/2
http://stackoverflow.com/questions/3
...
http://stackoverflow.com/questions/23
```
Es ist nur ein Beispiel. Können Sie zahlen von Fragen und machen mit Ihnen was Sie wollen
- Ich denke, dass StackOverflow war nur ein Beispiel. Andere websites verfügen nicht über solch eine gut-definierte URL-Schema und müssen analysiert werden, über Crawlen.
- Maibe. Aber es wäre wirklich viel einfacher zu helfen, Autor, wenn er erzählt uns die wahre Beispiel die Website, die benötigt werden, um aggregiert werden:)
- Ich sehe, wie das funktionieren würde, aber stackoverflow war nur ein Beispiel, die Website, die ich bin mit der Suche nicht verwenden numerische Werte, um die Anzahl Seiten.
- Uns ein Beispiel geben, und wir werden versuchen, um herauszufinden, die Lösung:)
InformationsquelleAutor mega.venik

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.