Wie kann ich das Durchlaufen der Seiten einer website mithilfe von Python?
Ich bin neu in der software-Entwicklung, und ich bin nicht sicher, wie gehen über diese. Ich möchte auf jede Seite einer website und schnappen Sie sich ein bestimmtes bit der Daten aus jeweils. Mein problem ist, ich weiß nicht, wie zu iterieren durch alle vorhandenen Seiten, ohne zu wissen, die einzelnen urls vor der Zeit. Zum Beispiel, die ich besuchen möchte jede Seite, deren url beginnt mit
"http://stackoverflow.com/questions/"
Gibt es eine Möglichkeit, eine Liste zusammenzustellen und dann Durchlaufen, oder ist es möglich, dies zu tun, ohne eine Riesen Liste mit urls?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Versuchen Scrapy.
Es übernimmt alle durchforsten für Sie und lässt Sie konzentrieren sich auf die Verarbeitung der Daten, nicht entpacken. Anstelle von kopieren-einfügen den code schon in das tutorial, werde ich überlasse es Ihnen, es zu Lesen.
Greifen ein bestimmtes bit von Daten von einer Website, die Sie verwenden konnten einige web-scraping-tool, z.B., scrapy.
Wenn die erforderlichen Daten generiert werden, die per javascript dann müssen Sie vielleicht, browser-ähnliches tool wie Selenium WebDriver und implementieren Crawlen der links von hand.
Zum Beispiel, können Sie eine einfache for-Schleife, wie folgt aus:
Ist die Ausgabe:
Es ist nur ein Beispiel. Können Sie zahlen von Fragen und machen mit Ihnen was Sie wollen