Wie zum extrahieren von URLs aus einer HTML-Seite in Python
Ich zu schreiben, ein web-crawler in Python. Ich weiß nicht, wie das Parsen einer Seite und extrahieren der URLs aus HTML. Wohin soll ich gehen und zu studieren, zu schreiben, wie ein Programm?
In anderen Worten, ist es ein einfaches python-Programm, das verwendet werden kann als eine Vorlage für einen Allgemeinen web-crawler? Idealerweise sollten die Module verwenden, die sind relativ einfach zu verwenden und es sollten auch viele der Kommentare, um zu beschreiben, was jede Zeile code zu tun.
InformationsquelleAutor user2189704 | 2013-03-20
Du musst angemeldet sein, um einen Kommentar abzugeben.
Blick auf Beispiel-code unten. Das Skript extrahiert html-code einer web-Seite (hier Python-Homepage) und extrahiert alle links auf dieser Seite. Hoffe, das hilft.
Ausgabe:
...
InformationsquelleAutor Shankar
Können Sie BeautifulSoup wie viele haben auch angegeben. Es kann analysieren, HTML -, XML-usw. Um zu sehen, einige der Funktionen finden Sie unter hier.
Beispiel:
InformationsquelleAutor pradyunsg
Verwiesen: Python-Web-Crawler, die in Weniger Als 50 Zeilen (Langsam oder funktioniert nicht mehr, lädt nicht bei mir)
InformationsquelleAutor Scy
Können Sie beautifulsoup. Befolgen Sie die Dokumentation und sehen, was Ihren Anforderungen entspricht. Die Dokumentation enthält code-snippets, wie zum extrahieren von URLs als gut.
InformationsquelleAutor Sushant Gupta
Mit Seiten analysieren, schauen Sie sich die
BeautifulSoup
Modul. Es ist einfach zu bedienen und ermöglicht es Ihnen, zu analysieren-Seiten mit HTML. Sie können extrahieren Sie URLs aus dem HTML-indem Sie einfach tunstr.find('a')
Nicht verwenden reguläre Ausdrücke zum Parsen von HTML
InformationsquelleAutor TerryA