Wie kann ich den Bildschirm kratzen mit Perl?
Muss ich einige Werte, die gespeichert sind, in eine Webseite, für die ich brauche zu kratzen, die website und das abrufen der Inhalte aus der Tabelle. Irgendwelche Ideen?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wenn Sie sind vertraut mit jQuery, die Sie vielleicht prüfen wollen,pQuery, die macht dies sehr einfach:
Gibt es auch HTML::DOM.
Alles, was Sie tun, aber nicht verwenden Sie reguläre Ausdrücke für diese.
Habe ich verwendet HTML-Tabelle Extrahieren in der Vergangenheit.
Ich persönlich finde es ein wenig umständlich zu bedienen, aber vielleicht habe ich nicht verstehen das Objekt-Modell gut.
Normalerweise verwende ich diesen Teil des Handbuchs, um die Daten zu überprüfen:
Zwar hab ich in der Regel geschieht dies mit LWP/LWP::Simple, die aktuelle 'bevorzugt' - Modul für jede Art von Webseite Schaben in Perl ist WWW::Mechanize.
Wenn Sie vertraut sind mit XPath können Sie auch HTML::TreeBuilder::XPath. Und wenn Sie nicht... nun, Sie sollte es sein ;--)
Konnte man auch mit dieser einfachen perl-Modul WWW::Scraper, dies ist einfach zu verstehen und machen das Leben leicht für mich. diesem Beispiel Folgen weitere Informationen.
http://teusje.wordpress.com/2010/05/02/web-scraping-with-perl/
Ähnliche Stackoverflow-Fragen haben Sie einen Blick auf....
Mach ich gerne mit pQuery für Dinge wie diese jedoch Web::Scraper sieht interessant aus.
Meine ich nicht ziehen, bis ein Toter thread, aber wer googeln über diesen thread sollten auch Kasse WWW::Scripter - ', die Für scripting web-Seiten, die Skripte'
glücklich remote-Daten zu aggregieren 😉
Werfen Sie einen Blick auf die magischen Web::Scraper, es ist DIE Werkzeug für web-scraping.
Benutze ich LWP::UserAgent für die meisten von meinem Bildschirm kratzen muss. Sie können auch ein Paar, die mit HTTP::Cookies wenn Sie Cookies benötigen, zu unterstützen.
Hier ist ein einfaches Beispiel, wie man Quelle.
Überprüfen Sie heraus dieses kleine Beispiel von web scraping mit perl:
link-text