Wie kann ich Lesen und analysieren den Inhalt einer Webseite in R

Möchte ich den Inhalt einer URL (. e.q., http://www.haaretz.com/) in R. Frage ich mich, wie ich es tun kann

InformationsquelleAutor Mark | 2009-12-04

html html-content-extraction r screen-scraping

Nicht wirklich sicher, wie Sie Sie verarbeiten möchten, die Seite, denn es ist wirklich chaotisch. Als wir neu gelernt in dieser berühmten stackoverflow-Frage, es ist nicht eine gute Idee zu tun, regex, die auf html, so dass Sie möchte auf jeden Fall beim Parsen mit dem XML-Paket.

Hier ein Beispiel zum Einstieg:

require(RCurl)
require(XML)
webpage <- getURL("http://www.haaretz.com/")
webpage <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)
# parse the tree by tables
x <- xpathSApply(pagetree, "//*/table", xmlValue)  
# do some clean up with regular expressions
x <- unlist(strsplit(x, "\n"))
x <- gsub("\t","",x)
x <- sub("^[[:space:]]*(.*?)[[:space:]]*$", "\\1", x, perl=TRUE)
x <- x[!(x %in% c("", "|"))]

Diese Ergebnisse in ein Charakter-Vektor, der meist nur die Webseite-text - (zusammen mit einigen javascript):

> head(x)
[1] "Subscribe to Print Edition"              "Fri., December 04, 2009 Kislev 17, 5770" "Israel Time:Â 16:48Â (EST+7)"           
[4] "Â Â Make Haaretz your homepage"          "/*check the search form*/"               "function chkSearch()"

OOOhhhhh wow ... ich bin Verschrottung einer dynamischen website, und ich Tat alles, was in der Vergangenheit 7-8 Stunden und war nicht in der Lage, es zu tun - Diese funktionierte für mich. Leben Retter

InformationsquelleAutor Shane

3

Ihre beste Wette sein kann das XML-Paket -- siehe zum Beispiel diese Vorherige Frage.
- Aber wie können loszuwerden, die html-tags richtig. Ich weiß, dass ich schreiben kann ein regulärer Ausdruck ist, aber gibt es irgendein Paket, das machen die Codierung weniger dramatisch!
InformationsquelleAutor Dirk Eddelbuettel
2

Ich weiß, Sie bat für R. Aber vielleicht python+beautifullsoup ist der richtige Weg hier? Dann machen Sie Ihre Analyse mit R, Sie haben geschabt, den Bildschirm mit beautifullsoup?

InformationsquelleAutor Andreas

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.