Zum Lesen der N-TEN Zeile eines Geparsten html-Code in R

Die readLines-Funktion werden alle Inhalte der Quell-Seite in einer Zeile.

con = url("target_url_here")
htmlcode = readLines(con)

readLines-Funktion verkettet alle Zeilen der Quell-Seite in einer Zeile. Es gibt also keinen Weg, ich kann navigieren Sie zu der 15ten Zeile in der ursprünglichen html-Quelltext-Seite.

Nächste Ansatz ist, zu versuchen, analysieren Verwendung von XML-Paket oder httr-Paket.

library("httr")
html <- GET("target_url_here")
content2 = content(html,as="text")
parsedHtml = htmlParse(content2,asText=TRUE)

Durch den Druck aus der parsedHtml, behält Sie sich das html-format und zeigt alle Inhalte, wie es sein kann gesehen in der source-Seite.
Jetzt angenommen, ich möchte zum extrahieren der Titel, so wird die Funktion

xpathSApply(parsedHtml,"//title",xmlValue)

geben Sie die Titel.

Aber meine Frage ist, wie kann ich navigieren Sie zu einer beliebigen Zeile sagen, die 15 Linie von der html-Seite? In anderen Worten, wie kann ich Sie behandeln den html-Code als Vektor von Zeichenketten, wobei jedes element des Vektors wird eine separate Zeile in die html-Seite/parsed html-Objekt.

Hmm normalerweise readLines liest Zeile für Zeile, so dass htmlcode[15] sollte Ihnen die 14 Zeile in deinem 1. Beispiel.
Ja, das wird funktionieren. Aber gibt es irgendeinen Weg zu gehen, um das 15th line in einem geparsten HTML-Objekt ?
Vielleicht konvertieren Charakter und die Aufteilung auf Zeilenwechsel in den Venen der strsplit(as(parsedHtml, "character"), "\n")[[1]][15].

InformationsquelleAutor Novneet Nov | 2014-08-17

html html-parsing r xml-parsing

16

Haben einen besseren Blick auf docs für die readLines(), die es tatsächlich gibt:

Ein Charakter-Vektor der Länge der Anzahl der Zeilen Lesen.

Also in deinem Fall:
```
con = url("http://example.com/file_to_parse.html")
htmlCode = readLines(con)
```
können Sie ganz einfach tun htmlCode[15] Zugriff auf das 15^th - Zeile in der ursprünglichen html-Quelltext-Seite.

InformationsquelleAutor Marius Butuc

In Antwort auf Ihren Kommentar

Aber gibt es irgendeinen Weg zu gehen, um das 15th line in einem geparsten HTML-Objekt ?

Gibt es ein paar verschiedene Möglichkeiten, dies zu tun. Man erwähnt von lukeA in die Kommentare. Eine andere ist die Verwendung capture.output() um die geparsten html-Dokument Zeile für Zeile, wie ein Charakter-Vektor. Dieses Beispiel verwendet die Beispieldaten aus ?htmlParse

library(XML)
f <- system.file("exampleData", "9003.html", package = "XML")

Parsen eines html-Dokuments:

( doc <- htmlParse(f) )
# <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
#     <html xmlns="http://www.w3.org/1999/xhtml">
#     <head>
#     <meta name="generator" content="HTML Tidy for Linux/x86 (vers 1 September 2005), see www.w3.org">
#     <title>BKA/RIS VwGH - Volltext</title>
#     <base target="_self">
#     </head>
#     <body>
#     VerÃ¶ffentlichungsdatum
# </body>
#     </html>

Ansicht das Analysierte Dokument als Zeichen-Vektor:

capture.output(doc)
# [1] "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\" \"http://www.w3.org/TR/REC-html40/loose.dtd\">"
# [2] "<html xmlns=\"http://www.w3.org/1999/xhtml\">"                                                                 
# [3] "<head>"                                                                                                        
# [4] "<meta name=\"generator\" content=\"HTML Tidy for Linux/x86 (vers 1 September 2005), see www.w3.org\">"         
# [5] "<title>BKA/RIS VwGH - Volltext</title>"                                                                        
# [6] "<base target=\"_self\">"                                                                                       
# [7] "</head>"                                                                                                       
# [8] "<body>"                                                                                                        
# [9] "VerÃ¶ffentlichungsdatum"                                                                                       
# [10] "</body>"                                                                                                       
# [11] "</html>"                                                                                                       
# [12] " "

Erhalten (z.B.) die 5. Zeile:

capture.output(doc)[5]
#[1] "<title>BKA/RIS VwGH - Volltext</title>"

InformationsquelleAutor Rich Scriven

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.