Parse html mit C

Muss ich greifen einige Inhalte aus einer HTML - (XHTML-valid) Seite. Ich schnappe mir die Seite mit curl und speichern Sie Sie im Speicher.

Spielte ich mit der Idee der Verwendung von regex mit der PCRE-Bibliothek, sondern einfach, ich konnte keine Beispiele für die Verwendung mit C. Dann wechselte ich zu betrachten, HTML-Parser und wieder gibt es keine gute Auswahl. Alle, die ich finden konnte war ein knappes dokumentiert-Modul für libxml genannt HTMLparser.

Gibt es alternativen? Wenn nicht, dann Beispiele für das was ich bereits gefunden?

Obligatorische link zur Warnung vor dem Parsen von HTML mit regulären Ausdrücken: stackoverflow.com/questions/1732348/...
Siehe folgenden link, den ich schrieb die ganze Lösung mit libxml2 C-Bibliothek für die windows-Plattform. stackoverflow.com/questions/5465965/...

InformationsquelleAutor | 2009-10-06

c html parsing regex

12

Den Sie verwenden möchten HTML tidy, dies zu tun. Die Lib curl Seite hat einige Quell-code, um Sie gehen. Dokumente Durchlaufen der dom-Struktur. Sie brauchen nicht einen xml-parser. Fehl nicht auf schlecht formatierte html.

http://curl.haxx.se/libcurl/c/htmltidy.html
- Dies ist, was ich am Ende die Umsetzung. Ich habe nicht das Bedürfnis verspüren, ziehen Sie sich eine hungrige xml-parser nehmen Sie einfach eine einzige Zeile text. Dank
InformationsquelleAutor Byron Whitlock
7

Ich würde libhtmltidy + was xml-parser wie expat oder libxml. Hängt davon ab, was du bist suchen für.
- Einfach für Leser, Informationen... HTML-Parser sind software für die automatisierte HTML (Hypertext Markup Language) analysieren. Sie haben zwei Hauptaufgaben: HTML-traversal: bietet eine Schnittstelle für Programmierer, die leicht zugänglich, und ändern Sie die "HTML-string code". Das kanonische Beispiel: DOM-Parser. HTML-clean: zur Behebung ungültige HTML-und um das layout zu verbessern und Gedankenstrich Stil der resultierende markup-Code. Das kanonische Beispiel: HTML-Tidy.
- Siehe en.wikipedia.org/wiki/Comparison_of_HTML_parsers Seite
InformationsquelleAutor Michael Krelin - hacker
2

Wenn Sie möchten, um XML zu Parsen mit C, dann bei weitem der beste Weg zu gehen, ist die Verwendung der LibXML Bibliothek. Die Hauptseite ist bei http://xmlsoft.org/. Zusätzlich zu Ihren downloads, Sie haben explizite code-Beispiele, die besonders zeigen, wie Sie zu behandeln analysieren. Ich weiß, für eine Tatsache, die Sie bekommen können vorkompilierte Versionen für Mac und Windows und den meisten Linux-und BSD-Distributionen bereits enthalten, und Sie können von der Quelle erstellen, wenn Sie möchten.
- Gute Wahl, aber es wird ersticken gebrochen html, also würde ich es durch libtidy ersten.
InformationsquelleAutor Tony Miller
2

Google vor kurzem eine Reine C99-Bibliothek zum Parsen von HTML, HTML5 spezifisch. Es ist einfach zu bedienen in jedem C-Programm und aktiv entwickelt werden.

https://github.com/google/gumbo-parser
- Die meisten änderungen sind von vor 2 Jahren, HTML5-standard bereits definiert wurde, ist nicht der code ein wenig veraltet?
InformationsquelleAutor Anton Kochkov

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.