Tag: html5lib

html5lib ist eine Bibliothek zum Parsen und serialisieren von HTML-Dokumenten und-Fragmenten in Python, mit Anschlüssen an Dart, PHP und Ruby.

BeautifulSoup - lxml und html5lib Parser Schaben Unterschiede

Anzahl der Antworten 2 Antworten
Ich bin mit BeautifulSoup 4 mit Python 2.7. Ich möchte zum extrahieren bestimmter Elemente aus einer website (Mengen, siehe das Beispiel unten). Für einige Grund, die lxml parser erlaubt mir nicht, zu extrahieren alle gewünschten Elemente von

BeautifulSoup - wie soll ich mich erhalten, den Körper Inhalt

Anzahl der Antworten 1 Antworten
Ich bin Parsen HTML mit BeautifulSoup. Am Ende, ich möchte zu erhalten, die body Inhalt, aber ohne die body - tags. Aber BeautifulSoup fügt html, head, und body - tags. Ich diese googlegrops Diskussion eine mögliche Lösung

Wie kann ich das Parsen von HTML mit html5lib und Abfrage der analysierten HTML mit XPath?

Anzahl der Antworten 7 Antworten
Ich versuche, mit html5lib zu Parsen einer html-Seite in etwas, was ich kann Abfragen mit xpath. html5lib hat nahe null Dokumentation und ich habe zu viel Zeit damit verbracht herauszufinden problem. Ziel ist, ziehen Sie die zweite

beasesoup, html5lib: Modulobjekt hat kein Attribut _base

Anzahl der Antworten 5 Antworten
Wenn ich meine aktualisierten Pakete, die ich habe diese neuen Fehler: class TreeBuilderForHtml5lib(html5lib.treebuilders._base.TreeBuilder): AttributeError: 'module' object has no attribute '_base' Habe ich versucht zu aktualisieren beautifulsoupmit nicht mehr führen. Wie kann ich das beheben? InformationsquelleAutor der Frage Ehvince | 2016-07-19