Tag: html5lib
html5lib ist eine Bibliothek zum Parsen und serialisieren von HTML-Dokumenten und-Fragmenten in Python, mit Anschlüssen an Dart, PHP und Ruby.
2
Antworten
Ich bin mit BeautifulSoup 4 mit Python 2.7. Ich möchte zum extrahieren bestimmter Elemente aus einer website (Mengen, siehe das Beispiel unten). Für einige Grund, die lxml parser erlaubt mir nicht, zu extrahieren alle gewünschten Elemente von
1
Antworten
Ich bin Parsen HTML mit BeautifulSoup. Am Ende, ich möchte zu erhalten, die body Inhalt, aber ohne die body - tags. Aber BeautifulSoup fügt html, head, und body - tags. Ich diese googlegrops Diskussion eine mögliche Lösung
7
Antworten
Ich versuche, mit html5lib zu Parsen einer html-Seite in etwas, was ich kann Abfragen mit xpath. html5lib hat nahe null Dokumentation und ich habe zu viel Zeit damit verbracht herauszufinden problem. Ziel ist, ziehen Sie die zweite
5
Antworten
Wenn ich meine aktualisierten Pakete, die ich habe diese neuen Fehler: class TreeBuilderForHtml5lib(html5lib.treebuilders._base.TreeBuilder): AttributeError: 'module' object has no attribute '_base' Habe ich versucht zu aktualisieren beautifulsoupmit nicht mehr führen. Wie kann ich das beheben? InformationsquelleAutor der Frage Ehvince | 2016-07-19