Wie kann ich ersetzen oder entfernen von HTML-Entitäten wie " " mit BeautifulSoup 4
Bin ich die Verarbeitung von HTML mittels Python und BeautifulSoup 4 Bibliothek und ich kann nicht finden, eine offensichtliche Weise zu ersetzen
mit einem Leerzeichen. Stattdessen scheint es konvertiert eine Unicode-non-breaking space character.
Übersehe ich hier etwas offensichtliches? Was ist der beste Weg, Sie zu ersetzen mit einem normalen Raum mit BeautifulSoup?
Bearbeiten, um hinzuzufügen, dass ich die neueste version, BeautifulSoup 4, so dass die convertEntities=BeautifulSoup.HTML_ENTITIES
option in Schöne Suppe 3 ist nicht verfügbar.
Aber, es wird ein non-breaking space...
Ja, ich begreife, ist eine non-breaking space. Also sagen Sie, das richtige zu tun, ist Holen Sie sich das HTML-snippet, den ich will, dann einen Unicode suchen und ersetzen? Ich denke, dass tut was ich will, ich dachte nur, es war eine Entsprechung zu den alten convertEntities option.
Ja, ich begreife, ist eine non-breaking space. Also sagen Sie, das richtige zu tun, ist Holen Sie sich das HTML-snippet, den ich will, dann einen Unicode suchen und ersetzen? Ich denke, dass tut was ich will, ich dachte nur, es war eine Entsprechung zu den alten convertEntities option.
InformationsquelleAutor Richard Neish | 2013-02-28
Du musst angemeldet sein, um einen Kommentar abzugeben.
Sehen Entitäten in der Dokumentation. BeautifulSoup 4 produziert korrekte Unicode für alle Entitäten:
Ja,
verwandelt sich in ein non-breaking space character. Wenn Sie wirklich wollen, diejenigen zu sein, die Leerzeichen stattdessen müssen Sie eine unicode ersetzen.InformationsquelleAutor Martijn Pieters
InformationsquelleAutor Fabian
Ich würde Sie einfach ersetzen Sie die non-breaking space mit dem unicode.
Ein Vorteil ist, dass, obwohl Sie mit BeautifulSoup, brauchen Sie nicht zu.
InformationsquelleAutor LancDec