Wie kann ich ersetzen oder entfernen von HTML-Entitäten wie " " mit BeautifulSoup 4

Bin ich die Verarbeitung von HTML mittels Python und BeautifulSoup 4 Bibliothek und ich kann nicht finden, eine offensichtliche Weise zu ersetzen   mit einem Leerzeichen. Stattdessen scheint es konvertiert eine Unicode-non-breaking space character.

Übersehe ich hier etwas offensichtliches? Was ist der beste Weg, Sie zu ersetzen   mit einem normalen Raum mit BeautifulSoup?

Bearbeiten, um hinzuzufügen, dass ich die neueste version, BeautifulSoup 4, so dass die convertEntities=BeautifulSoup.HTML_ENTITIES option in Schöne Suppe 3 ist nicht verfügbar.

Aber, es wird ein non-breaking space...
Ja, ich begreife,   ist eine non-breaking space. Also sagen Sie, das richtige zu tun, ist Holen Sie sich das HTML-snippet, den ich will, dann einen Unicode suchen und ersetzen? Ich denke, dass tut was ich will, ich dachte nur, es war eine Entsprechung zu den alten convertEntities option.

InformationsquelleAutor Richard Neish | 2013-02-28

Schreibe einen Kommentar