Vorschläge get_text() in BeautifulSoup

Ich bin mit BeautifulSoup Parsen einige Inhalte aus einer html-Seite.

Kann ich extrahieren aus dem html die Inhalte, die ich will (also den text in ein span definiert durch die class myclass").

result = mycontent.find(attrs={'class':'myclass'})

Ich erhalten dieses Ergebnis:

<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>

Wenn ich versuche, zu extrahieren den text mit:

result.get_text()

Ich erhalten:

Lorem ipsumdolor sit amet,consectetur...

Wie Sie sehen können, wenn der tag <br> entfernt, es gibt keine mehr Abstand zwischen Inhalt und zwei Worte sind concated.

Wie kann ich dieses Problem lösen?

Verwenden Sie "Inhalt", dann ersetzen <br>?
können Sie dies in einem Beispiel so, dass ich die Antwort akzeptieren? Dank
Auf dem iPhone jetzt. Brauchen, um in der Nähe eines Computers zu erstellen getestet. Ich hoffe, jemand anderes erstellen beispielsweise für Sie in der Zwischenzeit.

InformationsquelleAutor user601836 | 2013-04-20

Schreibe einen Kommentar