Vorschläge get_text() in BeautifulSoup
Ich bin mit BeautifulSoup Parsen einige Inhalte aus einer html-Seite.
Kann ich extrahieren aus dem html die Inhalte, die ich will (also den text in ein span
definiert durch die class
myclass").
result = mycontent.find(attrs={'class':'myclass'})
Ich erhalten dieses Ergebnis:
<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>
Wenn ich versuche, zu extrahieren den text mit:
result.get_text()
Ich erhalten:
Lorem ipsumdolor sit amet,consectetur...
Wie Sie sehen können, wenn der tag <br>
entfernt, es gibt keine mehr Abstand zwischen Inhalt und zwei Worte sind concated.
Wie kann ich dieses Problem lösen?
Verwenden Sie "Inhalt", dann ersetzen <br>?
können Sie dies in einem Beispiel so, dass ich die Antwort akzeptieren? Dank
Auf dem iPhone jetzt. Brauchen, um in der Nähe eines Computers zu erstellen getestet. Ich hoffe, jemand anderes erstellen beispielsweise für Sie in der Zwischenzeit.
können Sie dies in einem Beispiel so, dass ich die Antwort akzeptieren? Dank
Auf dem iPhone jetzt. Brauchen, um in der Nähe eines Computers zu erstellen getestet. Ich hoffe, jemand anderes erstellen beispielsweise für Sie in der Zwischenzeit.
InformationsquelleAutor user601836 | 2013-04-20
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wenn Sie mit bs4, die Sie verwenden können
strings
:InformationsquelleAutor Sean Vieira
Verwenden, 'Inhalt' , dann ersetzen
<br>
?Hier ist eine vollständige (funktioniert, getestet) Beispiel:
Ergebnis:
Dies ist aufwändiger, als Sean ' s sehr kompakte Lösung - aber da ich gesagt hatte, ich würde erstellen und testen einer Lösung entlang der Linien, die ich hatte geben, wenn ich könnte, beschloss ich durch zu Folgen, auf mein Versprechen. Sie können sehen, ein wenig besser, was hier Los ist, die
<br/>
ist sein eigenes element in derresult.contents
Tupel, aber bei der Konvertierung in string es gibt nichts "Links".InformationsquelleAutor Floris