Vorschläge get_text() in BeautifulSoup

Ich bin mit BeautifulSoup Parsen einige Inhalte aus einer html-Seite.

Kann ich extrahieren aus dem html die Inhalte, die ich will (also den text in ein span definiert durch die class myclass").

result = mycontent.find(attrs={'class':'myclass'})

Ich erhalten dieses Ergebnis:

<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>

Wenn ich versuche, zu extrahieren den text mit:

result.get_text()

Ich erhalten:

Lorem ipsumdolor sit amet,consectetur...

Wie Sie sehen können, wenn der tag <br> entfernt, es gibt keine mehr Abstand zwischen Inhalt und zwei Worte sind concated.

Wie kann ich dieses Problem lösen?

Verwenden Sie "Inhalt", dann ersetzen <br>?
können Sie dies in einem Beispiel so, dass ich die Antwort akzeptieren? Dank
Auf dem iPhone jetzt. Brauchen, um in der Nähe eines Computers zu erstellen getestet. Ich hoffe, jemand anderes erstellen beispielsweise für Sie in der Zwischenzeit.

InformationsquelleAutor user601836 | 2013-04-20

beautifulsoup python

22

Wenn Sie mit bs4, die Sie verwenden können strings:
```
" ".join(result.strings)
```
Oder verwenden Sie die kwarg Trennzeichen, dass nicht die gleiche Sache innerhalb get_text: Ergebnis.get_text('separator='" ") -> " Lorem ipsum dolor sit amet, consectetur...'

InformationsquelleAutor Sean Vieira

Verwenden, 'Inhalt' , dann ersetzen <br>?

Hier ist eine vollständige (funktioniert, getestet) Beispiel:

from bs4 import BeautifulSoup
import urllib2

url="http://www.floris.us/SO/bstest.html"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())

result = soup.find(attrs={'class':'myclass'})
print "The result of soup.find:"
print result

print "\nresult.contents:"
print result.contents
print "\nresult.get_text():"
print result.get_text()
for r in result:
  if (r.string is None):
    r.string = ' '

print "\nAfter replacing all the 'None' with ' ':"
print result.get_text()

Ergebnis:

The result of soup.find:
<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>

result.contents:
[u'Lorem ipsum', <br/>, u'dolor sit amet,', <br/>, u'consectetur...']

result.get_text():
Lorem ipsumdolor sit amet,consectetur...

After replacing all the 'None' with ' ':
Lorem ipsum dolor sit amet, consectetur...

Dies ist aufwändiger, als Sean ' s sehr kompakte Lösung - aber da ich gesagt hatte, ich würde erstellen und testen einer Lösung entlang der Linien, die ich hatte geben, wenn ich könnte, beschloss ich durch zu Folgen, auf mein Versprechen. Sie können sehen, ein wenig besser, was hier Los ist, die <br/> ist sein eigenes element in der result.contents Tupel, aber bei der Konvertierung in string es gibt nichts "Links".

InformationsquelleAutor Floris

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.