Finden nächsten Auftritt-tag und eingeschlossenen text mit Schönen Suppe

Ich versuche zu Parsen von text zwischen das tag <blockquote>. Wenn ich soup.blockquote.get_text().

Ich das Ergebnis bekommen, das möchte ich für den ersten Auftritt blockquote in HTML-Datei. Wie finde ich die nächste und sequentielle <blockquote> - tag in der Datei? Vielleicht bin ich einfach nur müde und kann es nicht finden in der Dokumentation.

Beispiel-HTML-Datei:

<html>
<head>header
</head>
<blockquote>I can get this text
</blockquote>
<p>eiaoiefj</p>
<blockquote>trying to capture this next
</blockquote>
<p></p><strong>do not capture this</strong>
<blockquote>
capture this too but separately after "capture this next"
</blockquote>
</html>

den einfachen python-code:

from bs4 import BeautifulSoup

html_doc = open("example.html")
soup = BeautifulSoup(html_doc)
print.(soup.blockquote.get_text())
# how to get the next blockquote???

Was ist das <blockquote>, die Sie sich beziehen , ist es eine HTML - <blockquote> == w3schools.com/tags/tryit.asp?filename=tryhtml_blockquote_test. Wenn ja, als eine HTML - <blockquote> GEWÄHRLEISTUNGEN jeglicher Art von besonderer Behandlung, als sagen anderen HTML-TAG ' s ? IMHO ist es nicht so verlasse diesen Kommentar zu klären . Der bs4 oder jede andere Art von HTML-parsing-code, mit dem arbeiten für "andere HTML-Tags" wird gut funktionieren für eine HTML - <blockquote> , danke.

InformationsquelleAutor PSeUdocode | 2014-02-17

Verwenden find_next_sibling (Wenn es keine Geschwister sind, verwenden find_next statt)

>>> html = '''
... <html>
... <head>header
... </head>
... <blockquote>blah blah
... </blockquote>
... <p>eiaoiefj</p>
... <blockquote>capture this next
... </blockquote>
... <p></p><strong>don'tcapturethis</strong>
... <blockquote>
... capture this too but separately after "capture this next"
... </blockquote>
... </html>
... '''

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(html)
>>> quote1 = soup.blockquote
>>> quote1.text
u'blah blah\n'
>>> quote2 = quote1.find_next_siblings('blockquote')
>>> quote2.text
u'capture this next\n'

InformationsquelleAutor falsetru

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.