Verwenden BeautifulSoup um text zu extrahieren, bevor das erste Kind-tag
Aus dieser html-Quelltext:
<div class="category_link">
Category:
<a href="/category/personal">Personal</a>
</div>
Möchte ich extrahieren Sie den text Category:
Hier sind meine versuche mit Python/BeautifulSoup (mit Ausgabe als Kommentar - nach dem #)
parsed = BeautifulSoup(sample_html)
parsed_div = parsed.findAll('div')[0]
parsed_div.firstText() # <a href="/category/personal">Personal</a>
parsed_div.first() # <a href="/category/personal">Personal</a>
parsed_div.findAll()[0] # <a href="/category/personal">Personal</a>
Ich würde erwarten, dass ein "text-Knoten" als das erste Kind. Irgendwelche Vorschläge, wie ich dieses Problem lösen?
parsed_div.contents[0]
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich bin mir ziemlich sicher, dass die folgenden sollten tun, was Sie wollen
Zurückgeben würde eine
NavigableString
Instanz, das ist so ziemlich das gleicheetwas wie eine
unicode
Beispiel, aber Sie können rufen Sieunicode
auf, dass, um eineunicode-Objekt.
Werde ich sehen, ob ich das ausprobieren und Euch wissen lassen.
BEARBEITEN: ich habe nur bestätigt, dass es funktioniert: