Verwenden BeautifulSoup um text zu extrahieren, bevor das erste Kind-tag

Aus dieser html-Quelltext:

<div class="category_link">
  Category:
  <a href="/category/personal">Personal</a>
</div>

Möchte ich extrahieren Sie den text Category:

Hier sind meine versuche mit Python/BeautifulSoup (mit Ausgabe als Kommentar - nach dem #)

parsed = BeautifulSoup(sample_html)
parsed_div = parsed.findAll('div')[0]
parsed_div.firstText() # <a href="/category/personal">Personal</a>
parsed_div.first() # <a href="/category/personal">Personal</a>
parsed_div.findAll()[0] # <a href="/category/personal">Personal</a>

Ich würde erwarten, dass ein "text-Knoten" als das erste Kind. Irgendwelche Vorschläge, wie ich dieses Problem lösen?

  • parsed_div.contents[0]
Schreibe einen Kommentar