Verwenden BeautifulSoup um text zu extrahieren, bevor das erste Kind-tag

Aus dieser html-Quelltext:

<div class="category_link">
  Category:
  <a href="/category/personal">Personal</a>
</div>

Möchte ich extrahieren Sie den text Category:

Hier sind meine versuche mit Python/BeautifulSoup (mit Ausgabe als Kommentar - nach dem #)

parsed = BeautifulSoup(sample_html)
parsed_div = parsed.findAll('div')[0]
parsed_div.firstText() # <a href="/category/personal">Personal</a>
parsed_div.first() # <a href="/category/personal">Personal</a>
parsed_div.findAll()[0] # <a href="/category/personal">Personal</a>

Ich würde erwarten, dass ein "text-Knoten" als das erste Kind. Irgendwelche Vorschläge, wie ich dieses Problem lösen?

parsed_div.contents[0]

InformationsquelleAutor Elvis D'Souza | 2012-04-14

beautifulsoup python

12

Ich bin mir ziemlich sicher, dass die folgenden sollten tun, was Sie wollen
```
parsed.find('a').previousSibling # or something like that
```
Zurückgeben würde eine NavigableString Instanz, das ist so ziemlich das gleiche
etwas wie eine unicode Beispiel, aber Sie können rufen Sie unicode auf, dass, um eine
unicode-Objekt.

Werde ich sehen, ob ich das ausprobieren und Euch wissen lassen.

BEARBEITEN: ich habe nur bestätigt, dass es funktioniert:
```
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup('<div class=a>Category: <a href="/">a link</a></div>')
>>> soup.find('a')
<a href="/">a link</a>
>>> soup.find('a').previousSibling
u'Category: '
>>> 
```
- Genial! Arbeitete wie ein Charme
InformationsquelleAutor Shrikant Sharat

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.