BeautifulSoup: Wie man verschachtelte divs

Folgenden code:

<html>
<body>
<div class="category1" id="foo">
      <div class="category2" id="bar">
            <div class="category3">
            </div>
            <div class="category4">
                 <div class="category5"> test
                 </div>
            </div>
      </div>
</div>
</body>
</html>

Gewusst wie: extrahieren Sie das Wort test aus <div class="category5"> test mit BeautifulSoup ich.e, wie man mit verschachtelten divs? Ich habe versucht Suche auf dem Internet, aber ich finde nicht jeden Fall behandeln, dass ein eingängiges Beispiel, so richte ich diese ein. Danke.

Was ist mit verschachtelten divs? Was versuchen Sie zu extrahieren, und warum verschachtelte divs bilden ein Hindernis für dieses Ziel? Sie können nur die Suche nach diesen speziellen divs verschachtelt oder nicht.
Mögliche Duplikate von: stackoverflow.com/questions/1058599/...
Ich denke, das problem kommt von der Tatsache, dass die divs verschachtelt sind, in jedem anderen, denn wenn ich mysoup.findAll('div', attrs={'class':'category5'}) der return-Wert Keiner !
es ist nicht eine doppelte Lesen die andere Frage, die du verlinkt uns auch. Hier sind wir mit attrs={...} die Lösung ist anders, wenn man eine Reine Tags wie <td>
Nein, wenn Sie nicht finden können, das div mit der Suche, dann ist es nicht in den Baum.
welche version von BeautifulSoup verwenden Sie? Was ist eigentlich HTML? Wenn Sie mit BeautifulSoup, haben Sie lxml installiert?
dies wurde nichts zu tun, mit Schachteln. Die OP kann nicht finden, ein bestimmtes div, aber die Suche ist korrekt. Was bedeutet, dass das div-Element nicht da ist, die hervorgerufenen werden konnte durch mehrere verschiedene Dinge, nicht zuletzt durch die version von BeautifulSoup und welche parser verwendet wird.

InformationsquelleAutor torr | 2014-10-29

6

xpath sollte straight forward Antwort, aber dies wird nicht unterstützt, in BeautifulSoup.

Aktualisiert: mit BeautifulSoup-Lösung

Dazu gegeben, dass Sie wissen, die Klasse und element (div) in diesem Fall können Sie verwenden ein for/loop mit attrs zu bekommen, was Sie wollen:
```
from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class="category1" id="foo">
      <div class="category2" id="bar">
            <div class="category3">
            </div>
            <div class="category4">
                 <div class="category5"> test
                 </div>
            </div>
      </div>
</div>
</body>
</html>'''

content = BeautifulSoup(html)

for div in content.findAll('div', attrs={'class':'category5'}):
    print div.text

test
```
Ich kein problem haben, extrahieren Sie den text aus dem html-Beispiel, wie @MartijnPieters vorgeschlagen, die Sie benötigen, um herauszufinden, warum Ihre div element fehlt.

Ein weiteres update

Als Sie fehlt lxml als ein parser für BeautifulSoup, das ist der Grund, warum Keiner war zurückgekehrt, als Sie noch nicht analysiert alles, was mit zu beginnen. Installieren lxml sollte sich eine Lösung für Ihr Problem.

Können Sie erwägen, mit lxml oder ähnliches, unterstützt xpath, tot einfach, wenn Sie mich Fragen.
```
from lxml import etree

tree = etree.fromstring(html) # or etree.parse from source
tree.xpath('.//div[@class="category5"]/text()')
[' test\n                 ']
```
- Dies ist nicht hilfreich, wenn der OP ist mit BeautifulSoup..
- Ich verstehe OP Mitgliedstaaten BeautifulSoup, wird aber nicht erwähnt, wenn eine andere Bibliothek akzeptiert werden. Ich kann Sie Bearbeiten und fügen Sie eine Lösung für die Nutzung BeautifulSoup zu.
- Das problem ist, dass das div-Element nicht vorhanden ist, in dem geparsten Baum. Warum das so ist, ist nicht zu beantworten, weil die OP nicht gegeben hat, uns die erforderlichen Angaben zu diagnostizieren. Die Annahme, dass es nichts zu tun hat mit der Verschachtelung ist falsch.
- du hast ganz Recht. OP verwechselt hat mit verschachtelten Elemente in der Erwägung, dass eindeutig die Technik, die nötig ist, um hinzufügen attrs entsprechend der gegebenen div - element mit der Klasse category5. Antwort aktualisiert.
- Ich habe eine type object 'BeautifulSoup' has no attribute 'RobustHTMLParser' auch sollte es nicht from bs4 import BeautifulSoup ? Vielen Dank für Eure Hilfe
- es geht darum, wie Sie Ihre installierte Module, was ist Ihre version von BeautifulSoup? wenn from bs4 ... für Sie arbeitet, ist es auch fein. Auch, ich bin wirklich darauf hindeutet, Sie wechseln auf eine andere Bibliothek wie BeautifulSoup ist eher nicht gepflegt und langsamer in der Leistung im Vergleich zu anderen Bibliotheken
- Ich bin mit BeautifulSoup 4 und ich installierte es über pip. Wie kann ich RobustHTMLParser()? Was sind einige Coole alternativen zu BeautifulSoup? Dank
- okay ich bin dumm, du bist auf bs4' of course, i'm using **3.2.1** which is even behind your version. I will edit the answer for bs4`
- Dank anzel, ich Schätze Ihre Hilfe!
- Antwort aktualisiert für bs4, es ist sogar noch einfacher als meine version. Je nach Aufgabe, die Sie tun, werden es Kratzen? oder einfach nur one-off-Analyse-Inhalte und greifen Sie die Informationen. Zum Schaben-Projekt, dem empfehle ich Scrapy, und einfache Analyse, verwenden Sie einfach lxml ist in Ordnung, so wie es kommt als ein parser für BeautifulSoup sowieso
- Der code war das, was ich mit so weit, aber es gibt nothing zurück, obwohl ich weiß, dass das div-Element in der Datei vorhanden, ich habe die Quelle aber nichts zurückgegeben.
- wie Martijn Pieters schlug vor, dass ein Haupt-Grund, warum Sie Ihre Analyse scheitern. Bekommen Sie das html aus einer Quelle (wie einer Datei, Anforderungen, Inhalte), oder aus einem string?
- möglicherweise fehlt lxml als ein parser für BeautifulSoup. Können Sie schnell versuchen, in Ihre Konsole python -c "import lxml" und sehen, wenn es scheitert?
- Sie haben Recht, lxml fehlt. Ich bin am installieren Sie es jetzt, halten Sie aktualisiert
- lxml ist nun installiert, aber die Ausgabe fehlt noch 🙁
- Ich habe herausgefunden, was nicht funktioniert, muss ich eigentlich erst angemeldet sein auf der website, die ich bin versucht zu Schrott. Danke Ihnen so sehr für Ihre Hilfe, ich habe viel gelernt heute.
- sind Sie sicher, dass lxml richtig funktioniert? versuchen Sie meine zweite Antwort mit lxml und sehen, ob es funktioniert
- lol ok! es ist also die Quelle, du bist das Parsen von da 😉 Froh, Sie haben das problem gelöst.
InformationsquelleAutor Anzel

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Aktualisiert: mit BeautifulSoup-Lösung

Ein weiteres update