Extrahieren der Inhalte der Tabellen aus html-Seiten mit python und BeautifulSoup

Möchte ich zum extrahieren bestimmter Informationen aus einem html-Dokument. E. g. es enthält eine Tabelle
(unter anderem Tabellen und andere Inhalte) wie folgt:

    <table class="details">
            <tr>
                    <th>Advisory:</th>
                    <td>RHBA-2013:0947-1</td>
            </tr>
            <tr>    
                    <th>Type:</th>
                    <td>Bug Fix Advisory</td>
            </tr>
            <tr>
                    <th>Severity:</th>
                    <td>N/A</td>
            </tr>
            <tr>    
                    <th>Issued on:</th>
                    <td>2013-06-13</td>
            </tr>
            <tr>    
                    <th>Last updated on:</th>
                    <td>2013-06-13</td>
            </tr>

            <tr>
                    <th valign="top">Affected Products:</th>
                    <td><a href="#Red Hat Enterprise Linux ELS (v. 4)">Red Hat Enterprise Linux ELS (v. 4)</a></td>
            </tr>


    </table>

Möchte ich extrahieren von Informationen wie das Datum von "erstellt am:". Es sieht aus wie BeautifulSoup4
könnte dies zu lösen, aber irgendwie habe ich das nicht Schaffe, es richtig zu machen.
Mein code bisher:

    from bs4 import BeautifulSoup
    soup=BeautifulSoup(unicodestring_containing_the_entire_htlm_doc)
    table_tag=soup.table
    if table_tag['class'] == ['details']:
            print table_tag.tr.th.get_text() + " " + table_tag.tr.td.get_text()
            a=table_tag.next_sibling
            print  unicode(a)
            print table_tag.contents

Dieser bekommt von mir den Inhalt der ersten Zeile der Tabelle, und auch eine Auflistung der Inhalte.
Aber das nächste Geschwister-Sache ist nicht richtig, ich glaube, ich bin nur verwenden es falsch.
Natürlich könnte ich auch einfach Parsen der Inhalte-Ding, aber es scheint mir, dass die schöne Suppe
wurde entwickelt, um zu verhindern, dass uns genau diese (wenn ich starten parsing mich, ich kann
gut analysiert das ganze doc ...). Wenn jemand könnte mich aufklären, wie acomplish, ich
wäre dankbar. Wenn es einen besseren Weg, dann ist BeautifulSoup, ich wäre daran interessiert zu
davon hören.

InformationsquelleAutor Isaac | 2013-06-19

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(unicodestring_containing_the_entire_htlm_doc)
>>> table = soup.find('table', {'class': 'details'})
>>> th = table.find('th', text='Issued on:')
>>> th
<th>Issued on:</th>
>>> td = th.findNext('td')
>>> td
<td>2013-06-13</td>
>>> td.text
u'2013-06-13'

InformationsquelleAutor falsetru

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.