Entfernen - tags analysiert eine Schöne Suppe Liste?

Ich bin derzeit immer in eine for-Schleife mit allen Zeilen, die ich will:

page = urllib2.urlopen(pageurl)
soup = BeautifulSoup(page)
tables = soup.find("td", "bodyTd")
for row in tables.findAll('tr'):

An dieser Stelle, ich habe meine Informationen, aber die

<br />

tags sind ruiniert meine Leistung.

Was ist der sauberste Weg, diese zu entfernen?

InformationsquelleAutor mamontazeri | 2011-05-08

14
```
for e in soup.findAll('br'):
    e.extract()
```
Nun, das ist definitiv der Weg zu gehen!
Dies funktioniert, aber es extrahiert den text zwischen den br, also es wird nicht nur entfernen Sie die extra br, werden Sie nicht in der Lage, trennen Sie Ihren text mit br, weil es Sie zu entfernen
In meinem Fall, ist diese Lösung entledigte sich der text rund um die br-tags als gut, so habe ich e.replace_with(' ') zu ersetzen br-tags mit einem Leerzeichen.

InformationsquelleAutor Kabie

Wenn Sie übersetzen möchten die  's um Zeilenumbrüche, etwas wie das hier tun:

def text_with_newlines(elem):
    text = ''
    for e in elem.recursiveChildGenerator():
        if isinstance(e, basestring):
            text += e.strip()
        elif e.name == 'br':
            text += '\n'
    return text

InformationsquelleAutor Mu Mind

3

ersetzen-tags auf die mit einem Leerzeichen beginnen
Schöne Suppe auch akzeptiert .read() auf dem urlopen Objekt, so sollte das funktionieren - - -
```
page = urllib2.urlopen(pageurl)
page_text=page.read()
new_text=re.sub('',' ',page_text)
soup = BeautifulSoup(new_text)
tables = soup.find("td", "bodyTd")
for row in tables.findAll('tr'):
.....
```
den re.sub ersetzt das br-tag mit einem Leerzeichen

für br-Attribute ersetzen Sie einfach in der re.sub('</br.+>',' ',page_text)
Wenn Sie sicher sind, dass die br-tags konsequent schauen, wie ', es ist einfacher und schneller zu bedienen Seite.replace('', ' ') statt. Ansonsten ein regulärer Ausdruck könnte besser geeignet sein, als @minocha vorgeschlagen. Siehe: stackoverflow.com/a/5668962

InformationsquelleAutor minocha
0

Vielleicht some_string.replace(' ','\n') zu ersetzen, der bricht mit newlines.
```
>>> print 'Some data More data '.replace(' ','\n')
Some data
More data
```
Möchten Sie vielleicht zu prüfen, aus html5lib und lxml, die sind beide ziemlich groß, bei Parsen von html. lxml ist wirklich schnell und html5lib ist äußerst robust ausgelegt.

Was, wenn ich   im HTML? Nur so ein Gedanke.
Mit der re Modul würde mehr Sinn machen, dann. Das ist ziemlich ungewöhnlich, obwohl.
Ich Frage mich nur, wenn beautifulsoup analysiert nur - tags oder hat die Attribute nur. Vielleicht Rohrleitungen diese in einem HTML/XML-parser würde auch funktionieren? Aber wenn die OP nur hat  , dann ist alles gut 😉

InformationsquelleAutor zeekay

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.