Python: strip html aus text-Daten

Meine Frage ist leicht mit Bezug auf: Strip HTML aus strings in Python

Ich bin auf der Suche nach einem einfachen Weg, um Streifen HTML-code aus dem text. Zum Beispiel:

string = 'foo <SOME_VALID_HTML_TAG> something </SOME_VALID_HTML_TAG> bar'
stripIt(string)

Würde dann ergeben foo bar.

Gibt es irgendein einfaches Werkzeug zum erreichen dieser in Python? Der HTML-code könnte verschachtelt werden.

Ich denke, dass Sie vielleicht wollen, verwenden Sie die akzeptierte Antwort auf die Frage, die Sie verbunden - wie, was machst du anders?
In dem Zusammenhang Frage, der user wollte stripIt('<HTML_TAG>foo</HTML_TAG>') ergeben foo, während in meinem Fall, ich will es zurück ".
Recht - mein Fehler. Ich wollte nicht sehen, die Bearbeiten, um Ihre Frage, und dachte, dass something war der tag Sie wollte abgestreift.
ist "SOME_VALID_HTML_TAG" auf einen bestimmten tag? Wollen Sie der äußerste tag entfernt werden?

InformationsquelleAutor Jernej | 2011-01-05

html python

from BeautifulSoup import BeautifulSoup

def removeTags(html, *tags):
    soup = BeautifulSoup(html)
    for tag in tags:
        for tag in soup.findAll(tag):
            tag.replaceWith("")

    return soup


testhtml = '''
<html>
    <head>
        <title>Page title</title>
    </head>
    <body>text here<p id="firstpara" align="center">This is paragraph <b>one</b>.</p>
        <p id="secondpara" align="blah">This is paragraph <b>two</b>.</p>
    </body>
</html>'''

print removeTags(testhtml, 'b', 'p')

InformationsquelleAutor milkypostman

import lxml.html
import re

def stripIt(s):
    doc = lxml.html.fromstring(s)   # parse html string
    txt = doc.xpath('text()')       # ['foo ', ' bar']
    txt = ' '.join(txt)             # 'foo   bar'
    return re.sub('\s+', ' ', txt)  # 'foo bar'

s = 'foo <SOME_VALID_HTML_TAG> something </SOME_VALID_HTML_TAG> bar'
stripIt(s)

gibt

foo bar

ich denke, lxml ist besser als andere Module, dies funktioniert wie Charme.
Das ist gut, weil es nur ein Leerzeichen zwischen die entstandene 'foo' und 'bar', als OP beantragt. Einige der anderen Lösungen, lassen Sie zwei Leerzeichen ein.

InformationsquelleAutor Hugh Bothwell

Könnten Sie regex:

def stripIt(s):
  txt = re.sub('<[^<]+?>.*?</[^<]+?>', '', s) # Remove html tags
  return re.sub('\s+', ' ', txt)              # Normalize whitespace

Allerdings würde ich lieber Hugh Bothwell ' s-Lösung, wie es wäre robuster als Reine regex.

InformationsquelleAutor mmmdreg

Probieren Sie diese Lösung:

from BeautifulSoup import BeautifulSoup

def stripIt(string, tag):
    soup = BeautifulSoup(string)

    rmtags = soup.findAll(tag)
    for t in rmtags:
        string = string.replace(str(t), '')
    return string

string = 'foo <p> something </p> bar'
print stripIt(string, 'p')
>>> foo  bar

string = 'foo <a>bar</a> baz <a>quux</a>'
print stripIt(string, 'a')
>>> foo  baz

Edit: Dies funktioniert nur auf gültig verschachtelte tags, so zum Beispiel:

string = 'blaz <div>baz <div>quux</div></div>'
print stripIt(string, 'div')
>>> blaz

string = 'blaz <a>baz <a>quux</a></a>'
print stripIt(string, 'a')
>>> blaz <a>baz </a>

InformationsquelleAutor Brent Newey

2

Wenn jemand hat dieses problem und arbeitet bereits mit der jinja templating-Sprache: Sie können den filter verwenden, den striptags Vorlagen und die Funktion jinja2.filters.do_striptags() im code.

InformationsquelleAutor tobib

Können Sie die Vorteile von HTMLParser durch überschreiben von Methoden entsprechend:

from HTMLParser import HTMLParser

class HTMLStripper(HTMLParser):

    text_parts = []
    depth = 0

    def handle_data(self, data):
        if self.depth == 0:
            self.text_parts.append(data.strip())

    def handle_charref(self, ref):
        data = unichr(int(ref))
        self.handle_data(data)

    def handle_starttag(self, tag, attrs):
        self.depth += 1

    def handle_endtag(self, tag):
        if self.depth > 0:
            self.depth -= 1

    def handle_entityref(self, ref):
        try:
            data = unichr(name2codepoint[ref])
            self.handle_data(data)
        except KeyError:
            pass

    def get_stripped_text(self):
        return ' '.join(self.text_parts)

def strip_html_from_text(html):
    parser = HTMLStripper()
    parser.feed(html)
    return parser.get_stripped_text()

def main():
    import sys
    html = sys.stdin.read()
    text = strip_html_from_text(html)
    print text

if __name__ == '__main__':
    main()

InformationsquelleAutor scoffey

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.