Wie zum extrahieren von text aus erschwingliches sane HTML?

Meine Frage ist in der Art, wie diese Frage aber ich habe mehr Einschränkungen:

  • Ich weiß, das Dokument ist einigermaßen gesund
  • Sie sind sehr regelmäßig (alle kamen aus der gleichen Quelle
  • Ich möchte über 99% der sichtbaren text
  • über 99% von dem, was tragfähig ist, an alles ist text (Sie sind mehr oder weniger RTF in HTML konvertiert)
  • Ich kümmern sich nicht über die Formatierung oder sogar Absatz bricht.

Gibt es irgendwelche tools einrichten, dies zu tun, oder bin ich besser dran, nur ausbrechen RegexBuddy und C#?

Ich bin offen für Befehlszeile oder batch-processing-Werkzeuge wie C/C#/D Bibliotheken.

Nichts, aber regexes.
Wenn es etwas gab, was aber so Einschränkungen, die ich zuvor noch nie glaubst regex 🙂

InformationsquelleAutor BCS | 2010-01-21

Schreibe einen Kommentar