So entfernen Sie steuerzeichen aus UTF8-string

habe ich eine VB.NET Programm behandelt, die den Inhalt von Dokumenten.
Das programm verarbeitet große Mengen von Unterlagen, die als "batch"(>2 Millionen Dokumente, insgesamt 1-TB-Volumen)
Einige dieser Dokumente enthalten möglicherweise control-chars oder chars wie f0e8(http://www.fileformat.info/info/unicode/char/f0e8/browsertest.htm).

Gibt es eine einfache und vor allem schnell Weg, um zu entfernen, dass die chars?(außer space,newline,tab,...)
Wenn die Antwort regex: Hat jemand eine komplette regex für mich?

Dank!

  • Was ist das problem mit den steuerzeichen? Ich gehe davon aus, dass Sie geeignet sind, die Dokumente selbst.
  • Das Programm verwendet verschiedene Parser(word,pdf,...) und beschäftigt sich mit plain/text-und xml-Dateien. Manchmal ist die (extrahierten) "Körper"/Inhalt string enthält noch störende Zeichen wie "f0e8". So habe ich, um Sie zu entfernen mich
  • utf8-chartable.de/... sagt, dass f0e8 ist ein utf8-char oder Irre ich mich?
  • Ja der Extraktor doens nicht alle entfernen "design" - chars.Aber ich kann es nicht ändern
  • Für zukünftige Referenz siehe Abschnitt "Unicode Character Properties", hier: regular-expressions.info/unicode.html
InformationsquelleAutor Mimefilt | 2010-12-21
Schreibe einen Kommentar