So entfernen Sie steuerzeichen aus UTF8-string
habe ich eine VB.NET Programm behandelt, die den Inhalt von Dokumenten.
Das programm verarbeitet große Mengen von Unterlagen, die als "batch"(>2 Millionen Dokumente, insgesamt 1-TB-Volumen)
Einige dieser Dokumente enthalten möglicherweise control-chars oder chars wie f0e8(http://www.fileformat.info/info/unicode/char/f0e8/browsertest.htm).
Gibt es eine einfache und vor allem schnell Weg, um zu entfernen, dass die chars?(außer space,newline,tab,...)
Wenn die Antwort regex: Hat jemand eine komplette regex für mich?
Dank!
- Was ist das problem mit den steuerzeichen? Ich gehe davon aus, dass Sie geeignet sind, die Dokumente selbst.
- Das Programm verwendet verschiedene Parser(word,pdf,...) und beschäftigt sich mit plain/text-und xml-Dateien. Manchmal ist die (extrahierten) "Körper"/Inhalt string enthält noch störende Zeichen wie "f0e8". So habe ich, um Sie zu entfernen mich
- utf8-chartable.de/... sagt, dass f0e8 ist ein utf8-char oder Irre ich mich?
- Ja der Extraktor doens nicht alle entfernen "design" - chars.Aber ich kann es nicht ändern
- Für zukünftige Referenz siehe Abschnitt "Unicode Character Properties", hier: regular-expressions.info/unicode.html
Du musst angemeldet sein, um einen Kommentar abzugeben.
Versuchen
Dies entfernt alle "anderen" Unicode-Zeichen (control -, format -, private Nutzung, Surrogat, und nicht zugewiesen) aus deinem string.
Hier ist die POSIX-regex für steuerzeichen:
[:cntrl:]
von Regulärer Ausdruck auf Wikipedia.