Wie Entferne ich alle nicht-ASCII-Zeichen mit regex und Notepad++?
Ich suchte eine Menge, aber nirgendwo ist es geschrieben, wie entfernen von nicht-ASCII-Zeichen mit Notepad++.
Muss ich wissen, was Befehl zu schreiben, suchen-und-ersetzen (mit Bild wäre Super).
-
Wenn ich will, um eine white-Liste und Lesezeichen alle ASCII-Wörter/Zeilen, damit nicht-ASCII-Zeilen wäre unmarkierten
-
Wenn die Datei ist ziemlich groß und kann nicht wählen Sie alle ASCII-Linien und wollen einfach nur zu markieren Sie die Zeilen mit nicht-ASCII-Zeichen...
Du musst angemeldet sein, um einen Kommentar abzugeben.
Dieser Ausdruck sucht nach nicht-ASCII-Werte:
Kreuzen Sie 'Search Mode = Regulärer Ausdruck', und klicken Sie auf Weitersuchen.
Quelle: Regex ein beliebiges ASCII-Zeichen
Encoding->Encode in ANSI
. Nicht in der Lage war zu finden, nichts sonst.In Notepad++, wenn Sie gehen, um in das Menü Suche → Finden Zeichen im Bereich → Nicht-ASCII-Zeichen (128-255) können Sie dann Schritt für Schritt durch das Dokument, um jedes nicht-ASCII-Zeichen.
Zusätzlich zu der Antwort von ProGM, im Fall sehen Sie Zeichen in Feldern wie NUL oder ACK und möchten Sie loswerden, das sind ASCII-steuerzeichen (0-31), finden Sie Sie mit der folgenden expression und entfernen Sie Sie:
Damit entfernen Sie alle nicht-ASCII-UND ASCII-control-Zeichen, Sie sollten entfernen Sie alle Zeichen mit diesem regex:
\x00
und\x1F
sind bereits abgestimmt in der Antwort von ProGM.mgsub("[^\x1F-\x7F]+", "", text_vector, fixed = FALSE)
Entfernen, um alle nicht-ASCII-Zeichen, die Sie verwenden können folgenden Ersatz:
[^\x00-\x7F]+
Markieren Zeichen, ich empfehle das Mark - Funktion im Suche-Fenster: diese highlights nicht-ASCII-Zeichen und legte ein Lesezeichen in die Zeilen mit einer von Ihnen
Wenn Sie markieren möchten, und setzen Sie ein Lesezeichen auf die ASCII-Zeichen verwenden Sie stattdessen die regex
[\x00-\x7F]
zu tun.Cheers
Zu halten, neue Linien:
Weiter:
Jetzt, Wählen Sie option Erweitert, und Ersetzen Sie # durch \n
🙂 nun, Sie haben eine saubere ASCII Datei 😉
Ein weiterer guter trick ist, gehen Sie in UTF8-Modus in deinen editor, so dass Sie tatsächlich sehen, diese komischen Zeichen sind, und Sie löschen sich selbst.
Anderen Art und Weise...
Das ist schön, wenn du dich nicht erinnern kannst die regex "oder" don ' T care, um es nachzuschlagen. Aber die regex von anderen erwähnt, ist eine schöne Lösung.