Wie greife ich für alle Nicht-ASCII-Zeichen?

Ich habe mehrere sehr große XML-Dateien und ich bin versucht zu finden der Zeilen mit nicht-ASCII-Zeichen. Ich habe versucht, die folgenden:

grep -e "[\x{00FF}-\x{FFFF}]" file.xml

Aber das gibt jeder Zeile in der Datei, unabhängig davon, ob die Zeile enthält ein Zeichen im angegebenen Bereich.

Habe ich die syntax falsch, oder mache ich etwas anderes falsch? Ich habe auch versucht:

egrep "[\x{00FF}-\x{FFFF}]" file.xml

(mit einfachen und doppelten Anführungszeichen um das Muster).

InformationsquelleAutor der Frage pconrey | 2010-06-08

412

Können Sie den Befehl verwenden:
```
grep --color='auto' -P -n "[\x80-\xFF]" file.xml
```
Dies wird geben Sie die Nummer der Zeile und markieren Sie die nicht-ascii-Zeichen in rot.

In einigen Systemen, je nach Ihren Einstellungen, die oben nicht funktionieren, so können Sie grep durch die inverse
```
grep --color='auto' -P -n "[^\x00-\x7F]" file.xml
```
Beachten Sie auch, dass der wichtige Teil ist die -P - flag, das entspricht --perl-regexp: so wird es interpretiert Muster als einen regulären Perl-Ausdruck. Er sagt auch, dass

dies ist hochgradig experimentell und grep -P vielleicht warnt der implementierte
features.

InformationsquelleAutor der Antwort jerrymouse
99

Anstelle von Annahmen über die byte-range von nicht-ASCII-Zeichen, als die meisten der oben genannten Lösungen das tun, es ist etwas besser IMO explizit über die tatsächliche byte-Reihe von ASCII-Zeichen statt.

Also die erste Lösung für die Instanz werden würde:
```
grep --color='auto' -P -n '[^\x00-\x7F]' file.xml
```
(die im Grunde greps für alle Zeichen außerhalb der hexadezimale ASCII-Bereich: von \x00 bis \x7F)

Auf Mountain Lion funktioniert nicht (aufgrund der fehlenden PCRE-Unterstützung für BSD grep)aber mit pcre installiert via Homebrew die folgenden arbeiten genauso gut:
```
pcregrep --color='auto' -n '[^\x00-\x7F]' file.xml
```
Irgendwelche vor-oder Nachteile, jeder kann denken?

InformationsquelleAutor der Antwort pvandenberk
65

Folgendes funktioniert bei mir:
```
grep -P "[\x80-\xFF]" file.xml
```
Nicht-ASCII-Zeichen beginnen bei 0x80 und gehen bis 0xFF, wenn man die bytes. Grep (und Familie) nicht Unicode-Verarbeitung Zusammenführen multi-byte-Zeichen in einer einzigen juristischen Person, für die regex-matching, wie Sie zu wollen scheinen. Die -P option in meinem grep ermöglicht die Verwendung von \xdd entweicht in Charakter-Klassen zu erreichen, was Sie wollen.

InformationsquelleAutor der Antwort Thelema

In perl

perl -ane '{ if(m/[[:^ascii:]]/) { print  } }' fileName > newFile

InformationsquelleAutor der Antwort noquery

34

Der einfache Weg ist, um eine nicht-ASCII-Zeichen... als Zeichen, die keine ASCII-Zeichen.
```
LC_ALL=C grep '[^ -~]' file.xml
```
Fügen Sie eine Registerkarte, die nach der ^ wenn nötig.

Einstellung LC_COLLATE=C vermeidet böse überraschungen über die Bedeutung der Zeichen reicht in viele Gebietsschemas. Einstellung LC_CTYPE=C ist notwendig, um match single-byte-Zeichen — andernfalls würde der Befehl zu verpassen Ungültiger byte-Sequenzen in der aktuellen Kodierung. Einstellung LC_ALL=C vermeidet locale-abhängige Effekte insgesamt.

InformationsquelleAutor der Antwort Gilles
19

Hier ist eine andere Variante, die ich gefunden, dass die produzierte komplett unterschiedliche Ergebnisse aus der grep-Suche für [\x80-\xFF] in der akzeptierten Antwort. Vielleicht wird es nützlich sein, jemand zu finden, zusätzliche, nicht-ascii-Zeichen:

grep --color='auto' -P -n "[^[:ascii:]]" myfile.txt

Hinweis: mein computer ist grep (Mac) nicht -P option, so habe ich brew install grep und startete den Aufruf oben mit ggrep statt grep.

InformationsquelleAutor der Antwort ryanm
6

Der folgende code funktioniert:
```
find /tmp | perl -ne 'print if /[^[:ascii:]]/'
```
Ersetzen /tmp mit dem Namen des Verzeichnis, das Sie durchsuchen möchten.

InformationsquelleAutor der Antwort user7417071

Seltsam, ich hatte, dies zu tun heute! Ich landete mit Perl, weil ich nicht bekommen konnte grep/egrep auf Arbeit (auch im P-Modus). So etwas wie:

cat blah | perl -en '/\xCA\xFE\xBA\xBE/&& print "found"'

Für unicode-Zeichen (wie \u2212 im Beispiel unten) verwenden:

find . ... -exec perl -CA -e '$ARGV = @ARGV[0]; open IN, $ARGV; binmode(IN, ":utf8"); binmode(STDOUT, ":utf8"); while (<IN>) { next unless /\N{U+2212}/; print "$ARGV: $&: $_"; exit }' '{}' \;

InformationsquelleAutor der Antwort dty

Der Suche nach non-printable chars.

Ich Stimme mit Harvey oben begraben in den Kommentaren, ist es oft nützlich zur Suche für nicht-druckbare Zeichen ODER es ist einfach zu denken, non-ASCII, wenn Sie wirklich nachdenken sollten nicht-druckbare. Harvey schlägt vor, dass "die Nutzung dieser: "[^\n -~]". Hinzufügen von \r für DOS-text-Dateien. Das bedeutet: "[^\x0A\x020-\x07E]" und "\x0D für CR"

Auch das hinzufügen -c (Karte Anzahl der Muster abgestimmt) zu grep ist nützlich bei der Suche für die non-printable chars wie die Saiten abgestimmt versauen kann-terminal.

Fand ich hinzufügen range 0-8 und 0x0e-0x1f (0x80-0xff (mittelkampf) ist ein nützliches Muster. Dies schließt den TAB, CR und LF und ein oder zwei weitere ungewöhnliche druckbare Zeichen. Also IMHO ein durchaus eine nützliche (wenn auch grob) grep Muster ist DIESES:

grep -c -P -n "[\x00-\x08\x0E-\x1F\x80-\xFF]" *

Aufteilung:

\x00-\x08 - non-printable control chars 0 - 7 decimal
\x0E-\x1F - more non-printable control chars 14 - 31 decimal
\x80-1xFF - non-printable chars > 128 decimal
-c - print count of matching lines instead of lines
-P - perl style regexps

Instead of -c you may prefer to use -n (and optionally -b) or -l
-n, --line-number
-b, --byte-offset
-l, --files-with-matches

E. g. praktisches Beispiel von suchen mit grep alle Dateien im aktuellen Verzeichnis:

find . -type f -exec grep -c -P -n "[\x00-\x08\x0E-\x1F\x80-\xFF]" {} +

Möchten Sie vielleicht anpassen des grep-mal. z.B. BS(0x08 - backspace -) Zeichen verwendet, in einigen druckbaren Dateien oder ausschließen(VT 0x0B - vertikale Registerkarte). Die BEL(0x07) und ESC(0x1B) chars können auch als druckfähige in einigen Fällen.

Non-Printable ASCII Chars
** marks PRINTABLE but CONTROL chars that is useful to exclude sometimes
Dec   Hex Ctrl Char description           Dec Hex Ctrl Char description
0     00  ^@  NULL                        16  10  ^P  DATA LINK ESCAPE (DLE)
1     01  ^A  START OF HEADING (SOH)      17  11  ^Q  DEVICE CONTROL 1 (DC1)
2     02  ^B  START OF TEXT (STX)         18  12  ^R  DEVICE CONTROL 2 (DC2)
3     03  ^C  END OF TEXT (ETX)           19  13  ^S  DEVICE CONTROL 3 (DC3)
4     04  ^D  END OF TRANSMISSION (EOT)   20  14  ^T  DEVICE CONTROL 4 (DC4)
5     05  ^E  END OF QUERY (ENQ)          21  15  ^U  NEGATIVE ACKNOWLEDGEMENT (NAK)
6     06  ^F  ACKNOWLEDGE (ACK)           22  16  ^V  SYNCHRONIZE (SYN)
7     07  ^G  BEEP (BEL)                  23  17  ^W  END OF TRANSMISSION BLOCK (ETB)
8     08  ^H  BACKSPACE (BS)**            24  18  ^X  CANCEL (CAN)
9     09  ^I  HORIZONTAL TAB (HT)**       25  19  ^Y  END OF MEDIUM (EM)
10    0A  ^J  LINE FEED (LF)**            26  1A  ^Z  SUBSTITUTE (SUB)
11    0B  ^K  VERTICAL TAB (VT)**         27  1B  ^[  ESCAPE (ESC)
12    0C  ^L  FF (FORM FEED)**            28  1C  ^\  FILE SEPARATOR (FS) RIGHT ARROW
13    0D  ^M  CR (CARRIAGE RETURN)**      29  1D  ^]  GROUP SEPARATOR (GS) LEFT ARROW
14    0E  ^N  SO (SHIFT OUT)              30  1E  ^^  RECORD SEPARATOR (RS) UP ARROW
15    0F  ^O  SI (SHIFT IN)               31  1F  ^_  UNIT SEPARATOR (US) DOWN ARROW

InformationsquelleAutor der Antwort gaoithe

0

Könnte es interessant sein, zu wissen, wie die Suche nach einem unicode-Zeichen. Dieser Befehl helfen kann. Sie brauchen nur zu wissen, den code in UTF8
```
grep -v $'\u200d'
```
InformationsquelleAutor der Antwort arezae

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.