Stripping hex-bytes mit sed - keine übereinstimmung

Ich habe eine text-Datei mit zwei nicht-ascii-bytes (0xFF und 0xFE):

??58832520.3,ABC
348384,DEF

Hex für diese Datei ist:

FF FE 35 38 38 33 32 35 32 30 2E 33 2C 41 42 43 0A 33 34 38 33 38 34 2C 44 45 46

Es ist Zufall, dass FF und FE zufällig die führenden bytes (Sie gibt es in meiner Datei, obwohl scheinbar immer am Anfang der Zeile).

Ich versuche, mich zu entkleiden diese bytes mit sed, aber nichts, was ich tun scheint, um Ihnen passen.

$ sed 's/[^a-zA-Z0-9\,]//g' test.csv 
??588325203,ABC
348384,DEF

$ sed 's/[a-zA-Z0-9\,]//g' test.csv 
??.

Wichtigste Frage: Wie kann ich diese Streifen bytes?

Bonus-Frage: Die beiden regex über direkte Negationen, so einer von Ihnen logisch zu filtern bytes, richtig? Warum tun diese beiden regex-match die 0xFF und 0xFE Byte?

Update: der direkte Weg der Strippen aus einem Spektrum von hex-byte (vorgeschlagen von zwei Antworten weiter unten) scheint zu Streifen heraus, der erste "legit" byte aus jeder Zeile, und lassen Sie die bytes, die ich versuche, loszuwerden:

$sed 's/[\x80-\xff]//' test.csv
??8832520.3,ABC
48384,DEF

FF FE 38 38 33 32 35 32 30 2E 33 2C 41 42 43 0A 34 38 33 38 34 2C 44 45 46 0A

Beachten Sie das fehlende "5" und "3" aus dem Anfang jeder Zeile, und die neue 0A Hinzugefügt, um das Ende der Datei.

Größeren Update: Das problem scheint zu sein, system-spezifisch. Das problem wurde beobachtet, die auf OSX, aber die Vorschläge (einschließlich meiner ursprünglichen sed-Anweisung oben) Arbeit, wie ich Sie erwarte, um auf NetBSD.

Eine Lösung: mit Dieser Aufgabe scheint einfach genug, über Perl:

$ perl -pe 's/^\xFF\xFE//' test.csv
58832520.3,ABC
348384,DEF

Jedoch lasse ich diese Frage offen, da dies nur ein workaround, und nicht erklären, was das problem mit sed.

InformationsquelleAutor G__ | 2010-08-08

4
```
sed 's/[^ -~]//g'
```
oder die andere Antwort impliziert
```
sed 's/[\x80-\xff]//g'
```
Sehen Abschnitt 3.9 der sed-info-Seiten. Kapitel entweicht.

Bearbeiten für OSX, die native-lang-Einstellung ist en_US.UTF-8

versuchen
```
LANG='' sed 's/[^ -~]//g' myfile
```
Dieser arbeitet auf einer osx-Maschine hier, ich bin mir nicht ganz sicher, warum es funktioniert nicht, wenn in UTF-8
- Danke - aber das scheint nicht zu funktionieren für mich. Wenn ich diesen Code auf der test-Datei die einzige änderung ist ein carriage return (x0A) angehängt an das Ende der Datei.
- Die Letzte Bemerkung war in Bezug auf den ersten Ansatz. Der zweite Streifen aus der ersten legit Zeichen (5), lässt aber die FF und FE Byte. Es macht keinen Sinn für mich, warum...
- Oh. Sind Sie Ausgabe das Ergebnis von sed in einer neuen Datei, D. H. sed 's/[^ -~]//g' test.csv > test1.csv sed selbst ändert nicht die Datei, es gibt eine geänderte version nach stdout aus.
- Ja, ich bin gerade dabei, es in-line zum Zwecke der Veröffentlichung hier.
- Welche version von osx?, und haben Sie ersetzt die original-sed?
- Das ist v10.6.4, und ist die original-sed AFAIK
- Siehe mein update, das problem ist, dass LANG=de_de.UTF-8 (unter der Annahme vielleicht falsch, dass du bist ein usian). Ich habe keine Ahnung warum, die Schrauben Dinge.
- Bingo! (und ja, ich bin US)
- Ich werde Sie Fragen, eine Frage, warum es nach oben Schrauben.
- es Schrauben (zumindest wie ich es verstehe), weil die FF-FE nicht behandelt, als Teil der Inhalt der Datei, aber wie das formatieren von Metadaten-und damit das Bearbeiten von Regeln nicht bekommen, angewendet. Ebenso, wenn Sie haben sed 's/.//g' | xxd erhalten Sie fffe 0a0a weil die 0A (Zeilenvorschübe) sind nicht Teil der Linien, die Sie sind, Zeilenende-Zeichen und daher nicht die "alles löschen" - Regel angewendet.
- Danke, ich beginne zu verstehen, die Feinheiten der UTF-8. Gib mir zurück den Tagen, wenn Männer Männer waren und alles war ascii.
InformationsquelleAutor deinst
3

Diesem Streifen aus alle Zeilen, die beginnen mit den spezifischen bytes FF FE
```
sed -e 's/\xff\xfe//g' hexquestion.txt
```
Dem Grund, dass Ihre negiert regexes nicht die Arbeit ist, die [] gibt eine Charakter-Klasse. sed unter der Annahme einer bestimmten Zeichensatz, wohl ascii. Diese Zeichen in der Datei sind nicht-7-bit-ascii-Zeichen, als beide beginnen mit F. sed nicht wissen, wie man mit diesen umzugehen. Die Lösung oben nicht benutzen, Charakter-Klassen, so sollte es sein, mehr Portierbarkeit zwischen den Plattformen und Zeichensätze.
- Vielen Dank für diese - ich wusste nicht, dass das mit den []. Leider, es scheint nicht zu lösen mein problem ist.
- Ich Las Ihre Frage und aktualisiert meine Antwort zu fangen alle vorkommen dieses Musters. Auch, es stellt sich heraus, dass diese Lösung funktioniert bei mir auf cygwin, Redhat linux 4.8, scheitert jedoch auf eine ältere Redhat-system und Solaris 9. Ältere Versionen von sed-vielleicht nicht in der Lage, sich mit nicht-ascii-Zeichen.
InformationsquelleAutor Gary
2

Den FF und FE bytes am Anfang der Datei ist eine sogenannte "byte order mark (BOM)". Es kann erscheinen am Anfang von Unicode-text-streams, um anzuzeigen, die endianness der text. FF FE zeigt an, UTF-16 Little Endian

Hier ein Auszug aus den FAQ:
Q: Wie ich umgehen sollte mit Stücklisten?

A: Hier sind einige Richtlinien zu befolgen:
1. Ein bestimmtes Protokoll (z.B. den Microsoft-Konventionen für .txt Dateien) erfordern möglicherweise die Verwendung der Stückliste, die auf bestimmte Unicode-Daten-streams wie Dateien. Wenn Sie entsprechen müssen, um ein solches Protokoll, verwenden Sie eine Stückliste.
2. Einige Protokolle ermöglichen die optionale Stücklisten im Fall von nicht markierten text. In jenen Fällen,
  
  Wo ein text-Datenstrom bekannt ist, nur-text, aber unbekannter Codierung, Stücklisten können verwendet werden, als eine Signatur. Wenn es keine Stückliste, die Codierung könnte alles sein.
  
  Wo ein text-Datenstrom bekannt ist, einfach die Unicode-text (nicht aber die endian), dann die Stückliste verwendet werden kann als eine Signatur. Wenn es keine Stückliste, der text sollte interpretiert werden als big-endian.
3. Einige byte-orientierte Protokolle erwarten ASCII-Zeichen am Anfang einer Datei. Wenn UTF-8 verwendet wird, mit diesen Protokollen, die Nutzung des BOM, da die Codierung bilden Unterschrift sollte vermieden werden.
4. Wo die genaue Art des Datenstroms bekannt ist (z.B. Unicode-big-endian-oder Unicode little-endian), die Stückliste sollte nicht verwendet werden. Insbesondere, wenn ein Datenstrom ist deklariert als UTF-16BE, UTF-16LE, UTF-32BE oder UTF-32LE einer Stückliste dürfen nicht verwendet werden.
Referenzen
- unicode.org/FAQ/UTF BOM
Siehe auch
- Wikipedia/Byte order mark
- Wikipedia/Endianness
Fragen
- Warum würde ich eine Unicode-Signatur, die die Byte-Order-Mark (BOM)?
- Unterschied zwischen Big-Endian und little-Endian-Byte-Reihenfolge
InformationsquelleAutor polygenelubricants
1

Unter OS X ist die Byte Order Mark ist es wohl Lesen, wie ein einziges Wort. Versuchen Sie entweder sed 's/^\xfffe//g' oder sed 's/^\xfeff//g' je nach endian Typ.
- NÖ... gute Idee aber!
- 's///' für mich gearbeitet
InformationsquelleAutor dawg
0

Können Sie die hex-codes mit \xff \xfE und ersetzen es durch nichts.

InformationsquelleAutor schoetbi

Zeigen, dass dies nicht ein Problem der Unicode-BOM, sondern eine Frage von acht-bit-oder sieben-bit-Zeichen und gebunden an das Gebietsschema, versuchen Sie dies:

Karte alle bytes:

$ printf '123 abc\xff\xfe\x7f\x80' | hexdump -C
00000000  31 32 33 20 61 62 63 ff  fe 7f 80                 |123 abc....|

Haben sed entfernen von Zeichen, die nicht alphanumerische-im Gebietsschema des Benutzers. Beachten Sie, dass der Raum und 0x7f sind entfernt:

$ printf '123 abc\xff\xfe\x7f\x80'|sed 's/[^[:alnum:]]//g' | hexdump -C
00000000  31 32 33 61 62 63 ff fe  80                       |123abc...|

Haben sed entfernen von Zeichen, die nicht alphanumerische-in der C-locale. Beachten Sie, dass nur "123abc" bleibt:

$ printf '123 abc\xff\xfe\x7f\x80'|LANG=C sed 's/[^[:alnum:]]//g' | hexdump -C
00000000  31 32 33 61 62 63                                 |123abc|

InformationsquelleAutor Dennis Williamson

Alternativ können Sie verwendet ed(1):

printf '%s\n' H $'g/[\xff\xfe]/s///g' ',p' | ed -s test.csv

printf '%s\n' H $'g/[\xff\xfe]/s///g' wq | ed -s test.csv  # in-place edit

InformationsquelleAutor bashfu

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Referenzen

Siehe auch

Fragen