Wie kann ich die Liste eindeutige Zeichen, die in eine text-Datei mit der linux-Kommandozeile-tools?

Möchte ich Liste eine Reihe von Zeichen, die in eine text-Datei mit linux-Kommandozeilen-tools. Wie kann ich das erreichen ?

uniq - Dienstprogramm funktioniert nur auf den Linien.

Es scheint eine Aufgabe für awk: awk 'BEGIN{FS=""} {for(i=1;i<=NF;i++){chars[$(i)]=$(i);}} END{for(c in chars){print c;} }' oder awk 'BEGIN{FS=""} {for(i=1;i<=NF;i++) print $(i);};' file.txt | sort | uniq
Das hat geklappt 🙂 kannst du es als Antwort und es erklären ?

InformationsquelleAutor Patryk | 2014-04-22

12

Ich würde verwenden od
```
od -cvAnone -w1
```
Dies sind Zeichen, die zeigen \escapes für nicht-displayables. Andere Formate sind verfügbar

Beispiele:

So, um die Liste der uniques:
```
od -cvAnone -w1 | sort -bu
```
Erstellen oder eine top-20-Histogramm:
```
od -cvAnone -w1 | sort -b | uniq -c | sort -rn | head -n 20
```
Sehen es Live Auf IdeOne
- Ich veränderte diese leicht zu bedienen | sort -u am Ende, so dass ich sehen konnte, einen Vertreter, der alle Zeichen in einer einzigen Datei
- Das ist der Kommentar wirkt auf mich lustig, weil ` | sort -bu` war schon in meiner Antwort 🙂
- Hah, völlig verfehlt, nicht sicher, wie Sie, ich war nur aufgeregt od -cvAnone -w1 Arbeit in meiner CYGWIN-Instanz, dann sortierte ich es eindeutig (das endete genau was ich brauchte), kam dann hier zurück zu upvote & Kommentar, alle w/o Lesen Sie den rest von deinem post (bis jetzt).
- unerwartete Ausgabe von od -cvAnone -w1 <<< défaillir
InformationsquelleAutor sehe
6

Ich lieber diesen Weg:
```
awk 'BEGIN{FS=""} {for(i=1;i<=NF;i++){chars[$(i)]=$(i);}} END{for(c in chars){print c;} }'
```
So, in diesem Skript awk setipt. awk ist nützlich für die Verarbeitung der Ausgabe aller möglichen Kommandos.

Dieses Skript in drei Teile:
- BEGINNEN, die ist einmal gemacht, bevor die Verarbeitung
- ENDE, welches nach der Verarbeitung
- in der Mitte ist eine Schleife, verarbeitet die Ausgabe
1)
```
BEGIN{FS=""} 
```
Hier http://www.gnu.org/software/gawk/manual/html_node/Field-Splitting-Summary.html#Field-Splitting-Summary

FS == ""
Jeder einzelne Charakter in der Aufzeichnung wird in einem separaten Feld. (Dies ist eine gawk-Erweiterung; es ist nicht angegeben, die von der POSIX-standard.)

2)
```
{for(i=1;i<=NF;i++){chars[$(i)]=$(i);}}
```
chars ist nur ein eindimensionales assoziatives array (http://www.gnu.org/software/gawk/manual/html_node/Array-Basics.html#Array-Basics). Ich füge Werte während der Verarbeitung jeder char.

3)
```
END{for(c in chars){print c;} }
```
Letzten Abschnitt - zu Fuß durch das ganze array chars und einfach drucken Sie Ihre Indizes . http://www.gnu.org/software/gawk/manual/html_node/Scanning-an-Array.html#Scanning-an-Array

PS.

Als für @sehe was Art und Weise der Verarbeitung.
Suchen Sie nach einem relativ großen text-Datei. Es ist >sechs mal schneller, um ein assoziatives array verwenden:
```
>time od -cvAnone -w1 vector.html.big | sort -bu > /dev/null

real    0m1.597s
user    0m1.619s
sys     0m0.022s

>time awk 'BEGIN{FS=""} {for(i=1;i<=NF;i++){chars[$(i)]=$(i);}} END{for(c in chars){print c;} }' vector.html.big | sort >/dev/null

real    0m0.252s
user    0m0.251s
sys     0m0.002s
```
- auf die timings: es kommt ein bisschen was für die Eingabe; die awk zu sein scheint ~4 bis 6x schneller (bei full binary data vs a..z nur)
- interessanterweise, viel der Unterschied verschwindet bei Verwendung der C-locale: full binary both a..z nur, die beide nur ~2x den Unterschied.
- Dies funktioniert mit UTF-8-Dateien; od nicht, soweit ich weiß.
InformationsquelleAutor Sergei Kurenkov

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Beispiele: