So entfernen Sie doppelte Wörter aus einer Nur-Text-Datei mit dem Linux-Befehl

Habe ich eine einfache Textdatei mit Wörtern, die durch Kommata getrennt, z.B.:

word1, word2, word3, word2, word4, word5, word 3, word6, word7, word3

ich wollen, löschen Sie die Duplikate, und zu werden:

word1, word2, word3, word4, word5, word6, word7

Irgendwelche Ideen? Ich denke, egrep kann mir helfen, aber ich bin mir nicht sicher, wie es zu benutzen genau....

Kommentar zu dem Problem - Öffnen

Wollen Sie die Wörter, die eindeutig auf einer Linie, die basis oder über die ganze Datei? Auch wollen Sie halten die ursprüngliche Reihenfolge der Wörter, oder sind Sie froh, wenn die Reihenfolge geändert wird? Kommentarautor: Beano

ich brauche die uniq Wörter, die in der gesamten Datei. die Reihenfolge der Wörter ist nicht wichtig. Kommentarautor: cupakob

Siehe auch: Wie finde ich wiederholte die Wörter in einer Datei mit grep/egrep? Kommentarautor: Martin Thoma

InformationsquelleAutor der Frage cupakob | 2009-06-04

28

Unter der Annahme, dass die Wörter pro Zeile und die Datei ist bereits sortiert:
```
uniq filename
```
Wenn die Datei ist nicht sortiert:
```
sort filename | uniq
```
Wenn Sie nicht eine pro Zeile, und Sie sind nicht dagegen, Ihnen eine pro Zeile:
```
tr -s [:space:] \\n < filename | sort | uniq
```
Nicht entfernen, Satzzeichen, obwohl, so dass Sie vielleicht möchten:
```
tr -s [:space:][:punct:] \\n < filename | sort | uniq
```
Aber das entfernt den Bindestrich von Bindestrich-Wörtern. "man tr" für mehr Optionen.

InformationsquelleAutor der Antwort Randy Orrison
3

ruby -pi.bak -e '$_.split(",").uniq.join(",")' filename ?

Ich gebe zu, die zwei Arten von Zitaten sind hässlich.

InformationsquelleAutor der Antwort Oliver N.
2

Schaffen eine einzigartige Liste ist ziemlich einfach, Dank uniq, obwohl die meisten Unix-Befehle, wie ein Eintrag pro Linie anstatt eine Komma-separierte Liste, so dass wir beginnen müssen, die durch Umwandlung zu:
```
$ sed 's/, /\n/g' filename | sort | uniq
word1
word2
word3
word4
word5
word6
word7
```
Der schwierigere Teil ist die Umsetzung dieses auf einer Linie wieder mit Kommata als Trennzeichen und nicht-terminatoren. Ich benutzt ein perl-one-liner, um dies zu tun, aber wenn jemand etwas mehr Redewendungen, bitte editieren Sie mich. 🙂
```
$ sed 's/, /\n/g' filename | sort | uniq | perl -e '@a = <>; chomp @a; print((join ", ", @a), "\n")'
word1, word2, word3, word4, word5, word6, word7
```
InformationsquelleAutor der Antwort Ryan Bright

Hier ist ein awk-Skript, das lassen Sie jede Zeile in Takt, nur das entfernen der doppelten Wörtern:

BEGIN { 
     FS=", " 
} 
{ 
    for (i=1; i <= NF; i++) 
        used[$i] = 1
    for (x in used)
        printf "%s, ",x
    printf "\n"
    split("", used)
}

InformationsquelleAutor der Antwort mamboking

1

Ich würde denken, Sie möchten, ersetzen Sie die Leerzeichen durch Zeilenumbrüche, verwenden Sie die uniq - Befehl, um eindeutige Zeilen, dann ersetzen Sie die Zeilenumbrüche durch Leerzeichen wieder.

InformationsquelleAutor der Antwort Paul Sonier
1

Ich vermutete, Sie wollte die Worte, die eindeutig auf eine einzige Zeile, anstatt die gesamte Datei. Wenn dies der Fall ist, dann wird das Perl-Skript unten wird den trick tun.
```
while (<DATA>)
{
    chomp;
    my %seen = ();
    my @words = split(m!,\s*!);
    @words = grep { $seen{$_} ? 0 : ($seen{$_} = 1) } @words;
    print join(", ", @words), "\n";
}

__DATA__
word1, word2, word3, word2, word4, word5, word3, word6, word7, word3
```
Wenn Sie möchten, dass Eindeutigkeit über die ganze Datei, können Sie einfach bewegen Sie die %seen hash außerhalb der while (){} Schleife.

InformationsquelleAutor der Antwort Beano
1

Kam in diesem thread beim Versuch Sie zu lösen, viel das gleiche problem. Ich hatte verkettet mehrere Dateien mit Passwörter, so natürlich gab es eine Menge verdoppelt. Auch viele nicht-standard Charaktere. Ich habe nicht wirklich brauchen Sie Sie sortiert, aber es schien, dass es war gonna be notwendig für uniq.

Habe ich versucht:
```
sort /Users/me/Documents/file.txt | uniq -u
sort: string comparison failed: Illegal byte sequence
sort: Set LC_ALL='C' to work around the problem.
sort: The strings compared were `t\203tonnement' and `t\203tonner'
```
Versucht:
```
sort -u /Users/me/Documents/file.txt >> /Users/me/Documents/file2.txt
sort: string comparison failed: Illegal byte sequence
sort: Set LC_ALL='C' to work around the problem.
sort: The strings compared were `t\203tonnement' and `t\203tonner'.
```
Und sogar versucht, übergeben Sie es durch die erste Katze, nur so konnte ich sehen, wenn wir waren immer eine richtige Eingabe.
```
cat /Users/me/Documents/file.txt | sort | uniq -u > /Users/me/Documents/file2.txt
sort: string comparison failed: Illegal byte sequence
sort: Set LC_ALL='C' to work around the problem.
sort: The strings compared were `zon\351s' and `zoologie'.
```
Ich bin mir nicht sicher, was passiert. Die strings ", t\203tonnement" und "t\203tonner" nicht in der Datei gefunden, obwohl "t/203" und "tonnement" gefunden werden, aber an separaten, nicht angrenzenden Zeilen. Dasselbe mit "zon\351s".

Was schließlich für mich gearbeitet wurde:
```
awk '!x[$0]++' /Users/me/Documents/file.txt > /Users/me/Documents/file2.txt
```
Es auch noch Worte, deren einziger Unterschied war der Fall, das ist, was ich wollte. Ich brauchte nicht die Liste so sortiert, es war gut, dass er es nicht war.

InformationsquelleAutor der Antwort sudon't
1

ich hatte das gleiche problem heute.. eine word-Liste mit 238,000 Worte, sondern über 40, 000 diejenigen, die dupliziert wurden. Ich hatte Sie ja schon in einzelnen Zeilen durch tun
```
cat filename | tr " " "\n" | sort 
```
entfernen Sie die Duplikate, ich habe einfach
```
cat filename | uniq > newfilename .
```
Perfekt gearbeitet, keine Fehler, und jetzt meine Datei ist unten von 1.45 MB 1.01 MB

InformationsquelleAutor der Antwort Biffinum
0

Und vergessen Sie nicht, die -c option für die uniq Dienstprogramm, wenn Sie sind daran interessiert, die Anzahl der Wörter als auch.

InformationsquelleAutor der Antwort Rob Wells
0

öffnen Sie die Datei mit vim (vim filename) und ausführen der sort-Befehl mit eindeutigen flag (:sort u).

InformationsquelleAutor der Antwort meysam

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.