wie grep große Anzahl von Dateien?

Ich versuche grep 40k Dateien im aktuellen Verzeichnis und ich bin immer diese Fehlermeldung.

for i in $(cat A01/genes.txt); do grep $i *.kaks; done > A01/A01.result.txt
-bash: /usr/bin/grep: Argument list too long

Wie kann man in der Regel grep tausenden von Dateien?

Dank
Upendra

Ich glaube, Sie verwenden find statt

InformationsquelleAutor upendra | 2014-05-09

bash grep

29

Diese macht David traurig...

Jeder, so weit ist es falsch (außer für anubhava).

Shell-scripting ist nicht wie jede andere Programmiersprache, weil viel von der interpretation der Linien kommt von der macht der shell-interpolierende Sie, bevor der Befehl tatsächlich ausgeführt wird.

Nehmen wir mal etwas einfaches:
```
$ set -x
$ ls
+ ls
bar.txt foo.txt fubar.log
$ echo The text files are *.txt
echo The text files are *.txt
> echo The text files are bar.txt foo.txt
The text files are bar.txt foo.txt
$ set +x
$
```
Den set -x ermöglicht es Ihnen, um zu sehen, wie die shell tatsächlich interpoliert die glob und dann geht es zurück, um das Befehls als Eingabe. Die > Punkte zu der Linie, die tatsächlich ausgeführt wird, indem Sie den Befehl.

Können Sie sehen, dass die echo Befehl nicht interpretieren *. Stattdessen die shell schnappt sich den * und ersetzt es mit dem Namen der passenden Dateien. Dann und nur dann funktioniert die echo Befehl tatsächlich ausgeführt wird der Befehl.

Wenn du 40K plus-Dateien, und Sie tun grep * Sie ständig, dass * auf die Namen derer, die 40.000 plus-Dateien vor grep noch eine chance hat, zu führen, und das ist, wo die Fehlermeldung /usr/bin/grep: Argument-Liste zu lang kommt.

Glücklicherweise Unix hat einen Weg, um dieses dilemma:
```
$ find . -name "*.kaks" -type f -maxdepth 1 | xargs grep -f A01/genes.txt
```
Den find . -name "*.kaks" -type f -maxdepth 1 finden Sie alle Ihre *.kaks Dateien, und die -depth 1 werden nur Dateien im aktuellen Verzeichnis. Die -type f stellt sicher, dass Sie nur abholen, Dateien und kein Verzeichnis.

Den find Befehl leitet die Namen der Dateien in xargs und xargs wird, fügen Sie den Namen der Datei an, die grep -f A01/genes.txtBefehl. Allerdings xargs hat einen trick Sie ärmel. Er weiß, wie lange der Befehlszeile Puffer ist, und führt die grep wenn die Befehlszeile Puffer voll ist, dann passieren in einer anderen Serie von Datei die grep. Diese Weise grep wird ausgeführt, vielleicht drei oder zehn mal (je nach Größe der Befehlszeile Puffer), und alle unsere Dateien verwendet werden.

Leider xargs verwendet whitespace-Zeichen als ein Trennzeichen für die Datei-Namen. Wenn Sie Ihre Dateien mit Leerzeichen oder Tabulatoren, werden Sie Schwierigkeiten haben, mit xargs. Glücklicherweise gibt es ein weiteres Update:
```
$ find . -name "*.kaks" -type f -maxdepth 1 -print0 | xargs -0 grep -f A01/genes.txt
```
Den -print0 verursachen find drucken Sie die Namen der Dateien, die nicht durch Zeilenumbrüche getrennte, aber durch das Zeichen NUL. Die -0 parameter für xargs sagt xargs dass die Datei separator ist nicht whitespace-Zeichen, sondern das Zeichen NUL. So, das Problem behebt.

Könnte man auch dies auch tun:
```
$ find . -name "*.kaks" -type f -maxdepth 1 -exec grep -f A01/genes.txt {} \;
```
Dies führt die grep für jeden und jede Datei statt gefunden, was xargs tut, und läuft nur grep für alle Dateien, die es können Sachen auf der Kommandozeile. Dies hat den Vorteil, daß es vermeidet shell Störungen vollständig. Jedoch, es möglicherweise nicht oder weniger effizient.

Was auch interessant wäre ist, zu Experimentieren und sehen, welche effizienter ist. Sie können time zu sehen:
```
$ time find . -name "*.kaks" -type f -maxdepth 1 -exec grep -f A01/genes.txt {} \;
```
Dies wird den Befehl ausführen und dann sagen Sie, wie lange es dauerte. Versuchen Sie es mit der -exec und mit xargs und sehen, welche schneller ist. Lassen Sie uns wissen, was Sie suchen.
- +1 Hut ab vor der enormen Zeit, die Sie investiert haben, bei der Erklärung dieses.
- Ja, und Sie kam mit einer richtigen Antwort, während ich in der Mitte. Kurz bevor ich gepostet habe, hatte ich, um eine quick-edit in meinem alles falsch - Anweisung.
- eine Menge für die ausführliche Erklärung. Ich ausgeführt, die beiden Wege und timing und wird aktualisiert, sobald ich fertig...
- Ich wartete für jemanden zu posten die richtige Antwort, aber das sehen alle anderen fehlerhaften Antworten, die ich gepostet auf die schnelle.
- Wenn Sie besorgt über Geschwindigkeit, sollten Sie nicht verwenden die -exec command {} + form, zumindest auf den Systemen, die es unterstützen?
- Vielen Dank, dass mich wissen, dass + form der find. Ich sah nie, dass vor. Ja, laut der manpage: genau wie -exec, nur dass `{}" wird durch so viele Pfade wie möglich mit jedem Aufruf der utility. Dieses Verhalten ist ähnlich der von xargs(1).. Es ist das, was passiert, wenn Sie lernen, die Dinge von vor 20 Jahren, und nicht halten mit den Veränderungen.
- Nur ein update. Ich verwendet xargs Methode, die @DavidW. vorgeschlagen, und es funktionierte ziemlich schnell time find . -name "*.kaks" -type f -maxdepth 1 | xargs grep -f A01/genes.txt > A01/A01.result.txt real 4m36.566s user 2m2.835s sys 0m6.023s Jedoch die andere Methode, die w/o - xargs scheint es nicht zu sein, etwas zu tun (nicht füllen Sie die Ausgabe-Datei). Seit mehr als 20 min ohne Ausgang...Wahrscheinlich werde ich stick mit der xarg Methode der nun. Danke @DavidW. wieder..
- Meine Antwort ist eigentlich nicht falsch, es ist nur ineffizient. Der OP hat nicht erwähnt, die Leistung, die er erwähnt hatte, dass er einen Fehler mit seinem argument-Liste zu lang, und meine Antwort hat die Frage, die er aufgeworfen. Wenn eine effiziente Antwort erforderlich ist, der OP sollte sich überlegen, GNU Parallel, so dass alle seine 8 oder so die CPU-Kerne etwas nützliches tun können statt einer sequenziellen Methoden jeder vorgeschlagen hat.
- Ich denke, es ist eine Frage, wie die BASH verwendet for i in *.kah. Tut Bash sehen die *.kah und füllen Sie es mit allen Dateien, die entsprechen, dann führen Sie die for Schleife. Dies ist, wie Bourne und Kornshell betreiben. Wenn dem so ist, werden Sie am Ende eine überlastung der Befehlszeile in der for - Schleife nur als Sie würden, wenn Sie getan haben grep *.kah. Wenn Bash betreibt die for auf eine andere Weise, es kann in Ordnung sein. Ich würde zu spielen, um mit for Schleifen auf Bash und sehen, wie for gefüllt wird in.
InformationsquelleAutor David W.
7

Kombinieren Sie find mit grep wie diese:
```
find . -maxdepth 1 -name '*.kaks' -exec grep -H -f A01/genes.txt '{}' \; > A01/A01.result.txt
```
- Diese Antwort schön löst beide mögliche Probleme: es vermeidet (a) ausbau cat A01/genes.txt auf der Kommandozeile, und es vermeidet, (b) die Erweiterung *.kaks auf der Kommandozeile.
- Danke @anubhava für Ihre Hilfe wieder....
InformationsquelleAutor anubhava

können Sie rekursive Funktion grep:

for i in $(cat A01/genes.txt); do 
    grep -r $i .
done > A01/A01.result.txt

obwohl, wenn Sie möchten, wählen Sie nur kaks Dateien:

for i in $(cat A01/genes.txt); do 
    find . -iregex '.*\.kaks$' -exec grep $i \;
done > A01/A01.result.txt

InformationsquelleAutor zmo

0

Stellen eine weitere for-Schleife in Ihrem äußeren:
```
for f in *.kaks; do
   grep -H  $i "$f"
done
```
Durch die Art und Weise, sind Sie daran interessiert, JEDES vorkommen in jeder Datei, oder nur, wenn der Suchstring vorhanden ist, in der es ein oder mehrere Male? Wenn es "gut genug" um zu wissen, die Zeichenfolge Auftritt, in der es ein oder mehrere Male können Sie angeben, "- n 1" zum grep und es wird sich nicht die Mühe zu Lesen/suchen, der rest der Datei zu finden, nachdem das erste match, das könnte möglicherweise sparen viel Zeit.
- ich verwendete die Methode vorgeschlagen, meine @David und es funktionierte gut. Vielen Dank für die alternative...
InformationsquelleAutor Mark Setchell
0

Folgende Lösung hat für mich gearbeitet:

Problem:
```
 grep -r "example\.com" *
 -bash: /bin/grep: Argument list too long
```
Lösung:
```
grep -r "example\.com" .
```
["In neueren Versionen von grep kann man auch weglassen “.“, als Aktuelles Verzeichnis wird angedeutet."]

Quelle:
Reinlick, J. https://www.saotn.org/bash-grep-through-large-number-files-argument-list-too-long/

InformationsquelleAutor Scientist

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.