Linien drucken in eine Datei übereinstimmende Muster in einer anderen Datei

Habe ich eine Datei mit mehr als 40.000 Zeilen (Datei1) und ich möchte, um die Zeilen zu extrahieren passenden Muster in Datei2 (über 6000 Zeilen). Ich benutze grep, wie diese, aber es ist sehr langsam:
grep -f file2 file1 > out

Gibt es einen schnelleren Weg, dies zu tun mit awk oder sed?

Hier einige Auszüge aus meinen Dateien:

File1:
scitn003869.2| scign003869 CGCATGTGTGCATGTATTATCGTATCCCTTG
scitn007747.1| scign007747  CACGCAGACGCAGTGGAGCATTCCAGGTCACAA
scitn003155.1| scign003155  TAAAAATCGTTAGCACTCGCTTGGTACACTAAC
scitn018252.1| scign018252  CGTGTGTGTGCATATGTGTGCATGCGTG
scitn004671.2| scign004671  TCCTCAGGTTTTGAAAGGCAGGGTAAGTGCT

File2:
scign000003
scign000004
scign000005
scign004671
scign000013

InformationsquelleAutor Jon | 2014-01-27

25

Versuchen grep -Fwf file2 file1 > out

Den -F option gibt an einfachen string-matching, so sollte schneller sein, ohne dass man sich mit dem regex-engine.
- Dieser job dauerte nur etwa eine Sekunde!
- Fgrep ist diese native-option gleichwertig sind, und vielleicht noch paar msec schneller
- meine grep-man-Seite sagt: "fgrep ist das gleiche wie grep -F. Direkten Aufruf entweder als egrep oder fgrep ist veraltet, ..."
InformationsquelleAutor glenn jackman
14

Hier ist, wie es in awk:
```
awk 'NR==FNR{pats[$0]; next} $2 in pats' File2 File1
```
Mithilfe eines 60.000-line File1 (Ihr Datei1 wiederholt 8000 mal) und ein 6.000 Datei2 (Ihre wiederholten 1200 mal):
```
$ time grep -Fwf File2 File1 > ou2

real    0m0.094s
user    0m0.031s
sys     0m0.062s

$ time awk 'NR==FNR{pats[$0]; next} $2 in pats' File2 File1 > ou1

real    0m0.094s
user    0m0.015s
sys     0m0.077s

$ diff ou1 ou2
```
d.h. es ist in etwa so schnell wie die grep. Eine Sache zu beachten ist jedoch, dass die awk-Lösung, können Sie wählen Sie einen bestimmten Bereich für die übereinstimmung so, wenn etwas aus Datei2 zeigt sich nirgendwo sonst in Datei1 Sie nicht bekommen eine falsche übereinstimmung. Außerdem können Sie auf ein ganzes Gebiet zu einem Zeitpunkt also, wenn Ihr Ziel-strings wurden in verschiedenen Längen und Sie wollte nicht, dass "scign000003" passend "scign0000031" zum Beispiel (obwohl das -w für grep gibt vergleichbaren Schutz für die).

Vollständigkeit halber, hier ist das timing für die anderen awk-Lösung gepostet elsethread:
```
$ time awk 'BEGIN{i=0}FNR==NR{a[i++]=$1;next}{for(j=0;j<i;j++)if(index($0,a[j]))print $0}' File2 File1 > ou3

real    3m34.110s
user    3m30.850s
sys     0m1.263s
```
und hier ist das timing bekomme ich für das perl-Skript Daneben geschrieben:
```
$ time ./go.pl > out2

real    0m0.203s
user    0m0.124s
sys     0m0.062s
```
- Während dies zu tun, was der OP gemeint und wollte, und ich sehe Sie angedeutet, dass und porträtiert ihn als einen Vorteil der Vermeidung falscher Zuordnungen, die OP sollte sich bewusst sein, dass es eigentlich nicht das gleiche wie sein code. Seinen code zu finden Spiele, die irgendwo auf der Zeile, in der Erwägung, dass Ihnen nur Treffer finden, in das zweite Feld.
InformationsquelleAutor Ed Morton
6

Könnten Sie versuchen, mit diesem awk:
```
awk 'BEGIN{i=0}
FNR==NR { a[i++]=$1; next }
{ for(j=0;j<i;j++)
    if(index($0,a[j]))
        {print $0;break}
}' file2 file1
```
Den FNR==NR Teil gibt an, dass die Sachen in geschweiften Klammern ist nur angewendet werden, wenn die Verarbeitung der ersten Eingabedatei (file2). Und es sagt, zu speichern Sie alle Wörter, die Sie suchen in einem array a[]. Das bit in dem zweiten Satz von geschweiften Klammern gilt für die Verarbeitung von in der zweiten Datei... da ist jede Zeile zu Lesen ist, ist es im Vergleich mit allen Elementen von a[] und wenn welche gefunden werden, wird die Zeile gedruckt. That ' s all folks!
- Funktioniert perfekt. Und viel viel schneller als meine grep-Befehl. Danke!
- Sie erhalten einige Effizienz mit if (index($0, a[j]) {print; break}
- Gutes denken, Glenn. Danke.
- und kann immer noch optimieren, wenn Sie die Dateien Sortieren (especioally wenn man fast immer die gleiche Laufzeit, ich denke, Datei2 hier)
InformationsquelleAutor Mark Setchell
4

Nur zum Spaß, hier ist eine Perl-version:
```
#!/usr/bin/perl
use strict;
use warnings;
my %patterns;
my $srch;

# Open file and get patterns to search for
open(my $fh2,"<","file2")|| die "ERROR: Could not open file2";
while (<$fh2>)
{
   chop;
   $patterns{$_}=1;
}

# Now read data file
open(my $fh1,"<","file1")|| die "ERROR: Could not open file1";
while (<$fh1>)
{
   (undef,$srch,undef)=split;
   print $_ if defined $patterns{$srch};
}
```
Hier sind einige timings, mit einem 60.000 line file1 und 6.000 Zeile Datei2 pro Ed-s Datei erstellen Methode:
```
time awk 'NR==FNR{pats[$0]; next} $2 in pats' file2 file1 > out
real    0m0.202s
user    0m0.197s
sys     0m0.005s

time ./go.pl > out2
real    0m0.083s
user    0m0.079s
sys     0m0.004s
```
- +1 Schönes. Frage mich, warum dies ist mehr als doppelt so schnell wie die awk Lösung.. übrigens, ich vermute, Sie rettete die Ausgabe des perl-Programm auch eine Datei? (Es gibt keine Umleitung nach ./go.pl im Sie Antwort)
- Ist es meine "beste" Perl und ich habe alles nutzen, was ich wusste über die Daten, wie mit chop() und dann (undef, $srch,undef) zu verwerfen Sachen, die ich nicht brauche und awk hat diesen Luxus nicht. Ich habe in einer Datei speichern, sondern nur kopiert und eingefügt, die timings anstatt edit aus meinem Eingabeaufforderung.
- Die Messungen, die ich bekam, waren komplett das Gegenteil von den oben genannten (siehe meinen aktualisierten post) mit dem perl-enden doppelt so langsam wie awk oder grep. Ich vermute, dass Mark nicht führen Sie das Skript ein paar mal, um Konto für die Zwischenspeicherung vor der Einnahme von seinem timing.
- Wie seltsam! Ich machte Sie mehrere Male und Sie waren ziemlich konsistent auf meinem Mac und es läuft eine SSD, die in der Regel konsistente timing - keine Rotations-Verzögerungen oder mal suchen.
- idk. Ich finde perl ein bisschen schwer zu Lesen, zu sagen die wenigsten, aber es SIEHT aus wie es tut die gleiche Sache, die mein awk-Skript funktioniert, nur mit der hand geschrieben loops und die Aufteilung der Zeile in einzelne Felder, so würde ich erwarten, dass die perl-vielleicht etwas langsamer sein, nur aufgrund der mit zu hand-schreiben Sie die loop/split code vs verwenden von integrierten Funktionen, aber ich würde erwarten, dass die 2 scripts etwa in der gleichen Kugel-park. Ich nehme an, wenn du redest .1 vs .2 secs, die in etwa in der gleichen Kugel-park vs einige der anderen Lösungen, die in der Größenordnung von Minuten.
InformationsquelleAutor Mark Setchell
3

Nur für die Zwecke des Lernens: ich war der Lösung das gleiche problem und ich kam mit verschiedenen Lösungen (einschließlich read $line loops etc..). Wenn ich an die grep one-liner, die oben gefunden werden, noch ich am Ende immer die falsche Ausgabe. Dann erkannte ich meine MUSTER-Datei hatte 2 hinteren Linien... So grep abgeholt, alle meine Zeilen aus meiner Datenbank. Moral: überprüfen Sie die Leerzeichen/Zeilen. Auch lief der Befehl auf einem viel größeren Datenmenge mit mehreren Hunderten von mustern und time konnte nicht einmal zählen.
- Ugh, ich danke Ihnen so sehr! Ich Frage mich, warum es sah aus, wie meine ganze Datei zurück
- grep -Fwf <(grep '[^[:blank]]' file2) file1 werden nur Zeilen mit einem nicht-Leerzeichen.
InformationsquelleAutor adrien

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.