Schnellste Möglichkeit zum drucken einer einzelnen Zeile in einer Datei

Ich haben zu Holen eine bestimmte Zeile aus einer großen Datei (1500000 Linien), mehrfach in einer Schleife über mehrere Dateien, fragte ich, mein selbst, was wäre die beste option (in Sachen Leistung).
Es gibt viele Möglichkeiten, dies zu tun, ich manly verwenden Sie diese 2

cat ${file} | head -1

oder

cat ${file} | sed -n '1p'

Konnte ich nicht finden, eine Antwort auf dieses tun Sie beide, nur Holen sich die erste Zeile oder einer der beiden (oder beide) öffnen Sie zuerst die gesamte Datei und Hole dann die Zeile 1?

Verwenden time zur Messung der Befehle.
Warum Rohr cat in die tools? Sie können beide Dateien öffnen sich, und wenn Sie sind besorgt über Energieeffizienz, Sie können wahrscheinlich tun Sie es besser. Aber, ja, das Rohr sollte "stream" nur die ersten paar Blöcke der Datei (und dann feststellen, dass der Verbraucher hielt die Sorge).

InformationsquelleAutor JBoy | 2013-03-26

Drop die nutzlose Verwendung von cat und tun:

$ sed -n '1{p;q}' file

Diese wird beendet, die sed script nach der Zeile gedruckt worden ist.

Benchmarking-Skript:

#!/bin/bash

TIMEFORMAT='%3R'
n=25
heading=('head -1 file' 'sed -n 1p file' "sed -n '1{p;q} file" 'read line < file && echo $line')

# files upto a hundred million lines (if your on slow machine decrease!!)
for (( j=1; j<=100,000,000;j=j*10 ))
do
    echo "Lines in file: $j"
    # create file containing j lines
    seq 1 $j > file
    # initial read of file
    cat file > /dev/null

    for comm in {0..3}
    do
        avg=0
        echo
        echo ${heading[$comm]}    
        for (( i=1; i<=$n; i++ ))
        do
            case $comm in
                0)
                    t=$( { time head -1 file > /dev/null; } 2>&1);;
                1)
                    t=$( { time sed -n 1p file > /dev/null; } 2>&1);;
                2)
                    t=$( { time sed '1{p;q}' file > /dev/null; } 2>&1);;
                3)
                    t=$( { time read line < file && echo $line > /dev/null; } 2>&1);;
            esac
            avg=$avg+$t
        done
        echo "scale=3;($avg)/$n" | bc
    done
done

Speichern Sie einfach als benchmark.sh und führen bash benchmark.sh.

Ergebnisse:

head -1 file
.001

sed -n 1p file
.048

sed -n '1{p;q} file
.002

read line < file && echo $line
0

**Die Ergebnisse aus der Datei mit 1.000.000 Zeilen.* * *

Also die Zeiten für sed -n 1p wächst Linear mit der Länge der Datei, aber das timing für die anderen Varianten wird konstant (und vernachlässigbar), wie Sie beenden Sie alle nach dem Lesen der ersten Zeile:

Schnellste Möglichkeit zum drucken einer einzelnen Zeile in einer Datei

Hinweis: timings sind vom original abweichen post wegen wird auf eine schnellere Linux-box.

Oder vielleicht sed 1q file die ein wenig weniger beschäftigt.
Ich habe dieses format, so kann ich verwendet werden, zum drucken einer einzelnen Zeile in der Datei.
Idealerweise sollten Sie erstellen Sie die Datei jedes mal. Je nach Dateisystem, caching beeinflussen können, timings, so dass der erste Lauf ist der Reale I/O und weiteren Durchläufen profitieren.
+1 für die detaillierte performance-Vergleich. btw, in Ihrem Skript, das sed-Linie (sed 1q) in case und heading unterschiedlich sind. 🙂 es wäre gut, um Ihnen zu gleichen, besonders für performance-Tests. trotzdem, nette Antwort!
guter Platz, rutschte durch, wie ich war, die Prüfung und Aktualisierung. Auch Hinzugefügt eine schöne Grafik!

InformationsquelleAutor

4

Wie über die Vermeidung von Rohren?
Beide sed und head Unterstützung der Dateinamen als argument. Auf diese Weise vermeiden Sie die übergabe von cat. Ich habe es nicht Messen, aber der Kopf sollte schneller auf größere Dateien, wie es Stoppt die Berechnung nach N Zeilen (in der Erwägung, dass sed geht durch alle von Ihnen, auch wenn es nicht drucken - es sei denn, Sie geben den quit option wie oben vorgeschlagen).

Beispiele:
```
sed -n '1{p;q}' /path/to/file
head -n 1 /path/to/file
```
Wieder, ich habe nicht testen Sie die Effizienz.

InformationsquelleAutor Elisiano Petrini
4

Wenn du wirklich nur immer die erste Zeile und Lesen Hunderte von Dateien, dann erwägen, shell gelieferten statt externe externe Befehle verwenden read was ist ein shell-builtin von bash und ksh. Dadurch entfällt der overhead für die Prozess-Erstellung mit awk, sed, head usw.

Dem anderen Problem zu tun timed performance-Analyse auf der I/O. Das erste mal, wenn Sie öffnen und dann eine Datei Lesen, Datei ist wahrscheinlich nicht im Arbeitsspeicher zwischengespeichert. Jedoch, wenn Sie versuchen, eine zweite Befehl auf die gleiche Datei wieder die Daten, als auch die inode zeigt, die zwischengespeichert wurden, so die zeitgesteuerte Ergebnisse sind möglicherweise schneller, so ziemlich unabhängig von dem Befehl, den Sie verwenden. Plus, inodes bleiben können zwischengespeichert praktisch immer. Auf Solaris beispielsweise. Oder jedenfalls mehrere Tage.

Zum Beispiel, linux-caches alles und die Küchenspüle, die eine gute performance-Attribut. Aber es macht benchmarking problematisch, wenn Sie nicht bewusst sind das Problem.

Alle diese caching-Effekt "Störungen" ist beides, Betriebssystem und hardware abhängig.

So wählen Sie eine Datei, Lesen Sie es mit einem Kommando. Jetzt ist es zwischengespeichert. Führen Sie den gleichen test-Befehl mehrere Dutzend mal, das ist sampling die Wirkung des Befehls und der Kind-Prozess geschaffen haben, nicht Ihren I/O-hardware.

dies ist sed vs Lesen für 10 Iterationen immer die erste Zeile in der gleichen Datei, nach Lesen Sie die Datei einmal:

sed: sed '1{p;q}' uopgenl20121216.lis
```
real    0m0.917s
user    0m0.258s
sys     0m0.492s
```
Lesen: read foo < uopgenl20121216.lis ; export foo; echo "$foo"
```
real    0m0.017s
user    0m0.000s
sys     0m0.015s
```
Dies ist eindeutig künstlich, sondern zeigt den Unterschied zwischen builtin performance vs mit einem Befehl.

+1 nette Antwort. Ich bearbeitet meine post auch die Anwendung von read sicher genug, es war der Schnellste (nicht einmal registrieren neben der gelegentlichen 0.001).

InformationsquelleAutor jim mcnamara

Wenn Sie drucken wollen nur 1 Zeile (sagen die 20) aus einer großen Datei würde es auch tun:

head -20 filename | tail -1

Habe ich einen "basic" - test mit bash und es scheint besser als die sed -n '1{p;q} Lösung vor.

Test dauert eine große Datei und druckt eine Zeile irgendwo in der Mitte (an der Linie 10000000), wiederholt sich 100 mal, jedes mal, wenn die Auswahl der nächsten Zeile. So selektiert er Zeile 10000000,10000001,10000002, ... und so weiter, bis 10000099

$wc -l english
36374448 english

$time for i in {0..99}; do j=$((i+10000000));  sed -n $j'{p;q}' english >/dev/null; done;

real    1m27.207s
user    1m20.712s
sys     0m6.284s

vs.

$time for i in {0..99}; do j=$((i+10000000));  head -$j english | tail -1 >/dev/null; done;

real    1m3.796s
user    0m59.356s
sys     0m32.376s

Für das drucken einer Zeile aus mehreren Dateien

$wc -l english*
  36374448 english
  17797377 english.1024MB
   3461885 english.200MB
  57633710 total

$time for i in english*; do sed -n '10000000{p;q}' $i >/dev/null; done; 

real    0m2.059s
user    0m1.904s
sys     0m0.144s



$time for i in english*; do head -10000000 $i | tail -1 >/dev/null; done;

real    0m1.535s
user    0m1.420s
sys     0m0.788s

InformationsquelleAutor dvvrt

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.