Entfernen der ersten N Zeilen einer Datei in der unix-Kommandozeile

Ich versuche zu entfernen, die ersten 37 Zeilen aus einer sehr, sehr großen Datei. Ich habe den Versuch gestartet, sed und awk, aber Sie scheinen zu verlangen, das kopieren der Daten in eine neue Datei. Ich bin auf der Suche nach einem "entfernen von Zeilen in-place" - Methode, dass im Gegensatz zu sed -i ist nicht die Herstellung von Kopien jeder Art, sondern ist nur das entfernen von Zeilen aus der alten Datei.

Hier ist, was ich getan habe...

awk 'NR > 37' file.xml > 'f2.xml'
sed -i '1,37d' file.xml

Beide scheinen, um eine vollständige Kopie. Gibt es irgendeine andere einfache Befehlszeilenschnittstelle, die dies tun können schnell ohne ein vollständiges Dokument-traversal?

Beide sed -i und gawk v4.1 -i -inplace Optionen sind grundsätzlich erzeugen der temporären Datei hinter die kulissen. IMO sed werden sollte, der schneller als tail und awk.

InformationsquelleAutor Mittenchops | 2013-06-26

10

Es gibt keinen einfachen Weg, das zu tun inplace-editing mit der UNIX-Dienstprogramme, aber hier ist ein inplace-Datei-Modifikation, die Lösung, die Sie vielleicht in der Lage sein, zu ändern, für Sie zu arbeiten (mit freundlicher Genehmigung von Robert Bonomi an https://groups.google.com/forum/#!topic/comp.unix.shell/5PRRZIP0v64):
```
bytes=$(head -37 "$file" |wc -c)
dd if="$file" bs="$bytes" skip=1 conv=notrunc of="$file"
```
Die Letzte Datei sollte $count bytes kleiner als das original (da das Ziel war, zu entfernen $count bytes von Anfang an), also zu beenden, müssen wir entfernen die letzten $count bytes. Wir sind mit conv=notrunc oben, um sicherzustellen, dass die Datei nicht vollständig entleert, anstatt Sie einfach abgeschnitten (siehe Beispiel unten). Auf einem GNU-system wie Linux zu tun das abschneiden danach kann erreicht werden durch:
```
truncate -s "-$bytes" "$file"
```
Zum Beispiel zu löschen, werden die ersten 5 Zeilen aus dieser 12-Linien-Datei
```
$ wc -l file
12 file

$ cat file
When chapman billies leave the street,
And drouthy neibors, neibors, meet;
As market days are wearing late,
And folk begin to tak the gate,
While we sit bousing at the nappy,
An' getting fou and unco happy,
We think na on the lang Scots miles,
The mosses, waters, slaps and stiles,
That lie between us and our hame,
Where sits our sulky, sullen dame,
Gathering her brows like gathering storm,
Nursing her wrath to keep it warm.
```
Ersten Verwendung dd zu entfernen Sie die Ziel-5 Linien (wirklich "$Byte," Byte) von dem Beginn der Datei, und kopieren den rest vom Ende nach vorne, aber lassen Sie das nachgestellte "$bytes" bytes ist:
```
$ bytes=$(head -5 file |wc -c)

$ dd if=file bs="$bytes" skip=1 conv=notrunc of=file
1+1 records in
1+1 records out
253 bytes copied, 0.0038458 s, 65.8 kB/s

$ wc -l file
12 file

$ cat file
An' getting fou and unco happy,
We think na on the lang Scots miles,
The mosses, waters, slaps and stiles,
That lie between us and our hame,
Where sits our sulky, sullen dame,
Gathering her brows like gathering storm,
Nursing her wrath to keep it warm.
s, waters, slaps and stiles,
That lie between us and our hame,
Where sits our sulky, sullen dame,
Gathering her brows like gathering storm,
Nursing her wrath to keep it warm.
```
und verwenden Sie dann truncate zu entfernen, die übrig gebliebenen bytes vom Ende:
```
$ truncate -s "-$bytes" "file"

$ wc -l file
7 file

$ cat file
An' getting fou and unco happy,
We think na on the lang Scots miles,
The mosses, waters, slaps and stiles,
That lie between us and our hame,
Where sits our sulky, sullen dame,
Gathering her brows like gathering storm,
Nursing her wrath to keep it warm.
```
Hätten wir versucht, die oben ohne dd ... conv=notrunc:
```
$ wc -l file
12 file
$ bytes=$(head -5 file |wc -c)
$ dd if=file bs="$bytes" skip=1 of=file
dd: file: cannot skip to specified offset
0+0 records in
0+0 records out
0 bytes copied, 0.0042254 s, 0.0 kB/s
$ wc -l file
0 file
```
Finden Sie in der google groups thread von mir verwiesen wird, für andere Vorschläge und info.
- Unter linux werden Sie verwenden möchten conv=notrunc im dd, andernfalls schlägt der Befehl fehl. +1.
- Ich denke, das kann auch schon, dass meine Datei sah OK aus, aber es schien auch zusätzliche schreiben, dass ich gekündigt. Also schrieb ich eine Datei namens cutter.sh enthielt #!/bin/bash file=enwiki-latest-pages-articles.xml count=`head -37 "$file" |wc -c` dd if="$file" bs="$count" skip=1 of="$file" conv=notrunc
- Es lief für eine sehr lange Zeit, wenn ich dann C-c immer wieder zu starten, endete mit: ^C1223734+0 records in 1223734+0 records out 2902697048 bytes (2.9 GB) copied, 59.699 s, 48.6 MB/s Jedoch, meine Daten /Optik/ feine. Kann ich Vertrauen, Ihre Integrität aus, dass man es ab? Es scheint nicht, wie 2,9 GB benötigt, um kopiert werden, für 37 kurze Zeilen von Daten.
- Am besten Fragen Sie bei der comp.unix.shell-newsgroup, in der alle shell-Experten hängen.
- Diese wird wie erwähnt in den Google-Groups thread, aber nie geschrieben: Sie haben zu schneiden Sie die Letzte $count bytes vom Ende der Datei, wenn Sie fertig sind. Ich habe bearbeitet Ihre Antwort, um dies zu berücksichtigen, damit künftige Leser eine umfassende Lösung.
- truncate entfernt Letzte n bytes, wenn die angegebene Größe kleiner ist als die tatsächliche Dateigröße, während die Frage über das erste n Zeilen
- Recht. dd entfernt die ersten N-bytes lässt aber N bytes im Wert von unerwünschtem text am Ende der Datei, so dass Sie dann verwenden wir truncate zu entfernen, die unerwünschte nachfolgende text. Ich habe gerade aktualisiert die Frage zeigen ein komplettes Beispiel.
InformationsquelleAutor Ed Morton
6

Unix-file-Semantik nicht zulassen und abschneiden des vorderen Teils einer Datei.

Alle Lösungen werden entweder basierend auf:
1. Lesen der Datei in den Speicher, und dann schreiben Sie wieder ( ed , ex andere Editoren). Dies sollte in Ordnung sein, wenn Sie Ihre Datei <1GB oder wenn Sie viel RAM.
2. Schreiben Sie eine zweite Kopie und Optional anstelle der original - ( sed -i , awk/tail > foo). Das ist in Ordnung, solange Sie genügend freien Festplattenspeicher für die Kopie, und nichts dagegen zu warten.
Wenn die Datei zu groß für eine dieser arbeiten für Sie, können Sie in der Lage sein, das zu umgehen, je nachdem, was Lesen Sie Ihre Datei.

Vielleicht Ihre Leser überspringt die Kommentare oder leere Zeilen? Wenn dem so ist, dann können Sie Handwerk eine Nachricht, die der Leser ignoriert, stellen Sie sicher, es hat die gleiche Anzahl von bytes wie der 37 ersten Zeilen in Ihrer Datei, und überschreiben Sie den start der Datei mit dd if=yourdata of=file conv=notrunc.
- Hmm, hatte nicht gedacht, dass. Wenn ich dies auf die Zeit von bzip2-ing Datei---du sagst ich würde das Rohr das entpacken zum awk und zu den outfile? So, das wäre so etwas wie bunzip2 filename.xml.bz2 | awk 'NR > 37' filename.xml
- yep, dies zu tun, wenn Sie vorher zu entpacken, würde auch nur streamen, das kopieren von und auf die Platte schreiben nur die geänderte Datei.
InformationsquelleAutor that other guy
4

ed ist der standard-editor:
```
ed -s file <<< $'1,37d\nwq'
```
- Das ist mit einem Puffer, nicht besser als eine temp-Datei.
- +1 das war schnell. Datei mit 1m-Einträge - $ time ed -s ff <<< $'1,37d\nwq' real 0m0.251s user 0m0.219s sys 0m0.032s $ time sed -i '1,37d' ff real 0m1.415s user 0m0.399s sys 0m1.016s
- natürlich, das ist, was der editor nicht :) noch, es könnte schneller sein als sed oder awk...
- Ich bin über das zu testen, nachdem meine Datei wieder entpackt. Die Platte ist etwa 9 GB, so dass ich hoffe, es ist nicht gepuffert. =)
- Die OP scheint auf der Suche für die Lösung, die wirklich in-place-Bearbeitung obwohl, nicht eine, die verwendet eine temp-Datei,/Puffer, sonst kann er genauso gut mit sed oder awk.
InformationsquelleAutor gniourf_gniourf
2

Wird die Kopie angelegt werden müssen, irgendwann - warum nicht an der Zeit zu Lesen, das "geändert" - Datei, streaming-die veränderte Kopie anstatt es zu speichern?

Was ich mir denke - eine named pipe erstellen "Datei2" das ist die Ausgabe, die gleichen awk 'NR > 37' file.xml oder was auch immer, dann liest wer Datei2 nicht sehen, die ersten 37 Zeilen.

Der Nachteil ist, dass es laufen wird, awk jedes mal, wenn die Datei bearbeitet wird, so dass es machbar ist nur, wenn es die Lesen nur selten.

InformationsquelleAutor Peteris

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.