Split-text-Datei in mehrere Dateien

Ich bin mit großen text-Datei mit 1000 abstracts mit Leerzeile zwischen den einzelnen Abstrakt . Ich splitten möchten diese Datei in 1000 text-Dateien.
Meine Datei sieht wie

16503654    Three-dimensional structure of neuropeptide k bound to dodecylphosphocholine micelles.      Neuropeptide K (NPK), an N-terminally extended form of neurokinin A (NKA), represents the most potent and longest lasting vasodepressor and cardiomodulatory tachykinin reported thus far.  

16504520    Computer-aided analysis of the interactions of glutamine synthetase with its inhibitors.        Mechanism of inhibition of glutamine synthetase (EC 6.3.1.2; GS) by phosphinothricin and its analogues was studied in some detail using molecular modeling methods.

Darf ich vorschlagen, um zu vermeiden, um die Erstellung zu viele Dateien oder Verzeichnisse in einem Verzeichnis. Kann es auf jeden Fall verlangsamen die stat(2) - Aufrufe. Ein paar tausend ist nicht ein großes Problem, aber einige zehn-Tausende werden können. Der Verlauf dieser Grenze ist abhängig von der Maschine (HDD) - Betriebssystem und Datei-system, das Sie verwenden.
mögliche Duplikate von Split ein .txt-Datei basierend auf dem Inhalt
möglich, Duplikat der Split eine Datei in mehrere Dateien-basierend auf Trennzeichen

InformationsquelleAutor shalini | 2013-04-29

32

Können Sie split und setzen Sie "ANZAHL Zeilen pro Ausgabedatei" auf 2. Jede Datei müsste eine text-Zeile und eine leere Zeile.
```
split -l 2 file
```
InformationsquelleAutor Alper
4

Können Sie immer verwenden Sie die csplit-Befehl. Dies ist ein Datei-splitter, sondern auf Basis eines regex.

etwas entlang der Linien von :
```
csplit -ks -f /tmp/files INPUTFILENAMEGOESHERE '/^$/'
```
Es ist ungetestet und müssen möglicherweise ein wenig Feintuning aber.

CSPLIT
- Ich bevorzuge diese über die 'awk' - Lösungen. Split eine große Datei (. LDIF-format) mit den leeren Linien zwischen den Blöcken, die ich verwendet, die "Muster wiederholen" und "unterdrücken passende Zeile' Optionen: csplit -m -f /tmp/files INPUTFILE '/^\s*$/' '{*}'
- Ja Hurra für csplit. +1.
InformationsquelleAutor FreudianSlip
4

Etwas wie dieses:
```
awk 'NF{print > $1;close($1);}' file
```
Damit schaffen wir 1000 Dateien mit dem Dateinamen als abstrakte Zahl. Dieser awk-code schreibt die Datensätze in einer Datei, deren name stammt aus der 1. Feld($1). Dies geschieht nur, nur, wenn die Anzahl der Felder, die mehr als 0(NF)
- Vielen Dank für die schnelle Antwort.Es funktionierte aber zeigt seine awk: 9276016 macht zu viele offene Dateien im input-Datensatz Nummer 35, - Datei pmid.txt Quellcode-Zeile Nummer 1. Ich habe versucht, verschiedene Dateien für alle Dateien zeigt seine Fehler auf derselben Linie Nummer 35. Hat es irgendeine Grenze
- Aktualisiert der Befehl zum schließen der Dateien entsprechend.
- Ich Stand vor einem anderen problem. Mein Datei hat einige Zeilen, beginnend mit Schlussfolgerung oder Ergebnisse unter Abstrakte Zahl in einem solchen Fall den Befehl u erwähnt Erzeugung einer zusätzlichen Datei mit Abschluss und Ergebnis-Namen, die ich nicht will. Bitte helfen Sie mir
InformationsquelleAutor Guru

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.