numpy: effizient Lesen in einem großen array

Ich habe eine binäre Datei, die enthält ein dichtes n*m matrix von 32-bit floats. Was ist der effizienteste Weg, um es zu Lesen in einem Fortran-bestellt numpy array?

Die Datei ist mehrere gigabyte groß ist. Ich bekomme das format, aber es muss kompakt sein (d.h. über 4*n*m bytes in der Länge) und müssen leicht zu produzieren, die aus nicht-Python-code.

Bearbeiten: Es ist unerlässlich, dass die Methode erzeugt einen Fortran-bestellt matrix direkt (aufgrund der Größe der Daten, die ich nicht leisten können, zu erstellen Sie ein C-bestellt matrix und dann verwandeln Sie es in eine separate Fortran-bestellt kopieren.)

Nicht scipy.org/Cookbook/InputOutput die Antwort auf Ihre Frage? (Siehe Abschnitt "Binärdateien")
Danke. In der Tat, ich habe bereits das Experimentieren mit einigen der dort beschriebenen Methoden. Ich bin mit der Frage in der Hoffnung, dass jemand kommen würde, nach vorne, entweder hat erste-hand-Erfahrung zu tun, was ich versuche zu tun, oder ist vertraut mit numpy Interna und können Sie beraten, aus diesem Winkel.
Im Allgemeinen habe ich gefunden beim Lesen von sehr großen arrays in numpy, die ich brauche, um zu wissen, die Größe im Voraus, um pre-allocate der entsprechende array, um die Daten aufzunehmen. Wissen Sie, die Größe im Voraus? Wenn nicht, versuchen Sie es mit einem zwei-pass-Ansatz: erst Scannen, um entdecken Größe/Abmessungen Daten dann zuordnen array, dann Lesen/Parsen, in Arrays.
Guter Punkt, danke. Ich weiß, die Größe im Voraus (ich kontrolliere das Daten-format, so kann ich schreiben Sie sich die Größe, die als Teil der Datei-header.)

InformationsquelleAutor NPE | 2010-12-06

12

NumPy bietet fromfile() zum Lesen binärer Daten.
```
a = numpy.fromfile("filename", dtype=numpy.float32)
```
erstellt ein eindimensionales array mit den Daten. Zugriff auf eine zweidimensionale Fortran-bestellt n x m matrix können Sie Form:
```
a = a.reshape((n, m), order="FORTRAN")
```
[EDIT: Die reshape() tatsächlich kopiert die Daten in diesem Fall (siehe die Kommentare). Dies zu tun, ohne cpoying, verwenden Sie
```
a = a.reshape((m, n)).T
```
Dank Joe Kingtion für den Hinweis.]

Aber um ehrlich zu sein, wenn die matrix mehrere Gigabyte, würde ich für einen im HDF5-Tools wie h5py oder PyTables. Beide haben die tools, FAQ-Einträge vergleicht man das Werkzeug auf die andere. Ich in der Regel lieber h5py, obwohl PyTables scheint zu sein, häufiger verwendet (und die Bereiche der beiden Projekte sind etwas anders).

Im HDF5 Dateien geschrieben werden können, werden von den meisten Programmiersprachen verwendet bei der Analyse der Daten. Die Liste der Schnittstellen in den verlinkten Wikipedia-Artikel ist nicht vollständig, da gibt es zum Beispiel auch ein R-Schnittstelle. Aber ich weiß nicht, welche Sprache Sie verwenden möchten, um die Daten zu schreiben...
- Danke. Was würden Sie sagen, sind die Vorteile der Verwendung im HDF5 über eine einfache n*m array für die Speicherung einer großen dichten matrix mit Fließkommazahlen?
- um ein paar Namen zu nennen: die Fähigkeit transparent, dass nur ein Teil der matrix im Speicher einer bestimmten Zeit, die Fähigkeit, transparente Kompression und meta-Daten kümmert sich um die matrix-Abmessungen, wodurch eine wichtige Quelle von Fehlern. Und da ist es wirklich einfach zu bedienen, ich sehe keine wirklichen Nachteile.
- Könnte man auch klären, etwas in deinem Beispiel. Wenn ich a = numpy.fromfile("filename", dtype=numpy.float32) gefolgt von a = a.reshape((n, m), order="FORTRAN") auf eine 4GB-Datei, ist dies möglicherweise ein 4GB "C" matrix im Speicher nur, um sofort machen ein anderes 4GB Kopie im Arbeitsspeicher, um es umzudrehen in die Fortran-format?
- Rehshaping keine Kopie des Arrays, es gibt nur eine neue Sicht darauf. Es gibt keine Duplizierung des Speichers in diesem Fall.
- Auch das wechseln zwischen C-und Fortran-Formate (row-wise vs column-wise Speicher)? Wie ist das möglich?
- Es ändert nur den Schritt des Arrays. Es eigentlich nicht machen, es Fortran bestellt in Erinnerung.
- Hast du irgendwelche links wo ich Lesen kann, bis auf diese? Dies geht im Gegensatz zu meiner intuition und scheint völlig negieren den Punkt.
- Woops, sorry, ich war falsch..., Wenn Sie die Reihenfolge ändern, auf die Neugestaltung, es macht eine Kopie erstellen, das ist eigentlich die Reihenfolge, die Sie angeben. Im Allgemeinen, obwohl, Neugestaltung und Umsetzung arrays nicht kopieren.
- Kein problem. Ich weiß, dass die Veränderung der Form eines numpy matrix nicht kopieren Sie die Daten. Jedoch aus performance-Gründen mache ich die Pflege über, wie Sachen im Arbeitsspeicher gespeichert, und ich kann nicht leisten, haben zwei Kopien des gleichen multi-gigabyte-matrix um, daher meine Fragen.
- Für was es Wert ist, Sie nicht brauchen, um die Reihenfolge anzugeben und die Kopie erstellen. Nur tun a = np.fromfile(...) und dann a = a.reshape((m,n)).T. Dies wird nicht eine Kopie erstellen, und hat genau den gleichen Effekt.
- tut mir Leid, Sie verloren mich wieder. Wie ich bereits in meiner Frage, ich bin auf der Suche nach der matrix werden Fortran-bestellt. Nun, sagen wir, um des Arguments Willen, dass np.fromfile() gibt eine C matrix (tut es das? kann ich das ändern?) Jetzt reshape änderungen der schreitende. Ich nehme an, dass die transpose-funktioniert auch durch ändern der schreitende (oder bin ich hier falsch?) Also das Endergebnis ist immer noch ein C matrix, nicht?
- Ich gehe davon aus, dass Sie Lesen, in ein Fortran-bestellt-array von Festplatten. Sie erhalten einen Platten-array, ist eigentlich ein ixj Fortran bestellt array. Das ist das gleiche wie ein jxi C-bestellt array, nur dass es umgesetzt. So Formen wir es als jxi, und dann übersetzen ihn zu ixj. Numpy denkt, dass es C-bestellt jxi betrachtet wird, als ixj, aber das entspricht direkt gespeichert, wie Fortran bestellt ixj in Erinnerung.
- ja, aber dies geht zurück auf meine ursprüngliche Frage. Wie kann ich effizient Lesen eine binäre Datei in eine Fotran matrix? Sagen Sie, dass np.fromfile() tut? Es gibt nichts in der Dokumentation, und keine Parameter, die ich finden konnte, die diese Steuern.
- Es ist in Fortran, um in den Speicher... Der einzige Unterschied ist numpy s Flaggen... Wenn Sie Zugriff auf die Speicherpuffer des numpy-array Fortran, die Sie gelesen hatte, Sie direkt als eine ixj-array. np.fromfile es Lesen in der Reihenfolge, in der es gespeichert wie auf der Festplatte. Wie ich schon sagte, ich war der Annahme, dass es bereits auf der Festplatte gespeichert, in Fortran bestellen. Wenn Sie möchten schreiben Sie ein C-bestellt-array auf dem Datenträger als Fortran bestellt array benutzen Sie einfach a.ravel('F').tofile(fid).
- Vielen Dank für die Zeit nehmen, dies zu erklären. Es ist nun völlig klar. Ich bekomme zur Kontrolle der schreiben der Datei, so kann ich sicherstellen, dass es ist geschrieben in der gewünschten Reihenfolge. Nochmals vielen Dank.
InformationsquelleAutor Sven Marnach

Grundsätzlich Numpy speichert die arrays als flache Vektoren. Die verschiedenen Dimensionen sind nur eine illusion, geschaffen durch die verschiedenen Ansichten und Schritten, dass die Numpy-iterator verwendet.

Für eine Gründliche, aber leicht zu Folgen Erläuterungen, wie Numpy intern funktioniert, siehe die ausgezeichnete Kapitel 19 Der Schöne Code-Buch.

Mindestens Numpy array() und reshape() ein argument für C ('C'), Fortran ('F') oder erhaltenen Auftrages ('A').
Siehe auch die Frage Wie zu zwingen, numpy-array, um fortran-Stil?

Ein Beispiel mit der Standard-C-Indizierung (row-major-Reihenfolge):

>>> a = np.arange(12).reshape(3,4) # <- C order by default
>>> a
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
>>> a[1]
array([4, 5, 6, 7])

>>> a.strides
(32, 8)

Indizierung mit Fortran Bestellung (column-major-Reihenfolge):

>>> a = np.arange(12).reshape(3,4, order='F')
>>> a
array([[ 0,  3,  6,  9],
       [ 1,  4,  7, 10],
       [ 2,  5,  8, 11]])
>>> a[1]
array([ 1,  4,  7, 10])

>>> a.strides
(8, 24)

Die andere Ansicht

Können, können Sie auch immer die andere Art der Ansicht über den parameter T einen array:

>>> a = np.arange(12).reshape(3,4, order='C')
>>> a.T
array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

>>> a = np.arange(12).reshape(3,4, order='F')
>>> a.T
array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

Sie können auch manuell die Schritte:

>>> a = np.arange(12).reshape(3,4, order='C')
>>> a
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
>>> a.strides
(32, 8)
>>> a.strides = (8, 24)
>>> a
array([[ 0,  3,  6,  9],
       [ 1,  4,  7, 10],
       [ 2,  5,  8, 11]])

InformationsquelleAutor peterhil

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.