Was ist die Schnellste Möglichkeit zum laden/speichern einer großen Liste in Python 2.7?

Was ist die Schnellste Möglichkeit zum laden/speichern einer großen Liste in Python 2.7? Ich entschuldige mich, wenn dies schon gefragt wurde, ich konnte Sie nicht finden, eine Antwort auf diese genaue Frage wenn ich gesucht...

Genauer gesagt, ich bin die Erprobung von Methoden für die Simulation von etwas, und ich muss vergleichen Sie das Ergebnis aus jeder Methode, die ich testen, um eine exakte Lösung. Ich habe ein Python-Skript erzeugt eine Liste von Werten, die der exakten Lösung, und ich will nicht re-berechnen jedes mal, wenn ich führen Sie eine neue simulation. So, ich möchte speichern Sie es irgendwo und laden Sie einfach die Lösung, statt re-computing es jedes mal, wenn ich will, um zu sehen, wie gut meine Simulationsergebnisse werden.

Ich auch nicht, müssen Sie die gespeicherte Datei lesbar sind. Ich muss nur in der Lage sein, um es zu laden in Python.

Sie können die Gurke, es, docs.python.org/2/library/pickle.html , numpy.dump oder docs.scipy.org/doc/numpy/reference/generated/numpy.save.html, wenn Sie verwenden möchten numpy arrays
Hmm, ok danke! Wissen Sie, wenn eine dieser Methoden ist deutlich schneller als die anderen? Ich Frage mich auch, ob es zu beschleunigen oder zu verlangsamen den code, wenn ich es ändern zum erzeugen der Referenz-Lösung in numpy-array-format statt einer Liste format.
Wenn Sie besorgt über die Leistung vielleicht sollten Sie mit numpy zu tun alle Ihre Arbeit
Ich bin nicht allzu besorgt über den Teil, wo ich produzieren die Lösung, denn das passiert nur einmal. Es ist nur das laden der Teil, der passieren wird, viele Male. Ich denke, ich Frage mich, ob Sie werden schneller geladen ein numpy-array im Gegensatz zu einer Liste?
absolut, laden ein numpy-array wäre schneller als einem unpickling-Liste.

InformationsquelleAutor nukeguy | 2015-05-05

Mit np.laden und tolist ist deutlich schneller als jede andere Lösung:

In [77]: outfile = open("test.pkl","w")   
In [78]: l = list(range(1000000))   

In [79]:  timeit np.save("test",l)
10 loops, best of 3: 122 ms per loop

In [80]:  timeit np.load("test.npy").tolist()
10 loops, best of 3: 20.9 ms per loop

In [81]: timeit pickle.load(outfile)
1 loops, best of 3: 1.86 s per loop

In [82]: outfile = open("test.pkl","r")

In [83]: timeit pickle.load(outfile)
1 loops, best of 3: 1.88 s per loop

In [84]: cPickle.dump(l,outfile)
....: 
1 loops, best of 3: 
273 ms per loop    
In [85]: outfile = open("test.pkl","r")
In [72]: %%timeit
cPickle.load(outfile)
   ....: 
1 loops, best of 3: 
539 ms per loop

In python 3 numpy ist weit effizienter, wenn Sie ein numpy-array:

In [24]: %%timeit                  
out = open("test.pkl","wb")
pickle.dump(l, out)
   ....: 
10 loops, best of 3: 27.3 ms per loop

In [25]: %%timeit
out = open("test.pkl","rb")
pickle.load(out)
   ....: 
10 loops, best of 3: 52.2 ms per loop

In [26]: timeit np.save("test",l)
10 loops, best of 3: 115 ms per loop

In [27]: timeit np.load("test.npy")
100 loops, best of 3: 2.35 ms per loop

Wenn Sie möchten, eine Liste wird es wieder schneller Aufruf von tolist und verwenden, np.Belastung:

In [29]: timeit np.load("test.npy").tolist()
10 loops, best of 3: 37 ms per loop

Ist dies mit pickle oder cPickle?
scheint relativ inline mit diesem: stackoverflow.com/questions/16833124/..., Wenn das der Fall ist, dann würde ich wahrscheinlich vorschlagen, dass OP geht mit numpy, wenn Sie arbeiten mit numpy schon, und cPickle, wenn Sie es nicht sind. - Aber es scheint wirklich zu persönlichen Präferenz.
in meinem Fall, numpy bekam ähnliche Geschwindigkeit mit cPickle. `` pk.dump( a, open('eine.Gurke', 'wb'), pk.HIGHEST_PROTOCOL)

InformationsquelleAutor Padraic Cunningham

2

Als PadraicCunningham hat erwähnt, können Sie die Gurke der Liste.
```
import pickle

lst = [1,2,3,4,5]

with open('file.pkl', 'wb') as pickle_file:
    pickle.dump(lst, pickle_file, protocol=pickle.HIGHEST_PROTOCOL)
```
dieser lädt die Liste in eine Datei.

Und um es zu entpacken:
```
import pickle

with open('file.pkl', 'rb') as pickle_load:
    lst = pickle.load(pickle_load)
print(lst) # prints [1,2,3,4,5]
```
Den HIGHEST_PROTOCOL bit ist optional, aber in der Regel wird empfohlen. Protokolle definieren, wie die Gurke wird serialise das Objekt mit der niedrigeren Protokolle tendenziell kompatibel mit älteren Versionen von Python.

Es ist erwähnenswert noch zwei Dinge:

Gibt es auch die cPickle Modul geschrieben in C, die Optimierung der Geschwindigkeit. Sie verwenden diese in der gleichen Weise wie oben.

Gurke ist auch bekannt, einige Unsicherheiten (gibt es Möglichkeiten der Manipulation, wie Gurke deserialises ein Objekt, das Sie manipulieren können, dass Python zu tun, mehr oder weniger, was Sie wollen). Als Ergebnis dieser Bibliothek sollte nicht verwendet werden, wenn Sie es öffnen unbekannter Daten. In extremen Fällen können Sie versuchen, eine sicherere version wie spickle: https://github.com/ershov/sPickle

Anderen Bibliotheken, die ich empfehlen würde, auf der Suche sind json und marshall.
- Vielen Dank für Ihre Antwort. Die Sicherheit sollte kein Problem sein für mich, da ich der einzige mit Zugriff auf die Daten (es sei denn mein computer gehackt wird oder so). Wissen Sie, wenn cPickle ist wahrscheinlich die Schnellste Lösung?
- Ich kann nicht sagen, was die Schnellste Lösung ist da ich noch keine tests ausführen. aber wie cPickle ist geschrieben in C sind, wird es ein gutes Geschäft schneller als die meisten Dinge, die geschrieben sind in Python (die Meisten Bibliotheken würden Sie verwenden). Also ich würde sagen, es ist eine gute Wette.
- es ist auch erwähnenswert, dass es nicht viele andere Möglichkeiten, um zu speichern die Reine Python Objekte, ohne Sie zu manipulieren, in ein brauchbares format, mit pickle/cPickle bedeutet, dass Sie nicht zu tun haben, jede manipulation oder Analyse und können nur retten, wie Sie ist. All dies wird natürlich Faktor in der Verarbeitung Zeit.
InformationsquelleAutor NDevox
1

Ich habe einige Profilierung von vielen Methoden (mit Ausnahme der numpy-Methode) und pickle/cPickle ist sehr langsam, auf einfache Daten-sets. Der Schnellste Weg, hängt davon ab, welche Art von Daten Sie speichern. Wenn Sie speichern eine Liste von strings und/oder ganzen zahlen. Der Schnellste Weg, den ich gesehen habe ist, schreiben Sie einfach direkt in eine Datei mit einer for-Schleife und ','.join(...); Lesen Sie es zurück über eine ähnliche for-Schleife mit .split(',').

InformationsquelleAutor Endlisnis
0

Möchten Sie vielleicht werfen Sie einen Blick auf Python-Objekt-Serialisierungpickle und cPickle
http://pymotw.com/2/pickle/

pickle.dumps(obj[, protocol])
Wenn die Protokoll-parameter weggelassen wird, wird die Protokoll-0 verwendet. Wenn Sie das Protokoll angegeben ist als ein negativer Wert oder HIGHEST_PROTOCOL, die höchste Protokoll-version verwendet werden.

InformationsquelleAutor maow

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.