Pandas msgpack vs Gurke

msgpack im Pandas soll es sich um einen Ersatz für pickle.

Pro die Pandas docs auf msgpack:

Dies ist eine leichte portable Binär-format, ähnlich wie binary JSON,
das ist sehr platzsparend und bietet eine gute performance sowohl auf
das schreiben (Serialisierung), und Lesen (Deserialisierung).

Finde ich jedoch, dass seine Leistung nicht erscheinen, stapeln sich gegen die Gurke.

df = pd.DataFrame(np.random.randn(10000, 100))

>>> %timeit df.to_pickle('test.p')
10 loops, best of 3: 22.4 ms per loop

>>> %timeit df.to_msgpack('test.msg')
10 loops, best of 3: 36.4 ms per loop

>>> %timeit pd.read_pickle('test.p')
100 loops, best of 3: 10.5 ms per loop

>>> %timeit pd.read_msgpack('test.msg')
10 loops, best of 3: 24.6 ms per loop

Frage: Abgesehen von der potenziellen Sicherheits-Probleme mit der Gurke, was sind die Vorteile von msgpack über Gurke? Ist die Gurke immer noch die bevorzugte Methode zum serialisieren von Daten, oder besser alternativen, die derzeit existieren?

InformationsquelleAutor Alexander | 2015-06-04
Schreibe einen Kommentar