Pandas msgpack vs Gurke
msgpack
im Pandas soll es sich um einen Ersatz für pickle
.
Pro die Pandas docs auf msgpack:
Dies ist eine leichte portable Binär-format, ähnlich wie binary JSON,
das ist sehr platzsparend und bietet eine gute performance sowohl auf
das schreiben (Serialisierung), und Lesen (Deserialisierung).
Finde ich jedoch, dass seine Leistung nicht erscheinen, stapeln sich gegen die Gurke.
df = pd.DataFrame(np.random.randn(10000, 100))
>>> %timeit df.to_pickle('test.p')
10 loops, best of 3: 22.4 ms per loop
>>> %timeit df.to_msgpack('test.msg')
10 loops, best of 3: 36.4 ms per loop
>>> %timeit pd.read_pickle('test.p')
100 loops, best of 3: 10.5 ms per loop
>>> %timeit pd.read_msgpack('test.msg')
10 loops, best of 3: 24.6 ms per loop
Frage: Abgesehen von der potenziellen Sicherheits-Probleme mit der Gurke, was sind die Vorteile von msgpack über Gurke? Ist die Gurke immer noch die bevorzugte Methode zum serialisieren von Daten, oder besser alternativen, die derzeit existieren?
- Kasse diesem ziemlich umfangreichen Studie, in: matthewrocklin.com/blog/work/2015/03/16/Fast-Serialization. msgpack ist ziemlich genial, wenn Sie eine nicht-triviale Menge von Daten.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Gurke ist besser für Sie die folgenden Schritte aus:
protocol=
)cloudpickle
)MsgPack ist besser für Sie die folgenden Schritte aus:
Als @Jeff oben erwähnt dieser Beitrag von Interesse sein können