Konvertieren pandas dataframe zu numpy-array mit Header und dtypes

Ich habe versucht, zu konvertieren, ein pandas dataframe in einen numpy-array, tragen über der dtypes und header-Namen für eine einfache Referenz. Ich muss dies tun, da die Verarbeitung auf pandas ist viel zu langsam, numpy ist 10-Fach schneller. Ich habe diesen code aus, SO dass gibt mir was ich brauche, abgesehen davon, dass das Ergebnis nicht Aussehen wie ein standard-numpy array - D. H. es zeigt nicht die Spalten-Nummern in der Form.

[In]:
df = pd.DataFrame(randn(10,3),columns=['Acol','Ccol','Bcol'])
arr_ip = [tuple(i) for i in df.as_matrix()]
dtyp = np.dtype(list(zip(df.dtypes.index, df.dtypes)))
dfnp= np.array(arr_ip, dtype=dtyp)
print(dfnp.shape)
dfnp

[Out]: 

(10,) #expecting (10,3)

array([(-1.0645345 ,  0.34590193,  0.15063829),
( 1.5010928 ,  0.63312454,  2.38309797),
(-0.10203999, -0.40589525,  0.63262773),
( 0.92725915,  1.07961763,  0.60425353),
( 0.18905164, -0.90602597, -0.27692396),
(-0.48671514,  0.14182815, -0.64240004),
( 0.05012859, -0.01969079, -0.74910076),
( 0.71681329, -0.38473052, -0.57692395),
( 0.60363249, -0.0169229 , -0.16330232),
( 0.04078263,  0.55943898, -0.05783683)],
dtype=[('Acol', '<f8'), ('Ccol', '<f8'), ('Bcol', '<f8')])

Bin ich etwas fehlt, oder gibt es einen anderen Weg, dies zu tun? Ich habe viele df ' s zu konvertieren und Ihre dtypes-und Spaltennamen unterscheiden, so brauche ich diesen automatisierten Ansatz. Ich auch brauchen um effizient zu sein, aufgrund der großen Anzahl von df.

FYI, ist ein anderer Ansatz hier (mit dem Vorteil der Umwandlung von pandas dtype=Objekt numpy dtype=string: stackoverflow.com/questions/52579601/...

InformationsquelleAutor GivenX | 2018-04-09

Verwenden df.to_records() konvertieren Sie Ihre dataframe zu einem strukturierten array.

Können Sie pass index=False index zu entfernen von Ihrem Ergebnis.

import numpy as np

df = pd.DataFrame(np.random.rand(10,3),columns=['Acol','Ccol','Bcol'])

res = df.to_records(index=False)

# rec.array([(0.12448699852020828, 0.7621451848466592, 0.0958529943831431),
#  (0.14534869167076214, 0.695297214355628, 0.3753874117495527),
#  (0.09890006207909052, 0.46364777245941025, 0.10216301104094272),
#  (0.3467673672203968, 0.4264108141950761, 0.1475998692158026),
#  (0.9272619907467186, 0.3116253419608288, 0.5681628329642517),
#  (0.34509767424461246, 0.5533523959180552, 0.02145207648054681),
#  (0.7982313824847291, 0.563383955627413, 0.35286630304880684),
#  (0.9574060540226251, 0.21296949881671157, 0.8882413119348652),
#  (0.0892793829627454, 0.6157843461905468, 0.8310360916075473),
#  (0.4691016244437851, 0.7007146447236033, 0.6672404967622088)], 
#           dtype=[('Acol', '<f8'), ('Ccol', '<f8'), ('Bcol', '<f8')])

Eines strukturierten Arrays haben immer eine dimension. Das kann nicht geändert werden.

Aber man kann sich die Form über:

res.view(np.float64).reshape(len(res), -1).shape  # (10, 3)

Leistung, wenn Sie so manipulieren, dass Daten, sind Sie besser dran mit numpy.array über df.values und Aufzeichnung der Spalte Namen in einem Wörterbuch mit integer-Schlüssel.

Danke, das ist perfekt. Ich habe zu tun, einen ravel, um es wieder in ein pandas dataframe nach dem schweren heben Verarbeitung erfolgte in numpy: res_pd = pd.DataFrame(res.ravel())
haben Sie Ihren code zu konvertieren, um numpy-arrays oder hast u nur verwenden, df.to_records()?
Ich habe gerade df.to_records()

InformationsquelleAutor jpp

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.