Umformen ein pandas dataframe

angenommen, ein dataframe wie diese:

df = pd.DataFrame([[1,2,3,4],[5,6,7,8],[9,10,11,12]], columns = ['A', 'B', 'A1', 'B1'])

Ich würde gerne ein dataframe, das sieht aus wie:

Umformen ein pandas dataframe

was nicht funktioniert:

new_rows = int(df.shape[1]/2) * df.shape[0]
new_cols = 2
df.values.reshape(new_rows, new_cols, order='F')

natürlich könnte ich die Schleife über die Daten und machen Sie eine neue Liste, aber es muss einen besseren Weg geben. Irgendwelche Ideen ?

Ich fügte hinzu, eine robustere Antwort, dass verallgemeinert, die fast genau der situation, die Sie haben.

InformationsquelleAutor Moritz | 2017-03-21

3

Den pd.wide_to_long Funktion gebaut, fast genau für diese situation, wo Sie viele der gleichen Variablen-Präfixe in einer anderen stelligen suffix. Der einzige Unterschied hier ist, dass die erste Reihe von Variablen, die nicht über ein suffix, so müssen Sie benennen Sie die Spalten zuerst.

Das einzige Problem mit pd.wide_to_long ist, es muss eine Identifikation variable i im Gegensatz zu melt. reset_index wird verwendet, um eine diese eindeutig identifizierende Spalte, die gelöscht wird später. Ich denke, dies kann behoben, in der Zukunft.
```
df1 = df.rename(columns={'A':'A1', 'B':'B1', 'A1':'A2', 'B1':'B2'}).reset_index()
pd.wide_to_long(df1, stubnames=['A', 'B'], i='index', j='id')\
  .reset_index()[['A', 'B', 'id']]

    A   B id
0   1   2  1
1   5   6  1
2   9  10  1
3   3   4  2
4   7   8  2
5  11  12  2
```
InformationsquelleAutor Ted Petrou
8

Können Sie lreshape, für Spalte id numpy.repeat:
```
a = [col for col in df.columns if 'A' in col]
b = [col for col in df.columns if 'B' in col]
df1 = pd.lreshape(df, {'A' : a, 'B' : b})

df1['id'] = np.repeat(np.arange(len(df.columns) // 2), len (df.index))  + 1
print (df1)
    A   B  id
0   1   2   1
1   5   6   1
2   9  10   1
3   3   4   2
4   7   8   2
5  11  12   2
```
EDIT:

lreshape ist derzeit nicht dokumentiert, aber es ist möglich, es kann entfernt werden(mit pd.wide_to_long zu).

Mögliche Lösung ist die Zusammenlegung aller 3 Funktionen zu einem - vielleicht melt, aber jetzt ist es nicht implementated. Vielleicht in einigen neuen version des pandas. Dann wird meine Antwort aktualisiert werden.

Dies ist eine schlechte Lösung. Warum nicht pd.wide_to_long? Es ist wie geschaffen für diese situation.
Ich Editiere Lösung.

InformationsquelleAutor jezrael
2

Ich löste dies in 3 Schritten:
1. Einen neuen dataframe df2 hält nur die Daten, die Sie möchten, Hinzugefügt werden, um die ursprünglichen dataframe df.
2. Löschen Sie die Daten aus df Hinzugefügt wird, welche unter (und wurde verwendet, um df2.
3. Anhängen df2 zu df.
Etwa so:
```
# step 1: create new dataframe
df2 = df[['A1', 'B1']]
df2.columns = ['A', 'B']

# step 2: delete that data from original
df = df.drop(["A1", "B1"], 1)

# step 3: append
df = df.append(df2, ignore_index=True)
```
Beachten Sie, wie wenn Sie df.append() müssen Sie ignore_index=True so sind die neuen Säulen, die an die index anstatt halten Sie Ihre alte index.

Ihr Ergebnis sollte sein, Ihre ursprünglichen dataframe mit den Daten neu angeordnet, wie Sie wollte:
```
In [16]: df
Out[16]:
    A   B
0   1   2
1   5   6
2   9  10
3   3   4
4   7   8
5  11  12
```
InformationsquelleAutor mprat

Verwenden pd.concat() etwa so:

#Split into separate tables
df_1 = df[['A', 'B']]
df_2 = df[['A1', 'B1']]
df_2.columns = ['A', 'B'] # Make column names line up

# Add the ID column
df_1 = df_1.assign(id=1)
df_2 = df_2.assign(id=2)

# Concatenate
pd.concat([df_1, df_2])

Ich habe viele Spalten (paar hundert)
Ich sehe. Persönlich würde ich nur tun, dass in einer for-Schleife. Aber vielleicht @jezrael ist lreshape Lösung ist besser.

InformationsquelleAutor Matthew

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.