Konstruieren von 3D-Pandas DataFrame

Ich Schwierigkeiten beim konstruieren eines 3D-DataFrame in Pandas. Ich möchte so etwas wie dies

A               B               C
start    end    start    end    start    end ...
7        20     42       52     90       101
11       21                     213      34
56       74                     9        45
45       12

Wo A, B etc sind die top-level-Deskriptoren start und end sind subdescriptors. Die zahlen, die Folgen, sind zu zweit und es gibt nicht die gleiche Anzahl von Paaren für A, B etc. Beachten Sie, dass A hat vier solche Paare, B hat nur 1, und C 3.

Ich bin mir nicht sicher, wie Sie Vorgehen bei der Konstruktion dieser DataFrame. Ändern diese Beispiel gar nicht, mir die entworfen, Ausgabe:

import numpy as np
import pandas as pd

A = np.array(['one', 'one', 'two', 'two', 'three', 'three'])
B = np.array(['start', 'end']*3)
C = [np.random.randint(10, 99, 6)]*6
df = pd.DataFrame(zip(A, B, C), columns=['A', 'B', 'C'])
df.set_index(['A', 'B'], inplace=True)
df

ergab:

                C
 A          B   
 one        start   [22, 19, 16, 20, 63, 54]
              end   [22, 19, 16, 20, 63, 54]
 two        start   [22, 19, 16, 20, 63, 54]
              end   [22, 19, 16, 20, 63, 54]
 three      start   [22, 19, 16, 20, 63, 54]
              end   [22, 19, 16, 20, 63, 54]

Gibt es eine Möglichkeit, brechen die Listen in C in eigene Spalten?

EDIT: Die Struktur meiner C ist wichtig. Es sieht wie folgt aus:

 C = [[7,11,56,45], [20,21,74,12], [42], [52], [90,213,9], [101, 34, 45]]

Und die gewünschte Ausgabe ist der eine an der Spitze. Es stellt die Start-und End-Punkte der untersequenzen innerhalb einer bestimmten Sequenz (A, B. C sind die verschiedenen Sequenzen). Abhängig von der Sequenz selbst gibt es eine unterschiedliche Anzahl von untersequenzen, die einer bestimmten Bedingung genügen, was ich Suche. Als Ergebnis gibt es eine unterschiedliche Anzahl von start:Ende Paare für A, B usw

Es ist etwas genannt als Panel in Pandas. Aber seine veraltet und wird ersetzt durch pandas.pydata.org/pandas-docs/stable/reference/api/...

InformationsquelleAutor tlnagy | 2014-06-18

pandas python

12

Ersten, ich glaube, Sie brauchen, um füllen Sie C, um die Darstellung fehlender Werte
```
In [341]: max_len = max(len(sublist) for sublist in C)
In [344]: for sublist in C:
     ...:     sublist.extend([np.nan] * (max_len - len(sublist)))

In [345]: C
Out[345]: 
[[7, 11, 56, 45],
 [20, 21, 74, 12],
 [42, nan, nan, nan],
 [52, nan, nan, nan],
 [90, 213, 9, nan],
 [101, 34, 45, nan]]
```
Dann, konvertieren Sie Sie in ein numpy-array transponieren, und geht auf den DataFrame Konstruktor zusammen mit den Spalten.
```
In [288]: C = np.array(C)
In [289]: df = pd.DataFrame(data=C.T, columns=pd.MultiIndex.from_tuples(zip(A,B)))

In [349]: df
Out[349]: 
     one         two       three     
   start  end  start  end  start  end
0      7   20     42   52     90  101
1     11   21    NaN  NaN    213   34
2     56   74    NaN  NaN      9   45
3     45   12    NaN  NaN    NaN  NaN
```
- Meine Daten organisiert als Liste von Listen, so dass C=[[...],[...],[...]...] da jede verschachtelte Liste hat eine andere Länge. Wie könnte ich mit der situation umgehen?
- Diese Implementierung gibt mir eine Fehlermeldung, da die Länge der verschachtelten Listen innerhalb C ist nicht gleich der Länge des A und B
- Was bedeutet jede Liste darzustellen, Zeilen oder Spalten? Warum sind Sie unterschiedlich lang sind? Sind die kürzere Listen sollen, fehlen bestimmte Elemente? Siehe editiert Antwort für eine Vermutung.
- Die Werte in den einzelnen verschachtelten Liste sind die Zeilen und die verschachtelte Liste selbst sind die Spalten. Die Länge der Spalten ist unterschiedlich, weil one hat eine unterschiedliche Anzahl von start:Ende Paare als two
- Ich denke, wir sind immer verwirrt über die Terminologie - Bearbeiten können Sie Ihre Frage noch einige Daten, die dem entspricht, was Sie reden, und dann zeigen, was die Ausgabe, die Sie wollen?
- Hinzugefügt habe ich die Struktur meiner C auf die Frage. Die gewünschte Ausgabe war das, was gezeigt wurde, an der Spitze. Vielen Dank für die Hilfe!
- Ich fügte hinzu, ein extra paar klärende Sätze zu der Beschreibung als auch. Ich bin offen für Neugestaltung C's-Struktur, aber ich bin mir nicht bewusst, einen besseren Weg, um die Daten darstellen.
- Dank, versuchen, die neueste edit.
- Es sieht aus wie es funktionierte! Gibt es keinen besseren Weg zu machen, ein 2d-numpy-array aus arrays von nicht-identischen Längen?
- Woah, ich mag diese Frage und die Antwort. 3D-Dataframes viele Türen öffnet.
- In Python ist3 es scheint, dass Sie brauchen, um do ...list(zip(A,B))
InformationsquelleAutor chrisb

Kannst du nicht einfach ein panel?

import numpy as np
import pandas as pd

A = ['one', 'two' ,'three']
B = ['start','end']
C = [np.random.randint(10, 99, 2)]*6
df = pd.DataFrame(C,columns=B  )
p={}
for a in A:
    p[a]=df
panel= pd.Panel(p)
print panel['one']

Es ist wahrscheinlich, dass mein Datenbestand wird höher-dimensionale in die Zukunft. Nicht panel beschränkt sich auf 3 Dimensionen?
Hinweis: Panels sind jetzt veraltet!

InformationsquelleAutor user3684792

Als @Aaron erwähnt in einem Kommentar oben, Platten, wurden verworfen. Auch, @tlnagy erwähnt seine dataset wäre wahrscheinlich zu erweitern, um mehr als 3 Dimensionen in die Zukunft.

Das klingt wie ein guter use-case für die xarray - Paket, das bietet semantisch gekennzeichnet arrays von beliebig vielen Dimensionen. Pandas und xarray haben starke conversion-Unterstützung, und die Platten wurden verworfen zugunsten der Verwendung von xarray.

Ersteinrichtung des Problems.

import numpy as np

A = np.array([[7,11,56,45], [20,21,74,12]]).T
B = np.array([[42], [52]]).T
C = np.array([[90,213,9], [101, 34, 45]]).T

Können Sie dann erstellen Sie eine dreidimensionale xarray.DataArray Objekt etwa so:

import xarray

output_as_dataarray = xarray.concat(
    [xarray.DataArray(X, 
                      dims=['record', 'edge'],
                      coords={'record': range(X.shape[0]),
                              'edge': ['start', 'end']},
                     ) for X in (A, B, C)],
    dim='descriptor',
).assign_coords(descriptor=['A', 'B', 'C'])

Drehen wir unsere drei 2D-numpy-arrays in xarray.DataArray Objekte, und dann verketten Sie zusammen eine neue dimension.

Unsere Ausgabe sieht so aus:

<xarray.DataArray (descriptor: 3, record: 4, edge: 2)>
array([[[  7.,  20.],
        [ 11.,  21.],
        [ 56.,  74.],
        [ 45.,  12.]],

       [[ 42.,  52.],
        [ nan,  nan],
        [ nan,  nan],
        [ nan,  nan]],

       [[ 90., 101.],
        [213.,  34.],
        [  9.,  45.],
        [ nan,  nan]]])
Coordinates:
  * record      (record) int64 0 1 2 3
  * edge        (edge) <U5 'start' 'end'
  * descriptor  (descriptor) <U1 'A' 'B' 'C'

InformationsquelleAutor scottclowe

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.