Konvertieren Liste der Wörterbücher, die auf ein pandas DataFrame

Habe ich eine Liste der Wörterbücher wie diese:

[{'points': 50, 'time': '5:00', 'year': 2010}, 
{'points': 25, 'time': '6:00', 'month': "february"}, 
{'points':90, 'time': '9:00', 'month': 'january'}, 
{'points_h1':20, 'month': 'june'}]

Und ich möchten diesen in einen Pandabären DataFrame wie diese:

      month  points  points_h1  time  year
0       NaN      50        NaN  5:00  2010
1  february      25        NaN  6:00   NaN
2   january      90        NaN  9:00   NaN
3      june     NaN         20   NaN   NaN

Hinweis: die Reihenfolge der Spalten spielt keine Rolle.

Wie kann ich die Liste der Wörterbücher in ein pandas DataFrame, wie oben gezeigt?

InformationsquelleAutor appleLover | 2013-12-17

735

Angenommen, dass d ist die Liste von dicts einfach:
```
pd.DataFrame(d)
```
- Wie könnte man verwenden Sie eine der Schlüssel - /Wert-Paare als der index (zB. Zeit)?
- Sie können nur tun df = df.set_index('time') danach
- Ist es möglich, erstellen Sie den dataframe und legen Sie den index in einer Zeile?
- Nein, das ist nicht möglich, wenn die Konvertierung von einem dict.
- Als der Pandas 0.19.2, es gibt keine Erwähnung von diesem in der Dokumentation, zumindest nicht in den docs für pandas.DataFrame
- Es ist, wenn es ist Teil des Wörterbuchs, mit pd.DataFrame(d).set_index('uid', drop=False)
InformationsquelleAutor joris
76

In pandas 16.2, ich hatte zu tun pd.DataFrame.from_records(d) zu bekommen dies funktioniert.
- das gute an diesem Ansatz ist, dass es funktioniert auch mit deque
- funktioniert gut mit pandas 0.17.1 mit @joris Lösung
- Usinig 0.14.1 und @joris' Lösung hat nicht funktioniert, aber das Tat
- In 0.18.1, muss man from_records wenn die Wörterbücher nicht alle haben die gleichen Schlüssel.
InformationsquelleAutor szeitlin
72

Wie konvertiere ich eine Liste der Wörterbücher, die auf ein pandas DataFrame?

Die anderen Antworten sind richtig, aber nicht viel erklärt wurde in Bezug auf die Vorteile und Grenzen dieser Methoden. Das Ziel dieses Beitrags möchten wir Ihnen zeigen, Beispiele für diese Methoden unter verschiedenen Situationen, zu diskutieren, Wann (und Wann nicht) und alternativen vorschlagen.

DataFrame(), DataFrame.from_records(), und .from_dict()

Je nach Struktur und format der Daten, es gibt Situationen, in denen entweder alle drei Methoden arbeiten, oder einige besser funktionieren als andere, oder einige überhaupt nicht arbeiten.

Denke, ein sehr erfundenes Beispiel.
```
np.random.seed(0)
data = pd.DataFrame(
    np.random.choice(10, (3, 4)), columns=list('ABCD')).to_dict('r')

print(data)
[{'A': 5, 'B': 0, 'C': 3, 'D': 3},
 {'A': 7, 'B': 9, 'C': 3, 'D': 5},
 {'A': 2, 'B': 4, 'C': 7, 'D': 6}]
```
Diese Liste besteht aus "Aufzeichnungen" mit jedem Schlüssel vorhanden. Dies ist der einfachste Fall begegnen können.
```
# The following methods all produce the same output.
pd.DataFrame(data)
pd.DataFrame.from_dict(data)
pd.DataFrame.from_records(data)

   A  B  C  D
0  5  0  3  3
1  7  9  3  5
2  2  4  7  6
```
Wort auf dem Wörterbuch Orientierungen: orient='index'/'columns'

Bevor Sie fortfahren, ist es wichtig, die Unterscheidung zwischen den verschiedenen Arten von Wörterbuch Orientierungen und Unterstützung der pandas. Es gibt zwei primäre Typen: "Spalten", und "index".

orient='columns'

Wörterbücher mit den "Spalten" - Ausrichtung haben Sie Ihre Schlüssel entsprechen den Spalten in der entsprechenden DataFrame.

Beispielsweise data oben in der "Säulen" orientieren.
```
data_c = [
 {'A': 5, 'B': 0, 'C': 3, 'D': 3},
 {'A': 7, 'B': 9, 'C': 3, 'D': 5},
 {'A': 2, 'B': 4, 'C': 7, 'D': 6}]
```
```
pd.DataFrame.from_dict(data_c, orient='columns')

   A  B  C  D
0  5  0  3  3
1  7  9  3  5
2  2  4  7  6
```
Hinweis: Wenn Sie mit pd.DataFrame.from_records die Orientierung wird davon ausgegangen, dass "Spalten" (Sie können nicht anders angegeben), und die Wörterbücher werden entsprechend geladen.

orient='index'

Mit diesem orient-keys ausgegangen sind, zu entsprechen index-Werte. Diese Art von Daten ist am besten geeignet für pd.DataFrame.from_dict.
```
data_i ={
 0: {'A': 5, 'B': 0, 'C': 3, 'D': 3},
 1: {'A': 7, 'B': 9, 'C': 3, 'D': 5},
 2: {'A': 2, 'B': 4, 'C': 7, 'D': 6}}
```
```
pd.DataFrame.from_dict(data_i, orient='index')

   A  B  C  D
0  5  0  3  3
1  7  9  3  5
2  2  4  7  6
```
Diesem Fall nicht berücksichtigt, bei der OP, aber immer noch nützlich zu wissen.

Festlegen Von Benutzerdefinierten Index

Wenn Sie einen benutzerdefinierten index für die daraus resultierenden DataFrame, können Sie es mithilfe der index=... argument.
```
pd.DataFrame(data, index=['a', 'b', 'c'])
# pd.DataFrame.from_records(data, index=['a', 'b', 'c'])

   A  B  C  D
a  5  0  3  3
b  7  9  3  5
c  2  4  7  6
```
Dies nicht unterstützt pd.DataFrame.from_dict.

Umgang mit Fehlenden Keys/Spalten

Alle Methoden funktionieren out-of-the-box beim Umgang mit Wörterbüchern fehlende Schlüssel/Werte in der Spalte. Zum Beispiel,
```
data2 = [
     {'A': 5, 'C': 3, 'D': 3},
     {'A': 7, 'B': 9, 'F': 5},
     {'B': 4, 'C': 7, 'E': 6}]
```
```
# The methods below all produce the same output.
pd.DataFrame(data2)
pd.DataFrame.from_dict(data2)
pd.DataFrame.from_records(data2)

     A    B    C    D    E    F
0  5.0  NaN  3.0  3.0  NaN  NaN
1  7.0  9.0  NaN  NaN  NaN  5.0
2  NaN  4.0  7.0  NaN  6.0  NaN
```
Lesen Teilmenge der Spalten

"Was wenn ich nicht will, zu Lesen in jede einzelne Spalte"? Sie können leicht geben Sie diese mithilfe der columns=... parameter.

Zum Beispiel aus dem Beispiel-Wörterbuch data2 oben, wenn Sie wollte, Lesen Sie nur die Spalten "A", " D " und " F " können Sie dies tun, indem eine Liste:
```
pd.DataFrame(data2, columns=['A', 'D', 'F'])
# pd.DataFrame.from_records(data2, columns=['A', 'D', 'F'])

     A    D    F
0  5.0  3.0  NaN
1  7.0  NaN  5.0
2  NaN  NaN  NaN
```
Dies nicht unterstützt pd.DataFrame.from_dict mit der Standard-orient "Spalten".
```
pd.DataFrame.from_dict(data2, orient='columns', columns=['A', 'B'])
```
```
ValueError: cannot use columns parameter with orient='columns'
```
Lesen Teilmenge von Zeilen

Nicht unterstützt von jeder dieser Methoden direkt. Haben Sie zu Durchlaufen, Ihre Daten und führen Sie eine reverse löschen in-place, wie Sie Durchlaufen. Zum Beispiel, zu extrahieren nur die 0^th und 2^nd Zeilen aus data2 vor, die Sie verwenden können:
```
rows_to_select = {0, 2}
for i in reversed(range(len(data2))):
    if i not in rows_to_select:
        del data2[i]

pd.DataFrame(data2)
# pd.DataFrame.from_dict(data2)
# pd.DataFrame.from_records(data2)

     A    B  C    D    E
0  5.0  NaN  3  3.0  NaN
1  NaN  4.0  7  NaN  6.0
```
Das Allheilmittel: json_normalize für Verschachtelte Daten

Einem starken, robusten alternative zu den oben beschriebenen Methoden ist die json_normalize Funktion, die arbeitet mit Listen von Wörterbüchern (Datensätze), und zusätzlich kann auch mit verschachtelten dictionaries.
```
pd.io.json.json_normalize(data)

   A  B  C  D
0  5  0  3  3
1  7  9  3  5
2  2  4  7  6
```
```
pd.io.json.json_normalize(data2)

     A    B  C    D    E
0  5.0  NaN  3  3.0  NaN
1  NaN  4.0  7  NaN  6.0
```
Wieder, Bedenken Sie, dass die Daten an json_normalize muss in der Liste der Wörterbücher (records format).

Wie bereits erwähnt, ist json_normalize kann auch mit verschachtelten dictionaries. Hier ist ein Beispiel aus der Dokumentation.
```
data_nested = [
  {'counties': [{'name': 'Dade', 'population': 12345},
                {'name': 'Broward', 'population': 40000},
                {'name': 'Palm Beach', 'population': 60000}],
   'info': {'governor': 'Rick Scott'},
   'shortname': 'FL',
   'state': 'Florida'},
  {'counties': [{'name': 'Summit', 'population': 1234},
                {'name': 'Cuyahoga', 'population': 1337}],
   'info': {'governor': 'John Kasich'},
   'shortname': 'OH',
   'state': 'Ohio'}
]
```
```
pd.io.json.json_normalize(data_nested, 
                          record_path='counties', 
                          meta=['state', 'shortname', ['info', 'governor']])

         name  population    state shortname info.governor
0        Dade       12345  Florida        FL    Rick Scott
1     Broward       40000  Florida        FL    Rick Scott
2  Palm Beach       60000  Florida        FL    Rick Scott
3      Summit        1234     Ohio        OH   John Kasich
4    Cuyahoga        1337     Ohio        OH   John Kasich
```
Weitere Informationen auf der meta und record_path Argumente, schauen Sie sich die Dokumentation.

Zusammenfassung

Hier ist eine Tabelle mit den oben diskutierten Methoden, zusammen mit den unterstützten features/Funktionalität.

_{* Verwenden Sie orient='columns' und dann transponieren, um den gleichen Effekt wie orient='index'.}
- Woah! Okay, das zusammen mit Zusammenführen, SO post gehören, die in der API. Sie soll dazu beitragen, die pandas Dokumentationen, wenn Sie nicht bereits getan haben. Ted Petrou gerade gebucht ein LinkedIn-Artikel über die Beliebtheit der pandas auf Stack Overflow und erwähnt, dass der Mangel an guter Dokumentation dazu beiträgt das Volumen der Fragen hier.
- Du hast absolut Recht, ich habe gehört, dass oft genug nun, ich weiß, es ist etwas, ich sollte mehr ernsthafte Gedanken. Ich denke, die Dokumentation kann eine große Weise sein zu helfen, Benutzer, mehr als die Veröffentlichung auf Fragen, die würden nur zu einem Bruchteil das gleiche Publikum.
- Es ist besonders problematisch, da die Angaben, welche Methoden sind gut für die Fälle oft ändern, und so mit sehr langen, tief Tauchen Antworten auf, DAMIT ist nicht nur nicht so nützlich, wie es in der pandas-offizielle Dokumentation, aber oft ist sogar schädlich oder irreführend, weil einige ändern, um die Funktion Interna kann plötzlich die Antwort falsch oder sachlich falsch und es ist nicht ganz klar verbunden mit der eigentlichen Quelle repo Kennzeichnen, die für die Dokumentation zu aktualisieren.
- Vielen Dank für das Wiegen in und ich Stimme zu, weil ich sehe, dass mit einer Menge von Antworten zu älteren Fragen schnell zu veraltet. Das problem ist besonders ausgeprägt bei den pandas-API wird als mercurial, wie es ist... ich hoffe, dieser Beitrag war bis zu Ihrem standard 😉
- es ist nette Antwort , ich denke, es ist Zeit für uns, wieder zu Fuß-in die gemeinsame Fragestellung, unter der die meisten aktuellen pandas version 🙂
- das ist nie ein Grund, nicht auf schreiben Antworten, hier eh. Alle beantworten können veraltet, das ist, was wir haben an der Abstimmung für und unterschiedliche Perspektiven und unterschiedliche Ziele gibt es hier, und es ist immer wertvoll, um die verschiedenen Möglichkeiten zu erklären, die gleiche Sache.
- Ich Frage und Stimme mit Ihrer letzten Behauptung, aber insgesamt Stimme ich mit Ihnen überein. Es ist nicht immer Wert Additiv zu sammeln und unterschiedliche Antworten auf die gleiche Frage zusammen, vor allem, wenn einige der Antworten sind updates oder bedingte Differenzen aufgrund der anderen Antworten. In den schlimmsten Fällen, die Antworten, kann sein Wert destruktiv, wenn Sie sortiert zusammen (im Gegensatz zur Verwendung von mehr aktualisierte beantworten, Bearbeiten Sie einfach die älteren Antwort in ein richtiger Zustand). Aber wieder, ich weitgehend mit Ihnen überein.
InformationsquelleAutor cs95

Können Sie auch pd.DataFrame.from_dict(d) als :

In [8]: d = [{'points': 50, 'time': '5:00', 'year': 2010}, 
   ...: {'points': 25, 'time': '6:00', 'month': "february"}, 
   ...: {'points':90, 'time': '9:00', 'month': 'january'}, 
   ...: {'points_h1':20, 'month': 'june'}]

In [12]: pd.DataFrame.from_dict(d)
Out[12]: 
      month  points  points_h1  time    year
0       NaN    50.0        NaN  5:00  2010.0
1  february    25.0        NaN  6:00     NaN
2   january    90.0        NaN  9:00     NaN
3      june     NaN       20.0   NaN     NaN

Die Frage ist über den Bau einer Daten-frame von einem Liste dicts, nicht von einem einzigen dict als Sie angenommen in Ihrer Antwort.
überprüfen Sie die aktualisierte Antwort. Ich bin nicht vorausgesetzt.

InformationsquelleAutor shivsn

0

Ich kenne ein paar Leute kommen über dieses und finden hier nichts hilft. Der einfachste Weg, die ich gefunden habe, es zu tun ist wie folgt:
```
dict_count = len(dict_list)
df = pd.DataFrame(dict_list[0], index=[0])
for i in range(1,dict_count-1):
    df = df.append(dict_list[i], ignore_index=True)
```
Hoffe, das jemand hilft!

InformationsquelleAutor scottapotamus

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Konvertieren Liste der Wörterbücher, die auf ein pandas DataFrame

Wie konvertiere ich eine Liste der Wörterbücher, die auf ein pandas DataFrame?

`DataFrame()`, `DataFrame.from_records()`, und `.from_dict()`

Wort auf dem Wörterbuch Orientierungen: `orient='index'`/`'columns'`

Festlegen Von Benutzerdefinierten Index

Umgang mit Fehlenden Keys/Spalten

Lesen Teilmenge der Spalten

Lesen Teilmenge von Zeilen

Das Allheilmittel: `json_normalize` für Verschachtelte Daten

Zusammenfassung