Lesen mehrere JSON-Datensätze in ein Pandas dataframe

Ich würde gerne wissen, ob es eine Speicher-effiziente Art des Lesens multi record JSON-Datei ( jede Zeile ist ein JSON-dict) in ein pandas dataframe. Unten ist eine 2-Zeile B. mit der Lösung arbeiten, ich brauche es für eine potentiell sehr große Anzahl von Datensätzen. Beispiel für die Verwendung wäre die Prozess-Ausgangsdaten von Hadoop Pig JSonStorage Funktion.

import json
import pandas as pd

test='''{"a":1,"b":2}
{"a":3,"b":4}'''
#df=pd.read_json(test,orient='records') doesn't work, expects []

l=[ json.loads(l) for l in test.splitlines()]
df=pd.DataFrame(l)

Verwenden Sie die chunksize-Attribut von pd.read_json, um eine Liste von dataframes und mit map oder Schleife zur Iteration über die dataframes

InformationsquelleAutor seanv507 | 2013-11-17

44

Hinweis: Zeile getrennt json wird unterstützt-in read_json (seit 0.19.0):
```
In [31]: pd.read_json('{"a":1,"b":2}\n{"a":3,"b":4}', lines=True)
Out[31]:
   a  b
0  1  2
1  3  4
```
oder mit einer Datei/Dateipfad anstatt eines json-Strings:
```
pd.read_json(json_file, lines=True)
```
Es wird abhängig von der Größe der Sie DataFrames, welche schneller ist, aber eine andere Möglichkeit ist die Verwendung str.join zu zerschlagen, Ihre multi-line "JSON" (Anmerkung: es ist nicht gültiges json), in Gültiger json und verwenden read_json:
```
In [11]: '[%s]' % ','.join(test.splitlines())
Out[11]: '[{"a":1,"b":2},{"a":3,"b":4}]'
```
Für dieses kleine Beispiel ist dies langsamer, wenn rund 100 es ist dem ähnlich, erhebliche Gewinne, wenn es größer...
```
In [21]: %timeit pd.read_json('[%s]' % ','.join(test.splitlines()))
1000 loops, best of 3: 977 µs per loop

In [22]: %timeit l=[ json.loads(l) for l in test.splitlines()]; df = pd.DataFrame(l)
1000 loops, best of 3: 282 µs per loop

In [23]: test_100 = '\n'.join([test] * 100)

In [24]: %timeit pd.read_json('[%s]' % ','.join(test_100.splitlines()))
1000 loops, best of 3: 1.25 ms per loop

In [25]: %timeit l = [json.loads(l) for l in test_100.splitlines()]; df = pd.DataFrame(l)
1000 loops, best of 3: 1.25 ms per loop

In [26]: test_1000 = '\n'.join([test] * 1000)

In [27]: %timeit l = [json.loads(l) for l in test_1000.splitlines()]; df = pd.DataFrame(l)
100 loops, best of 3: 9.78 ms per loop

In [28]: %timeit pd.read_json('[%s]' % ','.join(test_1000.splitlines()))
100 loops, best of 3: 3.36 ms per loop
```
Hinweis: die Verknüpfung ist überraschend schnell.
- Nicht einschließlich Zeit zum Lesen in der Zeichenfolge (die beide Lösungen verwenden), ich Frage mich, ob es einen trick hier...
- Ich hatte zum hinzufügen von Zeilen=True wie in data = pd.read_json('/path/to/file.json', lines=True)
- Es scheint nicht zu arbeiten, für große json-Dateien, wenn ein Fehler passiert, in der json.
- poste bitte ein issue auf GitHub
- Also, es ist eine geschlossene Frage, die für diese auf Github github.com/pandas-dev/pandas/issues/18152 ich habe überprüft, dass mehrere json-in der großen Datei sind nicht ungültig und lud Sie erfolgreich in Blöcken. dfs = pd.read_json('file', lines=True, chunksize=x) und for df in dfs: df.head()
InformationsquelleAutor Andy Hayden
26

Wenn Sie versuchen, um Speicher zu sparen, dann das Lesen der Datei eine Zeile zu einem Zeitpunkt viel mehr Speicher effizient:
```
with open('test.json') as f:
    data = pd.DataFrame(json.loads(line) for line in f)
```
Auch, wenn Sie import simplejson as json, die den kompilierten C-Erweiterungen enthalten, die mit simplejson sind viel schneller als die pure-Python json Modul.
- Eigentlich denke ich, die erste Sache, die DataFrame Konstruktor ruft der Liste auf einen generator wie diese, so dass beide Speicher und timings identisch sein. Leistung simplejson liegt irgendwo zwischen pandas' read_json und json.
- Ah, das ist schade; es scheint, Sie haben zu Recht über die DataFrame Konstruktor. Und aktuelle Versionen von Python enthalten kompilierten C-Erweiterungen für die eingebaute json. Zum Glück, wie der Pandas 0.19, können Sie read_json(lines=True).
- Dies würde immer noch sparen Sie Speicher über die OP ' s l=[ json.loads(l) for l in test.splitlines()], die Bedürfnisse zu haben, in Erinnerung, alle auf einmal: 1. Der komplette Orginal-Datei Daten, 2. Die Datei-Daten-Aufteilung in Zeilen (gelöscht, sobald alle Linien analysiert), und 3. Die geparsten JSON-Objekte. Lesen träge und be-Zeile heißt, Sie haben nur #3 von den oben genannten, plus ein (technisch gesehen zwei, aber logisch eins) Zeile der Datei im Speicher auf einmal. Sicher, alle der analysierten Objekte im Speicher, aber nicht zwei zusätzliche Kopien der Datei zu starten.
- Nein, das erste, was der DataFrame Konstruktor tut, ist gelten list zu den iterator. Es ist völlig gleichwertig.
- Wäre es gleichwertig, wenn die durchsuchbar sein iterierten gleichwertig waren, aber die OP ist iterierbar ist test.splitlines() (Bedeutung test und die list der resultierenden Linien werden alle im Speicher gehalten, während die list gebaut wird), während der Doctor J ist iterierbar ist f (ein open-file-Objekt), die zieht jeder Zeile, wie es geht, ersetzen Sie es sofort nach jedem json.loads. pd.DataFrame(json.loads(line) for line in f) und pd.DataFrame([json.loads(line) for line in f]) würde entspricht (ehemalige listfreundlich von DataFrame, letztere macht list direkt), aber die Datei vs. str.split unterscheidet.
- Der Punkt ist, Doktor J-Lösung ist eine Verbesserung, weil es nicht schlürfen die Datei in den Speicher vorne; it-Prozesse wie es sich liest, so Speichernutzung ist nur die list von geparsten JSON-Objekte (plus die Größe der beiden größten Zeilen in der Datei), nicht die list von JSON-Objekten, sowie die komplette Datei-Inhalt, plus der komplette Inhalt der Datei wieder (aufgeteilt in Zeilen).
- außer es ist die Schaffung eines python-dict für jede Zeile, die ist immer viel größer in Erinnerung, als der string (Also der timing-Ergebnisse für 1000 Zeilen in meiner Antwort)
- Wahr. Ich habe nie behauptet es nicht zu haben, nur dass es nicht um ein zusammengesetztes problem, dass durch die Speicherung mehrerer Kopien des kompletten Datei-bytes im Speicher. Man könnte den Aufwand zu verringern, die list von dicts obwohl, die Kombination dieser Ansatz w/collections.namedtuple. Row = namedtuple('Row', ('a', 'b')), dann ersetzen Sie die definition von data mit data = pd.DataFrame(Row(**json.loads(line)) for line in f). Nun, anstelle von #Zeilen dicts, Sie haben #Zeilen Rows, die laufen (auf meinem system) 64 Byte overhead jede, eher als 240, etwa 1/4 der Speicher-overhead.
- Wohlgemerkt, die namedtuple Ansatz erfordert, dass alle JSON-Objekte haben die gleichen Attribute (oder komplexe Ansätze liefern die Standardwerte für optionale Werte verwendet werden), es ist also nicht geeignet, um alle Umstände, aber die Provisorien sind viel weniger Schwergewicht auf diese Weise.
InformationsquelleAutor Doctor J
14

Als der Pandas 0.19, read_json hat native Unterstützung für line-getrennte JSON:
```
pd.read_json(jsonfile, lines=True)
```
InformationsquelleAutor Doctor J
2

++++++++Update++++++++++++++

Als von v0.19, Pandas unterstützt das nativ (siehe https://github.com/pandas-dev/pandas/pull/13351). Führen Sie einfach:
```
df=pd.read_json('test.json', lines=True)
```
++++++++Alte Antwort++++++++++

Den vorhandenen Antworten sind gut, aber für ein wenig Abwechslung, hier ist ein weiterer Weg, um Ihr Ziel zu erreichen, erfordert eine einfache pre-processing-Schritt außerhalb von python, so dass pd.read_json() verbrauchen können Daten.
- Installieren jq https://stedolan.github.io/jq/.
- Erstellen Sie ein gültiges json-Datei mit cat test.json | jq -c --slurp . > valid_test.json
- Erstellen dataframe mit df=pd.read_json('valid_test.json')
In ipython notebook, und führen Sie den shell-Befehl direkt aus der Zelle-Schnittstelle mit
```
!cat test.json | jq -c --slurp . > valid_test.json
df=pd.read_json('valid_test.json')
```
InformationsquelleAutor Bob Baxley

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.