Lesen mehrere JSON-Datensätze in ein Pandas dataframe

Ich würde gerne wissen, ob es eine Speicher-effiziente Art des Lesens multi record JSON-Datei ( jede Zeile ist ein JSON-dict) in ein pandas dataframe. Unten ist eine 2-Zeile B. mit der Lösung arbeiten, ich brauche es für eine potentiell sehr große Anzahl von Datensätzen. Beispiel für die Verwendung wäre die Prozess-Ausgangsdaten von Hadoop Pig JSonStorage Funktion.

import json
import pandas as pd

test='''{"a":1,"b":2}
{"a":3,"b":4}'''
#df=pd.read_json(test,orient='records') doesn't work, expects []

l=[ json.loads(l) for l in test.splitlines()]
df=pd.DataFrame(l)
  • Verwenden Sie die chunksize-Attribut von pd.read_json, um eine Liste von dataframes und mit map oder Schleife zur Iteration über die dataframes
InformationsquelleAutor seanv507 | 2013-11-17
Schreibe einen Kommentar