Pandas read_csv ignorieren Spalte dtypes wenn ich den pass skip_footer arg

Wenn ich versuche zu importieren einer csv-Datei in ein pandas dataframe (0.13.1) ist die Nichtbeachtung der dtype-parameter. Gibt es eine Möglichkeit zu stoppen pandas aus der Herleitung der Datentyp, auf seine eigene?

Ich bin die Zusammenlegung mehrerer CSV-Dateien, und manchmal sind die Kunden enthält Briefe und pandas Importe als string. Wenn ich versuche die Zusammenführung der beiden dataframes bekomme ich eine Fehlermeldung, weil ich versuche, Zusammenführen von zwei verschiedenen Arten. Ich brauche alles, was als Zeichenfolgen gespeichert werden.

Daten snippet:

|WAREHOUSE|ERROR|CUSTOMER|ORDER NO|
|--------- | ----- | -------- | --------|
|3615     |     |03106   |253734  |
|3615     |     |03156   |290550  |
|3615     |     |03175   |262207  |
|3615     |     |03175   |262207  |
|3615     |     |03175   |262207  |
|3615     |     |03175   |262207  |
|3615     |     |03175   |262207  |
|3615     |     |03175   |262207  |
|3615     |     |03175   |262207  |

Import-Zeile:

df = pd.read_csv("SomeFile.csv", 
                 header=1,
                 skip_footer=1, 
                 usecols=[2, 3], 
                 dtype={'ORDER NO': str, 'CUSTOMER': str})

df.dtypes Ausgänge dieser:

ORDER NO    int64
CUSTOMER    int64
dtype: object

Ich bin mit dtype wie bereits in der Antwort gibt. Es löst das problem nicht.
0.13.1 war nicht wortreich, Sie fallen zurück auf der python-parser, weil der usecols denke ich. und es wird stillschweigend ignoriert dtype. Versuchen Sie es mit 0.14.0 wird es a) Arbeit, IIRC, b) wird Sie warnen, wenn dies passiert ist (Sie können versuchen Sie zwingen den Motor mit engine='c', an welchem Punkt ich denke, es wird sich beschweren, (auch in 0.13.1)
0.13.1 nicht zu beanstanden, selbst mit einem expliziten engine='c'. Ich aktualisiert auf 0.14.1 und es funktioniert immer noch nicht, aber Sie sind richtig über Sie Warnung, warum. ValueError: Falling back to the 'python' engine because the 'c' engine does not support skip_footer, but this causes 'dtype' to be ignored as it is not supported by the 'python' engine. (Note the 'converters' option provides similar functionality.)
ok, ja, die Warnungen sind besser. eine weitere option ist ausdrücklich wirken, z.B. df['ORDER NO'] = df['ORDER NO'].astype(object) nach der Erstellung.
Ich brauche, um führende 0 da manchmal alles importiert als strings (wenn der KUNDE enthält X3615 zum Beispiel). Ich denke, ich kann nur df['CUSTOMER'] = df['CUSTOMER'].apply(lambda x: ('00000' + str(x))[-5:]) es sei denn, es gibt einen besseren Weg
Sie können die drop - skip_footer option und fallen aus dem Rahmen nach (obwohl dies könnte Ursache dtype Fragen selbst), könnte man auch pre-filter, um loszuwerden, der Fußzeile. als ein beiseite, Sie könnten dazu beitragen, die fehlenden Fragen! (die dtype fehlt die python-engine ist ziemlich einfach eigentlich)

InformationsquelleAutor Ripster | 2014-07-15

Pandas 0.13.1 stillschweigend ignoriert die dtype argument, weil die c engine nicht unterstützen skip_footer. Dies verursacht Pandas zu fallen zurück auf die python engine die nicht unterstützen dtype.

Lösung? Verwenden converters

df = pd.read_csv('SomeFile.csv', 
                 header=1,
                 skip_footer=1, 
                 usecols=[2, 3], 
                 converters={'CUSTOMER': str, 'ORDER NO': str},
                 engine='python')

Ausgabe:

In [1]: df.dtypes
Out[2]:
CUSTOMER    object
ORDER NO    object
dtype: object

In [3]: type(df['CUSTOMER'][0])
Out[4]: str

In [5]: df.head()
Out[6]:
  CUSTOMER ORDER NO
0    03106   253734
1    03156   290550
2    03175   262207
3    03175   262207
4    03175   262207

Führende 0 aus der ursprünglichen Datei bleiben erhalten und alle Daten werden als Zeichenfolgen gespeichert werden.

Wie kann ich mit Wandlern zu erreichen, die gleiche Sache, aber für alle Spalten und ohne Angabe jede Spalte name?

InformationsquelleAutor Ripster

7

Leider mit Konverter oder neuere pandas Versionen nicht lösen das eher Allgemeine problem immer dafür, dass read_csv nicht ableiten dtype float64. Mit pandas 0.15.2 die folgenden Beispiel-mit einer CSV mit integers in hexadezimaler Schreibweise mit NULL-Einträge, zeigt, dass die Verwendung von Konvertern für das, was der name bedeutet, dass Sie verwendet werden sollen, stört dtype-Spezifikation.
```
In [1]: df = pd.DataFrame(dict(a = ["0xff", "0xfe"], b = ["0xfd", None], c = [None, "0xfc"], d = [None, None]))
In [2]: df.to_csv("H:/tmp.csv", index = False)
In [3]: ef = pd.read_csv("H:/tmp.csv", dtype = {c: object for c in "abcd"}, converters = {c: lambda x: None if x == "" else int(x, 16) for c in "abcd"})
In [4]: ef.dtypes.map(lambda x: x)
Out[4]:
a      int64
b    float64
c    float64
d     object
dtype: object
```
Den angegebenen dtype des Objekts ist nur gewahrt, für den alle-NULL-Spalte. In diesem Fall, die float64-Werte können nur in Ganzzahlen konvertiert werden, aber durch die Taube-Loch-Prinzip, nicht alle 64-bit-Ganzzahlen dargestellt werden kann, wie ein float64.

Die beste Lösung, die ich gefunden habe für diesen allgemeineren Fall ist, um pandas zu Lesen potenziell problematischen Spalten als Zeichenketten, wie bereits abgedeckt, dann konvertieren Sie die Scheibe mit den Werten, die Umkehr brauchen (und nicht-mapping die Konvertierung von Spalte zu Spalte so, dass wird wieder resultiert in einer automatischen dtype = float64 Inferenz).
```
In [5]: ff = pd.read_csv("H:/tmp.csv", dtype = {c: object for c in "bc"}, converters = {c: lambda x: None if x == "" else int(x, 16) for c in "ad"})
In [6]: ff.dtypes
Out[6]:
a     int64
b    object
c    object
d    object
dtype: object
In [7]: for c in "bc":
   .....:     ff.loc[~pd.isnull(ff[c]), c] = ff[c][~pd.isnull(ff[c])].map(lambda x: int(x, 16))
   .....:
In [8]: ff.dtypes
Out[8]:
a     int64
b    object
c    object
d    object
dtype: object
In [9]: [(ff[c][i], type(ff[c][i])) for c in ff.columns for i in ff.index]
Out[9]:
[(255, numpy.int64),
 (254, numpy.int64),
 (253L, long),
 (nan, float),
 (nan, float),
 (252L, long),
 (None, NoneType),
 (None, NoneType)]
```
Soweit ich in der Lage gewesen, zu bestimmen, zumindest bis zur version 0.15.2 es gibt keine Möglichkeit zu vermeiden, Nachbearbeitung von string-Werten in Situationen wie dieser.

InformationsquelleAutor Rune Lyngsoe

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.