Pandas csv-import: Führe führende Nullen in einer Spalte

Bin ich importieren Studie Daten in einem Pandabären-Daten-frame mit read_csv.

Mein Thema-codes sind 6-zahlen-Codierung, unter anderem der Tag der Geburt. Für einige meiner Untertanen dies führt zu einem code mit einer führenden null (z.B. "010816").

Wenn ich den import in Pandas, die führende null entfernt wird und die Spalte ist formatiert als int64.

Gibt es eine Möglichkeit, den import dieser Spalte unverändert, vielleicht ein string?

Versuchte ich mit einem benutzerdefinierten Konverter für die Spalte, aber es funktioniert nicht - es scheint, als ob die benutzerdefinierte Konvertierung findet statt, bevor Pandas konvertiert zu int.

InformationsquelleAutor der Frage user1802883 | 2012-11-06

Wie in diese Frage/Antwort von Lev Landaukönnte es eine einfache Lösung zu verwenden converters option für eine bestimmte Spalte in read_csv Funktion.

converters={'column_name': lambda x: str(x)}

Finden Sie unter mehr Optionen read_csv funtion in pandas.io.Parser.read_csv Dokumentation.

Können sagen, ich habe csv-Datei projects.csv wie unten:

project_name,project_id
Some Project,000245
Another Project,000478

Wie zum Beispiel code unten ist triming führende Nullen:

import csv
from pandas import read_csv

dataframe = read_csv('projects.csv')
print dataframe

Ergebnis:

me@ubuntu:~$ python test_dataframe.py 
      project_name  project_id
0     Some Project         245
1  Another Project         478
me@ubuntu:~$

Lösung code-Beispiel:

import csv
from pandas import read_csv

dataframe = read_csv('projects.csv', converters={'project_id': lambda x: str(x)})
print dataframe

Gewünschte Ergebnis:

me@ubuntu:~$ python test_dataframe.py 
      project_name project_id
0     Some Project     000245
1  Another Project     000478
me@ubuntu:~$

InformationsquelleAutor der Antwort baltasvejas

10

hier ist eine kürzere, robuste und voll funktionsfähige Lösung:

definiere einfach eine Zuordnung (Wörterbuch) zwischen Variablen-Namen und die gewünschten Daten Typ:
```
dtype_dic= {'subject_id': str, 
            'subject_number' : 'float'}
```
verwenden, die Zuordnung mit pd.read_csv():
```
df = pd.read_csv(yourdata, dtype = dtype_dic)
```
et voila!

InformationsquelleAutor der Antwort ℕʘʘḆḽḘ
0

Ich glaube nicht, können Sie eine Spalte angeben, geben Sie die Art und Weise, die Sie möchten (wenn es nicht verpasst reciently und wenn der 6-stelligen Nummer ist nicht ein Datum, können Sie in datetime konvertiert). Sie könnten versuchen, mit np.genfromtxt() und erstellen die DataFrame von dort.

EDIT: werfen Sie einen Blick auf Wes Mckinney ' s bloges könnte etwas für Sie sein. Es scheint, dass es ist ein neuer parser vom pandas 0.10 kommt im November.

InformationsquelleAutor der Antwort root

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.