Was ist die pythonic way zu Lesen CSV-Datei Daten als Reihen von namedtuples?

Was ist der beste Weg, um eine Daten-Datei enthält eine header-Zeile und Lesen Sie diese Zeilen in eine named Tupel, so dass die Daten-Zeilen können aufgerufen werden, indem Sie header-Namen?

Ich war versucht, so etwas wie dieses:

import csv
from collections import namedtuple

with open('data_file.txt', mode="r") as infile:
    reader = csv.reader(infile)
    Data = namedtuple("Data", ", ".join(i for i in reader[0]))
    next(reader)
    for row in reader:
        data = Data(*row)

Das reader-Objekt ist nicht subscriptable, so dass der obige code löst eine TypeError. Was ist die pythonic way-Leser-eine-Datei-header in eine namedtuple?

InformationsquelleAutor drbunsen | 2012-01-25

37

Verwenden:
```
Data = namedtuple("Data", next(reader))
```
weglassen und die Zeile:
```
next(reader)
```
Kombinieren Sie dies mit einer iterative version, basierend auf martineau ' s Kommentar, das Beispiel wird für Python 2
```
import csv
from collections import namedtuple
from itertools import imap

with open("data_file.txt", mode="rb") as infile:
    reader = csv.reader(infile)
    Data = namedtuple("Data", next(reader))  # get names from column headers
    for data in imap(Data._make, reader):
        print data.foo
        # ...further processing of a line...
```
und für Python 3
```
import csv
from collections import namedtuple

with open("data_file.txt", newline="") as infile:
    reader = csv.reader(infile)
    Data = namedtuple("Data", next(reader))  # get names from column headers
    for data in map(Data._make, reader):
        print(data.foo)
        # ...further processing of a line...
```
- drbunsen: Nachdem auf diese Weise können Sie ändern die Verarbeitungs-Schleife zu: for data in map(Data._make, reader):.
- Ich änderte Ihr Bearbeiten ein wenig.
- Was ist, wenn die csv-Daten fehlt ein header? Gibt es eine Möglichkeit, vergeben Sie einen Namen für eine Spalte? (Wenn die CSV-Daten fehlt ein namens-header, und Sie zuweisen möchten, in der Spalte Namen, dann sieht es aus wie mir meine einzige option ist es zu Lesen als eine Abfolge von Wörterbüchern).
- Ich weiß wirklich nicht verstehen, Ihren Kommentar. Wenn Sie möchten, Lesen Sie die CSV-Datei als eine Reihe von Wörterbüchern, Sie müssten auch noch die Spaltennamen als Schlüssel, wo ist also der Unterschied? Wenn Sie verwenden möchten namedtuples kann man einfach erklären, die namedtuple Typ statisch mit festen Feldnamen statt next(reader). Der rest des Codes bleibt die gleiche.
- Ich habe Ihre änderung rückgängig gemacht, weil der resultierende code falsch war, sowohl für Python 2 und Python 3. In Python 2, mode="rb" erforderlich ist, während in Python 3 newline="" erforderlich ist.
- du hast Recht, zum schreiben aber nicht zum Lesen. Machen Sie den test, Sie werden sehen. newline="" ist nur nützlich für einige alte Versionen von python 3, die insert 1 Leerzeile nach jeder Zeile (das gleiche gilt für die neuesten releases 2.7 wo "rb" ist nicht erforderlich. Überprüfen Sie meine F&A: "stackoverflow.com/questions/38808284/... und testen Sie es selbst. open("data_file.txt") (beim Lesen) funktioniert für jede version von python. Schreiben ist etwas anderes, aber scheint ok zu sein, ohne Zeilenumbruch oder wb in späteren Versionen von entweder 2 oder 3 Zweig.
- Kann ich nicht ausprobieren, da ich keinen Zugang zu einer Plattform, wo b tatsächlich einen Unterschied macht, und ich glaube nicht, dass es notwendig ist. Sowohl das neueste Python 2 und Python 3 Dokumentationen für die csv Modul Staat diese Anforderungen, so dass selbst wenn Sie fand, dass es passiert zu arbeiten auf einigen Plattformen für einige Eingänge, die Sie immer noch mit der API in eine nicht dokumentierte Möglichkeit, die brechen könnte, jederzeit.
- du hast Recht bezüglich der Dokumentation. Kann ich Sie bitten, einige Fragen zu diesem manchmal. Raymond Hettinger lauert auf, SO kann er sich einige sagen.
- Ich denke, besser wird es zu verwenden lambda hier, anstelle von protected-Methode: map(lambda i: Data(*i), reader)
- Die Methode ist nicht tatsächlich privat. Zitat aus der Dokumentation: "um Zu verhindern, dass Konflikte mit den Feldnamen, die Methode und Attribut-Namen beginnen mit einem Unterstrich." Und mit map() mit lambda ist verpönt in Python. Es ist unnötig langsam und besser ausgedrückt als eine Liste Verständnis.
- Gibt es eine effiziente Möglichkeit zur Angabe von Datentypen für die hier gelesen? Alles scheint zu kommen, durch die als Zeichenfolge für mich.
- Die einfachste Lösung ist die Verwendung der pandas CSV-reader statt aus der standard-Bibliothek. Wenn Sie verwenden möchten, die von der standarad lib, können Sie manuell konvertieren Sie die Daten, z.B. converters = [int, str, float]; row = [conv(x) for conv, x in zip(converters, row)]. Benötigen Sie eine Fehlerbehandlung, natürlich.
InformationsquelleAutor Sven Marnach
23

Bitte haben Sie einen Blick auf csv.DictReader. Im Grunde, es bietet die Möglichkeit zu bekommen, werden die Spaltennamen aus der ersten Zeile, wie Sie suchen und, danach, Sie können auf jede Spalte in eine Zeile von Namen mit einem Wörterbuch.

Wenn Sie aus irgendeinem Grund immer noch zugreifen zu können, müssen die Zeilen wie ein collections.namedtuple es sollte leicht zu transformieren die Wörterbücher benannten Tupel wie folgt:
```
with open('data_file.txt') as infile:
    reader = csv.DictReader(infile)
    Data = collections.namedtuple('Data', reader.fieldnames)
    tuples = [Data(**row) for row in reader]
```
- Problem bei dieser Lösung ist, dass jede Zeile wird in ein Wörterbuch, und dann in der benannten Tupel. Wirkungslos, wenn die intermediate dictionary ist nicht erforderlich.
- Diese nicht erhalten bleiben, um, so dass die erste Spalte in der csv wird zufällig eines in Ihrem namedtuple. An diesem Punkt könnte genauso gut verwenden ein dict.
InformationsquelleAutor jcollado

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.