Pandas read_csv erwartet, dass falsche Anzahl von Spalten, mit zerlumpten csv-Datei

Ich habe eine csv-Datei, die ein paar hundert Zeilen und 26 Spalten, aber die letzten Spalten nur einen Wert in ein paar Zeilen und Sie werden in Richtung der Mitte oder am Ende der Datei. Wenn ich versuche, es zu Lesen bei der Verwendung read_csv() bekomme ich die folgende Fehlermeldung.
"ValueError: Erwarte 23 Spalten, got 26, in Zeile 64"

Ich kann nicht sehen, wo Sie ausdrücklich die Anzahl der Spalten in der Datei, oder, wie es bestimmt, wie viele Spalten es denkt, die Datei haben sollte.
Die Deponie ist unter

In [3]:

infile =open(easygui.fileopenbox(),"r")
pledge = read_csv(infile,parse_dates='true')


---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-3-b35e7a16b389> in <module>()
      1 infile =open(easygui.fileopenbox(),"r")
      2 
----> 3 pledge = read_csv(infile,parse_dates='true')


C:\Python27\lib\site-packages\pandas-0.8.1-py2.7-win32.egg\pandas\io\parsers.pyc in read_csv(filepath_or_buffer, sep, dialect, header, index_col, names, skiprows, na_values, thousands, comment, parse_dates, keep_date_col, dayfirst, date_parser, nrows, iterator, chunksize, skip_footer, converters, verbose, delimiter, encoding, squeeze)
    234         kwds['delimiter'] = sep
    235 
--> 236     return _read(TextParser, filepath_or_buffer, kwds)
    237 
    238 @Appender(_read_table_doc)

C:\Python27\lib\site-packages\pandas-0.8.1-py2.7-win32.egg\pandas\io\parsers.pyc in _read(cls, filepath_or_buffer, kwds)
    189         return parser
    190 
--> 191     return parser.get_chunk()
    192 
    193 @Appender(_read_csv_doc)

C:\Python27\lib\site-packages\pandas-0.8.1-py2.7-win32.egg\pandas\io\parsers.pyc in get_chunk(self, rows)
    779             msg = ('Expecting %d columns, got %d in row %d' %
    780                    (col_len, zip_len, row_num))
--> 781             raise ValueError(msg)
    782 
    783         data = dict((k, v) for k, v in izip(self.columns, zipped_content))

ValueError: Expecting 23 columns, got 26 in row 64

Danke Roman, ich war in der Mitte, herauszufinden, wie um Sie lesbarer zu machen, mich und Sie, mich zu schlagen. 🙂
np, über Ihre Frage, Sie haben-header in der Datei?
Nein, keine header, der so aussieht, oder die Antwort unten wäre der Weg zu gehen.

InformationsquelleAutor chrisfs | 2013-11-22

Können Sie names parameter. Zum Beispiel, wenn Sie die csv-Datei wie folgt:

1,2,1
2,3,4,2,3
1,2,3,3
1,2,3,4,5,6

Und versuchen Sie, es zu Lesen, die Sie erhalten und Fehler

>>> pd.read_csv(r'D:/Temp/tt.csv')
Traceback (most recent call last):
...
Expected 5 fields in line 4, saw 6

Aber wenn Sie passieren names Parameter, erhalten Sie das Ergebnis:

>>> pd.read_csv(r'D:/Temp/tt.csv', names=list('abcdef'))
   a  b  c   d   e   f
0  1  2  1 NaN NaN NaN
1  2  3  4   2   3 NaN
2  1  2  3   3 NaN NaN
3  1  2  3   4   5   6

Hoffe, es hilft.

InformationsquelleAutor Roman Pekar

4

können Sie auch laden Sie die CSV mit Trennzeichen '^', laden Sie die gesamte Zeichenfolge in eine Spalte, dann benutzen Sie die split zu brechen, die Schnur in die erforderliche Trennzeichen. Danach haben Sie eine concat-verschmelzen mit dem ursprünglichen dataframe (falls erforderlich).
```
temp=pd.read_csv('test.csv',sep='^',header=None,prefix='X')
temp2=temp.X0.str.split(',',expand=True)
del temp['X0']
temp=pd.concat([temp,temp2],axis=1)
```
InformationsquelleAutor arjepak

Angenommen, Sie haben eine Datei wie diese:

a,b,c
1,2,3
1,2,3,4

Könnten Sie csv.reader reinigen Sie zuerst die Datei

lines=list(csv.reader(open('file.csv')))    
header, values = lines[0], lines[1:]    
data = {h:v for h,v in zip (header, zip(*values))}

und erhalten:

{'a' : ('1','1'), 'b': ('2','2'), 'c': ('3', '3')}

Wenn Sie nicht über header, die Sie verwenden könnten:

data = {h:v for h,v in zip (str(xrange(number_of_columns)), zip(*values))}

dann können Sie konvertieren Wörterbuch dataframe mit

import pandas as pd
df = pd.DataFrame.from_dict(data)

wenn Sie die header-Zeile, die Sie verwenden können csv.DictReader

InformationsquelleAutor yemu

0

Das problem mit der gegebenen Lösung ist, dass Sie haben, um zu wissen, die maximale Anzahl von Spalten erforderlich. Ich konnte Sie nicht finden, eine direkte Funktion für dieses problem, aber man kann sicherlich schreiben Sie eine def kann:
1. Lesen Sie alle Zeilen
2. teilen Sie es
3. die Anzahl der Wörter/Elemente in jeder Zeile
4. speichern max Anzahl der Wörter/Elemente
5. Ort, der max-Wert in der option Namen (vorgeschlagen von Roman Pekar)
Hier ist die def (Funktion) schrieb ich für meine Dateien:
```
def ragged_csv(filename):
    f=open(filename)
    max_n=0
    for line in f.readlines():
        words = len(line.split(' '))
        if words > max_n:
            max_n=words
    lines=pd.read_csv(filename,sep=' ',names=range(max_n))
    return lines
```
In meinem speziellen Fall konnte ich die max Anzahl der Spalten, aber das kann nützlich sein, wenn Sie mit externen Daten, wo das nicht sofort verfügbar.

InformationsquelleAutor Abhinav Yadav

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.