Pandas - Schreiben Sie eine excel-Datei mit unicode - IllegalCharacterError
Ich habe den folgenden code:
import pandas as pd
x = [u'string with some unicode: \x16']
df = pd.DataFrame(x)
Wenn ich versuche, das zu schreiben dataframe als excel-Datei:
df.to_excel("test.xlsx")
Oder, wenn ich versuche, das zu schreiben dataframe wie eine excel-Datei mit utf-8-Codierung:
ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
df.to_excel(ew)
Bekomme ich die folgende Fehlermeldung:
IllegalCharacterError Traceback (most recent call last)
<ipython-input-4-62adec25ae8d> in <module>()
1 ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
2 #df.to_excel("test.xlsx")
----> 3 df.to_excel(ew)
/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs)
86 else:
87 kwargs[new_arg_name] = new_arg_value
---> 88 return func(*args, **kwargs)
89 return wrapper
90 return _deprecate_kwarg
/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in to_excel(self, excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, startcol, engine, merge_cells, encoding, inf_rep)
1258 formatted_cells = formatter.get_formatted_cells()
1259 excel_writer.write_cells(formatted_cells, sheet_name,
-> 1260 startrow=startrow, startcol=startcol)
1261 if need_save:
1262 excel_writer.save()
/usr/local/lib/python2.7/dist-packages/pandas/io/excel.pyc in write_cells(self, cells, sheet_name, startrow, startcol)
679 colletter = get_column_letter(startcol + cell.col + 1)
680 xcell = wks.cell("%s%s" % (colletter, startrow + cell.row + 1))
--> 681 xcell.value = _conv_value(cell.val)
682 style_kwargs = {}
683
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in value(self, value)
360 def value(self, value):
361 """Set the value and infer type and display options."""
--> 362 self._bind_value(value)
363
364 @property
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in _bind_value(self, value)
269 elif self.guess_types:
270 value = self._infer_value(value)
--> 271 self.set_explicit_value(value, self.data_type)
272
273
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in set_explicit_value(self, value, data_type)
235 raise ValueError('Invalid data type: %s' % data_type)
236 if isinstance(value, STRING_TYPES):
--> 237 value = self.check_string(value)
238 self._value = value
239 self.data_type = data_type
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in check_string(self, value)
220 value = value[:32767]
221 if next(ILLEGAL_CHARACTERS_RE.finditer(value), None):
--> 222 raise IllegalCharacterError
223 return value
224
IllegalCharacterError:
Wie kann ich schreiben, ein pandas dataframe mit unicode in eine excel-Datei?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Nicht ein Unicode-Problem als solches...
\x16
(oder in Unicode-Zeichenfolgen\u0016
bezieht sich auf die gleichen Zeichen) ASCII-code 22 (SYN). Pandas sagt es ist ungültig, Kontrolle zu haben-codes (andere als tab und Zeilenumbruch) in eine Excel-Datei, und obwohl ich nicht viel Ahnung von Excel-Dateien wäre es sicherlich unmöglich, um Sie in eine XML-1.0-Datei, die ist, was in eine xlsx.So sind die meisten wahrscheinlich gibt es keine Lösung, um beliebige Zeichenfolgen (mit control-codes) in eine Excel. Sollten Sie auszufiltern, bevor Sie schreiben, oder wenn Sie wirklich brauchen, um die Erhaltung der ursprünglichen Daten verwenden irgendeine form von ad-hoc-Codierung erkannt, nur durch Ihre Anwendung.
Das gleiche problem mit mir passiert. Ich löste es wie folgt:
Erste, installieren Sie python-Paket xlsxwriter:
Zweite, ersetzen Sie die Standard-engine 'openpyxl' mit 'xlsxwriter':
Damit entfernen Sie alle Fehler, die Sie möglicherweise bekommen werden. Sie können speichern, um die excel-poste diese.
Ich weiß nicht, diese Besondere Sprache, aber in der Regel gibt es eine Fehlermeldung mit excel und UTF8. Wenn Sie öffnen Sie einfach eine Datei in UTF8-Zeichen mit excel-ein Programm, wird es beschädigt Sie (es scheint nicht, um alle bits in den Charakter, sondern schneidet Sie tatsächlich die ersten 2 und letzten 2 hex-zahlen von den 8 Anwesenden in die erweiterte Zeichen).
Einer Arbeit um, die zum laden einer utf-Datei korrekt in excel ist das Programm erhalten, legen Sie ein makro in der excel-Tabelle, nachdem Sie geladen haben, ist es, die importiert die Daten. Ich habe einige code, um dies zu tun, in C#, wenn das keine Hilfe?
tut Ihre Eingabe enthält keine erweiterten Zeichen (d.h. àâäçæèëéêìïîñòöôœûüùÿÀÂÄÇÆÈËÉÊÌÏîñòöôœûüùÿ) und wenn Sie nehmen Sie Sie heraus, funktioniert es?
x = [u'string with some unicode: \u03BB']
was ist das lambda-Zeichen, ist alles in Ordnung. In der Tat alle Zeichen, beginnend mit '\u' ist in Ordnung, aber alle Zeichen, beginnend mit "\x " ein problem verursacht. Vielleicht Zeichen, beginnend mit '\x' sind nicht unicode?Wenn ich auf diesen Fehler stoßen, normalerweise gehe ich um ihn herum, indem Sie die Datei auf einen
'.csv
statt'.xlsx'
- Dateien.Also anstatt
Ich tun würde:
Scheint es, den Weg
pandas
dekodiert.csv
- Dateien standardmäßig ist:Auf der anderen Seite Standard-Kodierung von
.xlsx
Dateien:Dieser Unterschied ist verantwortlich für diesen Fehler. Sie erhalten dann auch die Fehler beim schreiben von Daten mit strings, die beginnen mit
-
oder+
zu einem.xlsx
Datei.