Wie konvertiert ein UTF-string mit skandinavischen Zeichen in ASCII?

Ich würde gerne konvertieren Sie diese Zeichenfolge

foo_utf = u'nästy chäräctörs with å and co.' # unicode

in diesem

foo_ascii = 'nästy chäräctörs with å and co.' # ASCII

Irgendeine Idee, wie man dies in Python (2.6)? Ich fand unicodedata Modul aber ich habe keine Ahnung, wie die transformation.

ascii nicht å ä ö und andere, wollen Sie etwas anderes, z.B. iso 8859-1(latin-1) oder utf-8 ?
Wahrscheinlich habe ich die Frage neu zu formulieren, ein bisschen. Ich lief in das Thema während der Entwicklung einer template-tag für Django. Ich bemerkte es funktioniert gut, wenn mit reguläre Zeichenfolgen, aber scheitert, während genau die gleichen unicode-string.
Ihre top-string ist nicht jede form von UTF. UTF unicode-Codierungen, das heißt, Sie sind Sequenzen von bytes, die unicode-Zeichen darstellen. Was Sie haben, ist eine unicode-Zeichenfolge, die eine Folge von Zeichen. Die Anzahl der bytes in jedem ist irrelevant, und es ist unmöglich zu bestimmen, von in python. Die Unterscheidung ist nicht bloße Pedanterie. Zu verstehen, was python macht mit Ihrem text wird Ihnen helfen, vermeiden Sie die lästigen Unicode{En,De}codeError s.

InformationsquelleAutor Juho Vepsäläinen | 2010-03-25

2

Dies ist wirklich eine Django-Frage, und nicht eine python-Version.
wenn die Zeichenfolge in eine der Ihren .py-Dateien, stellen Sie sicher, dass Sie die folgende Zeile am Anfang der Datei:
-*- coding: utf-8 -*-

darüber hinaus die Zeichenfolge muss vom Typ "unicode" (u'foobar')

Und dann stellen Sie sicher, dass Ihre html-Seite arbeitet in unicode:

<meta http-equiv="content-type" content="text/html;charset=utf-8" />

Dann sollte der ganze trick. Keine Kodierung/Decodierung etc. notwendig, so stellen Sie sicher, dass alles, was ist unicode, und Sie sind auf der sicheren Seite.
- Vielen Dank für die ausgezeichneten Hinweise. Konnte ich nachvollziehen, die Frage bis zu einen str Konvertierung in den code, brach es auseinander. Ich fand die Kommentare von anderen einfühlsam wie gut. 🙂
- Auch, tatsächlich speichern Sie die Datei in utf-8, damit es stimmt mit der Codierung Erklärung.
InformationsquelleAutor mawimawi
4

Ich glaube nicht, dass Sie können. Diese "nästy chäräctörs" kann nicht sein", kodiert als ASCII, also müssen Sie wählen Sie eine andere Kodierung (UTF-8 oder Latin-1 oder Windows-1252 oder so).
- Dies ist die wahre. ASCII enthält nur 127 Zeichen lang sein und keines mit diakritischen Zeichen. Es ist möglich, es zu konvertieren zu ANSI-wenn Sie wählen Sie die korrekte code-Seite. In jedem Fall ist es am besten zu bleiben, mit Unicode, es sei denn, Sie haben keine andere Wahl.
- Danke. Das ist ein guter Punkt. Ich vergaß Total über, die. 🙂
InformationsquelleAutor Will McCutchen

Versuchen die encode - Methode von string.

>>> u'nästy chäräctörs with å and co.'.encode('latin-1')
'n\xe4sty ch\xe4r\xe4ct\xf6rs with \xe5 and co.'

InformationsquelleAutor Eli Bendersky

Gibt es mehrere Optionen in der codecs - Modul in python stdlib, je nachdem, wie Sie wollen, die erweiterte Zeichen behandelt:

>>> import codecs
>>> u = u'nästy chäräctörs with å and co.'
>>> encode = codecs.get_encoder('ascii')
>>> encode(u) 
'
Traceback (most recent call last):
  File "<stdin>", line 1, in ?
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe4' in position 1: ordinal not in range(128)
>>> encode(u, 'ignore')
('nsty chrctrs with  and co.', 31)
>>> encode(u, 'replace')
('n?sty ch?r?ct?rs with ? and co.', 31)
>>> encode(u, 'xmlcharrefreplace')
('n&#228;sty ch&#228;r&#228;ct&#246;rs with &#229; and co.', 31)
>>> encode(u, 'backslashreplace')
('n\\xe4sty ch\\xe4r\\xe4ct\\xf6rs with \\xe5 and co.', 31)

Hoffentlich einer von denen die Ihren Bedürfnissen gerecht wird. Es gibt mehr Informationen, die in der Python-codecs-Modul-Dokumentation.

InformationsquelleAutor jcdyer

2

Können Sie auch das Modul unicodedata (http://docs.python.org/library/unicodedata.html) in python zu konvertieren eine Menge der unicode-Werte in eine Ascii-Variante. IE fix die verschiedenen "s und so. Follow-up durch die encode () - Methode, und Sie können ganz sauber bis ein string.

Die Methode, die Sie vor allem, was aus der unicodedata ist normalisieren auf und übergeben Ihr die NFKC-flag.

InformationsquelleAutor NerdyNick

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.