Python UTF-8-Vergleich

a = {"a":"çö"}
b = "çö"
a['a']
>>> '\xc3\xa7\xc3\xb6'

b.decode('utf-8') == a['a']
>>> False

Was ist Los in da?

edit= tut mir Leid, es war mein Fehler. Es ist immer noch Falsch. Ich bin mit Python 2.6 unter Ubuntu 10.04.

InformationsquelleAutor der Frage erkangur | 2010-08-03

28

Mögliche Lösungen

Entweder schreiben wie dieses:
```
a = {"a": u"çö"}
b = "çö"
b.decode('utf-8') == a['a']
```
Oder so (Sie können auch überspringen Sie die .decode('utf-8') auf beiden Seiten):
```
a = {"a": "çö"}
b = "çö"
b.decode('utf-8') == a['a'].decode('utf-8')
```
Oder so (meine Empfehlung):
```
a = {"a": u"çö"}
b = u"çö"
b == a['a']
```
Erklärung

Aktualisiert, basierend auf Tim ' s Kommentar. In deinem ursprünglichen code b.decode('utf-8') == u'çö' und a['a'] == 'çö'Sie sind also eigentlich macht der folgende Vergleich:
```
u'çö' == 'çö'
```
Eines der Objekte vom Typ unicodedie andere ist der Typ strso dass bei der Ausführung des Vergleichs, die str umgewandelt unicode und dann die beiden unicode Objekte verglichen werden. Es funktioniert gut in den Fall rein ASCII-strings, z.B.: u'a' == 'a'da unicode('a') == u'a'.

Jedoch nicht im Falle von u'çö' == 'çö'da unicode('çö') gibt die folgende Fehlermeldung zurück: UnicodeDecodeError: 'ascii' codec can T decode byte 0xc3 in position 0: ordinal not in range(128)und daher der ganze Vergleich False zurück, und Sie erhalten die folgende Warnung: UnicodeWarning: Unicode equal comparison failed to convert beide Argumente in Unicode - interpretieren Sie als ungleiche.

InformationsquelleAutor der Antwort Bolo
5

b ist ein stringa ist ein dict

Du willst (glaube ich):

b == a['a']

InformationsquelleAutor der Antwort NullUserException
3

UTF-8 ist eine Codierung verwendet, um Datensatz-Unicode-text-Dateien. Allerdings in Python werden Sie mit Objekten arbeiten, die haben eine Feste Methode zur Darstellung von Unicode-text, und dieser Weg ist nicht UTF-8.

Können Sie immer noch vergleichen Sie Unicode-strings in Python, aber das ist nicht UTF-8, mit der Ausnahme, dass, wenn Sie wollen, um Konstanten in diese Unicode-strings sind, dann müssen Sie codieren den text aus der Datei mit source-code in UTF-8. Sobald der Zuweisungsoperator ausgeführt wird, wird die Zeichenfolge nicht mehr UTF-8, aber jetzt ist das Python-interne Darstellung.

Durch die Art und Weise, wenn Sie dabei sind, Vergleiche mit Unicode, werden Sie wahrscheinlich wollen, verwenden Sie das Modul unicodedata und normalisieren Sie die Saiten, bevor die Vergleiche durchgeführt werden.

InformationsquelleAutor der Antwort Michael Dillon
2

Versuchen
b = = ['a']

InformationsquelleAutor der Antwort PaulMcG
2

Du vergleichst einen string, ein dict.
```
>>> a = {"a":"çö"}
>>> b = "çö"
>>> a == b
False
>>> a['a'] == b
True
```
Vergleicht man die saite (b), die Mitglied eines (a['a']), dann erhalten Sie das gewünschte Ergebnis.

InformationsquelleAutor der Antwort brennie
0

Stellen Sie sicher, dass Ihr code in UTF-8 (NICHT-Latin-1) und/oder die Verwendung eines coding-Zeile etwa so:
```
#! /usr/bin/python
# -*- coding: utf-8 -*-
a = {"a": u"çö"}
b = "çö"
assert b == a['a']
assert b.decode('utf-8') == a['a'].decode('utf-8')
```
Wenn Sie die Verwendung von unicode auf der ganzen Linie, die Sie importieren können unicode_literals aus der Zukunft, und um wieder auf Codierung Kummer:
```
#! /usr/bin/python
# -*- coding: utf-8 -*-
from __future__ import unicode_literals
a = {"a": u"çö"}
b = "çö"
assert b == a['a']
assert b == a['a']
assert b.encode('utf-8') != a['a']
assert b.encode('utf-8') == a['a'].encode('utf-8')
```
Wenn eine Datei verwendet unicode_literals, alle "strings" werden jetzt u"unicode" - Objekte (gemäß der Codierung der Datei), wenn Sie nicht b"vorangestellt" mit einem b (Emulation der string/bytes gesplittet in Python 3.X).

InformationsquelleAutor der Antwort Jason Scheirer
0

NullUserException ist richtig, dass diese korrekt sein sollten:
```
b == a['a']
```
Du bist noch immer "Falsche", weil man die Dekodierung der einen Seite als utf-8 (eine Unicode-Zeichenfolge), während die andere Seite bleibt eine utf-8-kodierten byte-string.

InformationsquelleAutor der Antwort chryss

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Mögliche Lösungen

Erklärung