Python: How to compare unicode unicode in variable

GELÖST

Habe ich das problem gelöst, vielen Dank allen für Ihre Zeit.

Erstens, dies sind die Anforderungen:

Der Vergleich MUSS werden innerhalb der Variablen. (Vergleichen Sie 2 Variablen enthalten, die unicode)
Die version von Python MUSS 2 sein.x , ich weiß, die version 3 hat das problem gelöst, aber leider funktioniert es nicht bei mir.

Also Hallo, ich habe einen bot programmiert in python und ich möchte es vergleichen 2 nicht-englische Buchstaben (unicode).

Das problem, das ich habe, ist, die Buchstaben MÜSSEN innerhalb der Variablen, so kann ich nicht verwenden:

u'letter'

Beiden Briefe, die ich vergleichen möchte MUSS werden innerhalb der Variablen.

Habe ich versucht:

buchstabe1 == buchstabe2 darstellen

es zeigt diese Fehlermeldung:
E:\bots\KiDo\KiDo.py:23: UnicodeWarning: Unicode equal comparison failed to convert beide Argumente in Unicode - interpretieren Sie als ungleiche
import sys

und immer False zurück, auch die 2 Buchstaben sind die gleichen.
Also ich denke, es bedeutet, dass ich den Vergleich 2-unicode-letters.

Und ausprobiert:

Brief = unicode(Brief)

aber es zeigt diese Fehlermeldung:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd9 in position 0: ordinal not in range(128)

Ich habe gesucht alle über Google, aber alles was ich finden konnte ist, mit u'", aber dieses funktioniert nicht mit der Variablen.

Danke.

Vergleich Code:

word1 = parameters.split()[0]
word2 = parameters.split()[1]
word3 = parameters.split()[2]
word4 = parameters.split()[3]
word5 = parameters.split()[4]
if word1[0] == letter:
    if word2[0] == letter:
        if word3[0] == letter:
            if word4[0] == letter:
                if word5[0] == letter:
                    reply(type, source,u'True')

ich bin nicht sicher, ob ich ganz Folgen, aber vielleicht ist diese lib kann helfen, pypi.python.org/pypi/Unidecode
sind Sie sicher, dass bei der Verwendung letter1 == letter2 zeigt es falsch immer ? sind Sie wirklich gleich?
Was ist die Codierung, die verwendet wird?
Sieht aus wie Sie können nicht wirklich unicode-strings auf beiden Seiten. Print(Typ(buchstabe1)) oder was auch immer für mehr info. Denken Sie daran, dass UTF-8 von der großen Welt draußen hat dekodiert werden - text.decode('utf-8'), bevor es unicode. Darüber hinaus-code, den Sie einfügen, um zwischen den terminals und-Editoren können in eher unberechenbar Codierungen, so lehnen stark auf den Typ() prüfen. Schließlich, Ihr Ausgang wird gesetzt werden müssen, wieder in UTF8, sagen print(text.encode('utf-8')) ausgegeben werden. Versuchen Sie zu vermeiden, dass UTF-8-text lose im python2-Programm, verursacht das Kummer.
Tut mir Leid, aber diese lib ist die gleiche wie bei allen anderen Lösungen, es handelt sich nicht um Variablen, was ich will, ist zu machen Sie eine Liste, wählen Sie ein Element nach dem Zufallsprinzip, legte es in eine variable, dann vergleichen Sie es mit unicode.
Ja, ich bin mir 100% sicher, Sie sind die gleichen, weil ich den bot drucken beide Briefe & Sie sind die gleichen, aber es zeigt immer noch einen Fehler mit dem Vergleich.
was ist deine python-version ?
Ich bin im Umgang mit arabischen Buchstaben, soweit ich weiß, gelten Sie als unicode, und ich bin nicht ein problem mit der Ausgabe, die Ausgabe zeigt Arabische Buchstaben ohne Verlust oder Müll, das problem ist nur der Vergleich.
2.7 es ist die beste version der 2.x um mit mir zu arbeiten, ich habe versucht, all die anderen.
Ich bitte um Verzeihung?
wie Sie vergleichen ? pls fügen Sie Ihre versuchen, code zu Fragen !
dies ist der Vergleich den code, und ich kann nach den ganzen code, wenn Sie möchten.
also, welche Variablen Sie wurden im Vergleich in diesem code ? was reply Funktion ?
was ist der Parameter ? und wie Sie wissen, wort1[0] == Buchstabe ist ein unicode-Vergleich ? wenn Ihr meine ?
der Brief ist eine zufällig gewählte Buchstaben aus einer Liste, während wort1,2,3,4,5 sind Wörter, die durch den Benutzer eingegeben, so wird der Vergleich zwischen dem Inhalt der Variablen Buchstaben und der erste Buchstabe der Eingabe des Benutzers. Antwort-Funktion ist genau wie die print-Funktion, wenn das Ergebnis dieses Vergleichs ist Ture, dann wird der bot senden Sie mir eine Nachricht Wahr ist, oder anders, es wird auch weiterhin den rest des Codes.
Parameter ist der Befehl, der Benutzer sendet bot. ich.e: Befehl parm1 parm2 parm3 parm4 parm5. so, wort1 = Parameter.split()[0] , weisen parm1 zu wort1. und ich bin mir sicher, dass wort1[0] == Buchstabe ist ein unicode-Vergleich, weil ich den bot senden Sie mir den Inhalt wort1[0] & Buchstaben, und Sie sind die gleichen, aber es zeigt immer noch einen Fehler mit dem Vergleich.
in diesem Fall haben Sie 5 geschachtelte for-Schleife, die, wenn Sie false ist, wird der code nicht weiter!!! ich havnt keine Idee ! nur poste ich die Antwort zu sehen, was die out put von meinem code ! wie diese !

InformationsquelleAutor KiDo | 2014-09-14

3

Look, der Buchstabe ç (ein char, der nicht in ASCII) kann dargestellt werden als ein str-Objekt oder als unicode-Objekt (vielleicht sind Sie ein wenig verwirrt über das, was unicode bedeutet).

Auch, wenn Sie versuchen, erstellen Sie eine unicode-Objekt, die nicht im ASCII-Tabelle, müssen Sie passieren eine andere Kodierung Tabelle:
```
unicode('ç')
```
Dieser löst ein UnicodeDecodeError weil 'ç' ist nicht in ASCII, sondern
```
unicode('ç', encoding='utf-8')
```
arbeiten, weil 'ç' vorgestellt, die in UTF-8-Kodierung Tabelle (als Ihre arabischen Buchstaben).

Vergleichen kann man unicode-Objekte mit unicode-Objekte die gleiche Weise können Sie vergleichen, str Objekte mit str-Objekte, und all das muss funktionieren.

Können, können Sie auch vergleichen, ein str-Objekt mit unicode-Objekt, aber das ist fehleranfällig, wenn Sie vergleichen, die nicht-ASCII-Zeichen: 'ç' als str '\xc3\xa7', sondern als unicode-es ist nur '\xe7' (False zurückgeben, in einem Vergleich).

Also @Karsa kann wirklich sein Recht. Das problem mit der 'Variablen' (in Python, ein besseres Wort ist-Objekte). Sie müssen bestätigen, dass Sie den Vergleich nur str oder nur unicode-Objekte.

So, einen besseren code könnte sein:
```
#-*- coding: utf-8 -*-

def compare_first_letter(phrase, compare_letter):
    # making all unicode objects, with utf-8 codec
    compare_letter = unicode(compare_letter,encoding='utf-8')
    phrase = unicode(phrase,encoding='utf-8')
    # taking the first letters of each word in phrase
    first_letters = [word[0] for word in phrase.split()]
    # comparing the  first letters with the letter you want
    for letter in first_letters:
        if letter != compare_letter:
            return False
    return True # or your reply function

letter = 'ç'
phrase_1 = "one two three four"
phrase_2 = "çarinha çapoca çamuca"

print(compare_first_letter(phrase_1,letter))
print(compare_first_letter(phrase_2,letter))
```
- Obwohl ich bin mehr sicher, dass ein unicode mehr, das str-Objekt, aber ich habe bearbeitet den code und das Taten, was Sie Taten, Brief = unicode(Brief, encoding='utf-8') wort1 = Parameter.split()[0] wort2 = Parameter.split()[1] wort1 = unicode(wort1, encoding='utf-8') wort2 = unicode(wort1, encoding='utf-8') nun zeigt die Ausführung diesen Fehler: TypeError: decoding Unicode wird nicht unterstützt.
InformationsquelleAutor ppalacios
0

dies ist mein Versuch base auf jede Sache, die Sie sagen :
```
>>> b=u'letter'
>>> a=u'letter'
>>> a==b
True
>>> a=u'letter2'
>>> a==b
False
```
so, ich bin sicher, dass es ein problem mit der Variablen ! ich schlage vor Sie vergleichen Sie versuchen, diese zu drucken ! um zu sehen, was unter der Variablen !
- Ich habe alle drucken die Variablen, und Sie sind alle gleich, also im Grunde, es MUSS return True, aber es muss etwas falsch mit dem Vergleich, das ist, warum es ist, False zurückgeben.
- Wenn Sie drucken-Unicode-Konsole, Python automatisch codiert Unicode auf der Konsole Codierung. Also, wenn Sie eine UTF-8-terminal. Drucken von Unicode und drucken einer UTF-8 codierten Zeichen gleich Aussehen, aber Sie werden nicht das gleiche vergleichen, es sei denn, Sie konvertieren Sie beide auf dem gleichen format.
InformationsquelleAutor Kasramvd
0

Denke ich, dass Sie nicht verstehen, Unicode vs. encoding.

Finden Sie in diesem Artikel: http://www.joelonsoftware.com/articles/Unicode.html

Beachten Sie die folgenden... UTF-8 ist eine Kodierung von Unicode, aber ist nicht Unicode. Die # coding: utf-8 Erklärung oben in der Quelle unten, erklärt Sie die Kodierung der Quelldatei als auf der Festplatte gespeichert. a = u'ç' erklärt Unicode variable. b = 'ç' ist ein byte-string in der Quell-Kodierung (utf-8).

Beachten Sie, dass repr zeigt verschiedene source-ähnliche Darstellung der Zeichenfolge, so dass Sie können sagen, der Unterschied. type gibt den Objekt-Typ.
```
# coding: utf-8
a = u'ç'
b = 'ç'

print a
print b
print repr(a)
print repr(b)
print type(a)
print type(b)
print a==b                  # Not comparing same types.
print a==b.decode('utf8')   # Comparing both as Unicode strings.
print a.encode('utf8')==b   # Comparing both as byte strings.
```
a und b drucken die gleichen, aber sind nicht das gleiche:
```
ç
ç
u'\xe7'
'\xc3\xa7'
<type 'unicode'>
<type 'str'>
C:\Users\metolone\Desktop\Script1.py:11: UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal
  print a==b
False
True
True
```
Ihre letter1 und letter2 sind zwei verschiedene Arten von strings.

Hier ist ein vollständiges Beispiel das Lesen eines word-Liste aus einer Datei und nehmen Eingaben von einem Benutzer:
```
import sys
import codecs

# The word list was saved in UTF-8 encoding.  It can be in any encoding
# as long as the correct one is specified when reading it in.
# `codecs.open` will convert the input to Unicode.
with codecs.open('words.txt','r',encoding='utf8') as f:
    word_list = f.read().strip().splitlines()

print 'word_list and type:',word_list,type(word_list[0])

# Different consoles can have different input encodings.  Let's see what it is.
print 'My terminal encoding:',sys.stdin.encoding

# Read a word in the input encoding.  We'll convert to Unicode later.
word = raw_input('Word? ')
print 'word, content and type:',word,repr(word),type(word)

# Now decode the input to Unicode.
word = word.decode(sys.stdin.encoding)
print 'converted word, content and type:',word,repr(word),type(word)

# Compare the two Unicode strings
print 'Comparison:',word in word_list
```
Ausgabe von UNS Windows-Konsole. Beachten Sie, dass die verschiedenen Konsolen haben verschiedene Codierungen. Linux ist in der Regel UTF-8. Nicht-US-Windows-Konsole können unterschiedlich sein.
```
word_list and type: [u'\ufeffadi\xf3s', u'ping\xfcino'] <type 'unicode'>
My terminal encoding: cp437
Word? pingüino
word, content and type: pingüino 'ping\x81ino' <type 'str'>
converted word, content and type: pingüino u'ping\xfcino' <type 'unicode'>
Comparison: True
```
- Nehmen Sie es einfach, wie die nicht-englische Buchstaben (Wie z.B. Arabisch) vertreten sind, in der computer-Codierung bedeutet: umwandeln (information oder eine Anweisung) in einer bestimmten form. während Unicode: internationaler kodierungsstandard für die Verwendung mit verschiedenen Sprachen und Schriften, durch welche die einzelnen Buchstaben, eine Ziffer oder ein symbol zugewiesen wird ein eindeutiger numerischer Wert, der gilt, die auf unterschiedlichen Plattformen und Programme. also, wenn ich versuche zu vergleichen, 2 Arabische Buchstaben, bedeutet das nicht, dass ich bin versucht zu vergleichen, 2 unicode-Zeichen?
- Nein, wie mein Beispiel zeigt. a und b nicht gespeichert werden, auf die gleiche Weise. a gespeichert wird als Unicode-string-Objekt, während b gespeichert ist, als ein kodiertes byte-string. Als die Warnung gibt an, es versucht zu konvertieren b Unicode-machen Sie den Vergleich und scheitern. Es schlägt fehl, da Python 2.X standardmäßig Decodierung mit ASCII und die Daten in UTF-8-Codierung. Vergleichen a == b.decode('utf-8') würde das Problem beheben. Auch Unicode-Zeichenfolgen codiert werden intern in einem bestimmten format. Auf Python 2.X,, die passiert tatsächlich als UTF-16. Sie vergleichen die gleichen Codierungen.
- Betrachten a == b oben als u'\xe7' == '\xc3\xa7'. Natürlich nicht gleich, richtig?
- Jetzt verstehe ich, was du meinst, aber das problem ist, ich denke du hast nicht gelesen, die erste Bedingung, die ich gefragt habe, "Der Vergleich MUSS innerhalb der Variablen." da letter1 muss nach dem Zufallsprinzip ausgewählt aus einer Liste, während letter2, ist die Eingabe der Anwender, so dass im Grunde, ich kann nicht mit u'letter2', und ich habe versucht letter2 = unicode(letter2) aber es hat nicht funktioniert als gut. Tut mir Leid, aber scheint, Sie konzentriert sich auf das, was ich sagte, aber nicht die Lösung. Trotzdem vielen Dank.
- a und b "Variablen". Müssen Sie konvertieren Sie Ihre Variablen auf den gleichen Typ. a und b sind zwei verschiedene Typen. Es spielt keine Rolle, wie man die Werte in den Variablen. Sie muss zu vergleichen, der gleiche Variablen-Typen. .encode(encoding) stellt Unicode-strings in byte-strings, und die .decode(encoding) dreht byte-Zeichenfolgen in Unicode-Zeichenfolgen. Ich füge ein Beispiel für die Konvertierung.
- Im Grunde, nach dem Lesen die Eingabe des Benutzers, konvertieren es in eine Unicode-Zeichenfolge mithilfe .decode(encoding) vor dem Vergleich mit den Unicode-Charakter-Listen. Würde es helfen, wenn Sie hatte eine komplette Beispiel für Ihr Programm, um Ihnen genau sagen, wie es zu lösen ist.
- Tut mir Leid aber ich glaube du hast nicht gelesen, ich habe es bereits gelöst, seit 15. Sept. mit Hilfe der encode(encoding), aber trotzdem, vielen Dank für Sie Zeit.
InformationsquelleAutor Mark Tolonen
-1

Wenn Sie brauchen, um zu vergleichen einzelne Buchstaben können Sie immer vergleichen Sie den tatsächlichen Wert mit ord(a)==ord(b).

In Antwort auf das Beispiel gepostet:
```
>>> def check(b):
...    a = u'ي'
...    return (b==a, ord(a), ord(b), ord(a)==ord(b))
... 
>>> check(u'ي')
(True, 1610, 1610, True)
>>> 
```
Sie tun müssen, um konsistent zu markieren unicode als unicode, also setzen die u vor die Anführungszeichen.
- In der Tat bin ich versucht, zu vergleichen einzelne Buchstaben. aber es zeigt diese Fehlermeldung: > TypeError: ord() Erwartet einen Charakter, aber die string-Länge 2 gefunden.
- vielleicht ist dies deshalb geschieht, weil Sie den Vergleich str-Objekte und nicht-unicode-Objekte.
- Ich Vergleiche 2 arabischen Buchstaben, und soweit ich weiß, sind Sie als unicode.
- -1: Hat nicht funktioniert. Ich habe versucht, zu vergleichen ord(c) == ord(u'”') und zurück False wenn c war u'”'.
- Python 2.7.6 (default, Mar 22 2014, 22:59:56) [GCC 4.8.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> c=u'"' >>> ord(c) 34 >>> ord(u'"') 34 >>> ord(u'"') == ord(c) True >>>
- Tut mir Leid, aber es funktioniert nicht mit arabischen Buchstaben.
- Könnten Sie ein Beispiel geben?
- Sicher, aber wissen, dass es nicht funktionieren wird auf dem terminal von Python, da Python konvertiert alle arabischen Buchstaben ein Fragezeichen. So, ich habe den Vergleich wie die Art und Weise, die Sie mir in .py-Datei, aber der bot immer noch False zurück. Hier ist der code:
- handler_check(Art, Quelle, Parameter): a = 'ي' wenn a == Parameter: Antwort(Typ, source, u'True') else: reply(Typ, source, u'False') *die Eingabe war: ي und noch immer ist das Ergebnis False, [11:07:04] | KiDo: check ي [11:07:04] | Avril Lavigne2: False
- wie die Antworten vor, die ich nicht benutzen kann u vor die Anführungszeichen, die Sie auslösen, die Funktion von der Kommandozeile aus (wo kann man die Eingabe der Buchstaben manuell), aber wenn Sie Lesen Sie die erste Zeile in meiner Frage, wenn der Benutzer einen Brief, wird er gespeichert in einer Variablen, die dann die bot gehen mit dem Vergleich, in diesem Fall, es ist nicht möglich, mit dem u mit einer Variablen.
InformationsquelleAutor Steve Barnes

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.