Wie mache ich eine groß-und Kleinschreibung string-Vergleich?

Wie kann ich tun, groß-und Kleinschreibung string-Vergleich in Python?

Ich würde gerne Kapseln Vergleich: eine reguläre Zeichenfolgen, um eine repository-string in eine sehr einfache und Pythonic way. Ich möchte auch die Möglichkeit haben, zu suchen, bis die Werte in einem dict-Hash von strings mit regulären python-strings.

InformationsquelleAutor Kozyarchuk | 2008-11-26

496

Vorausgesetzt ASCII-strings:
```
string1 = 'Hello'
string2 = 'hello'

if string1.lower() == string2.lower():
    print("The strings are the same (case insensitive)")
else:
    print("The strings are NOT the same (case insensitive)")
```
Das klappt nicht immer. Betrachten Sie für exanmple, dass es zwei griechischen sigmas, die man erst am Ende. Die Zeichenkette Σίσυφος ("Sísyphos", oder besser "Síſyphos") hat alle drei: Großbuchstaben auf der Vorderseite, Kleinbuchstaben endgültig am Ende, und Kleinbuchstaben nonfinal an die Dritte position. Wenn deine beiden strings sind Σίσυφος und ΣΊΣΥΦΟΣ, dann ist dein Ansatz fehl, da diese angeblich der gleiche Fall unempfindlich.
Die beiden letzten Kommentatoren: ich denke, es ist fair zu übernehmen, beide strings sind ascii-strings. Wenn Sie auf der Suche nach einer Antwort auf etwas ein bisschen spannender, ich bin sicher, es gibt (oder die man Fragen kann).
Problem: 'ß'.lower() == 'SS'.lower() ist Falsch.
Griechische Buchstaben ist nicht der einzige Besondere Fall! In US-Englisch, das Zeichen "i" (\u0069) ist die Kleinbuchstaben version des Zeichens "I" (\u0049). Aber die türkischen ("tr-TR") alphabet enthält ein "I mit Punkt" Charakter "I" (\u0130), ist die Großschreibung von "ich" und "ich" ist die captical version von "i ohne Punkt" Charakter, "ı" (\u0131).
wie ist es sicher (oder fair) davon ausgehen, dass die strings sind ascii? Die Frage wurde nicht angegeben, und wenn die Saiten an jedem Punkt eingegeben oder die Karte an einen Benutzer, dann sollten Sie die Unterstützung von Internationalisierung. Egal, neue Programmierer wird dies Lesen, und wir sollten Ihnen die wirklich richtige Antwort.

InformationsquelleAutor Harley Holcombe
410

Vergleich von Zeichenfolgen in groß-und Kleinschreibung Weg scheint wie etwas, das ist trivial, aber es ist nicht. Ich werde mich mit Python 3, da Python 2 ist unterentwickelt hier.

Ist die erste Sache, zu beachten, dass Fall-entfernen im unicode-Konvertierungen sind nicht trivial. Es ist der text für die text.lower() != text.upper().lower() wie "ß":
```
"ß".lower()
#>>> 'ß'

"ß".upper().lower()
#>>> 'ss'
```
Aber lassen Sie uns sagen, Sie wollten caselessly vergleichen "BUSSE" und "Buße". Heck, Sie wahrscheinlich wollen auch vergleichen "BUSSE" und "BUẞE" gleich - das ist die neuere Kapitals bilden. Der empfohlene Weg ist die Verwendung casefold:
```
help(str.casefold)
#>>> Help on method_descriptor:
#>>>
#>>> casefold(...)
#>>>     S.casefold() -> str
#>>>     
#>>>     Return a version of S suitable for caseless comparisons.
#>>>
```
Nicht lower. Wenn casefold ist nicht verfügbar, tut .upper().lower() hilft (aber nur etwas).

Dann sollten Sie Akzente. Wenn Ihr font-renderer ist gut, denken Sie wahrscheinlich "ê" == "ê" - muss es aber nicht:
```
"ê" == "ê"
#>>> False
```
Dies ist, weil Sie eigentlich
```
import unicodedata

[unicodedata.name(char) for char in "ê"]
#>>> ['LATIN SMALL LETTER E WITH CIRCUMFLEX']

[unicodedata.name(char) for char in "ê"]
#>>> ['LATIN SMALL LETTER E', 'COMBINING CIRCUMFLEX ACCENT']
```
Die einfachste Möglichkeit, damit umzugehen, ist unicodedata.normalize. Sie wollen wahrscheinlich verwenden NFKD Normalisierung, aber fühlen Sie sich frei, um die Dokumentation zu kontrollieren. Dann tut man
```
unicodedata.normalize("NFKD", "ê") == unicodedata.normalize("NFKD", "ê")
#>>> True
```
Zu beenden, ist dies hier ausgedrückt in Funktionen:
```
import unicodedata

def normalize_caseless(text):
    return unicodedata.normalize("NFKD", text.casefold())

def caseless_equal(left, right):
    return normalize_caseless(left) == normalize_caseless(right)
```
Eine bessere Lösung ist die Normalisierung aller Saiten auf die Aufnahme, dann kann man nur tun x.casefold() == y.casefold() für groß-und Kleinschreibung Vergleiche (und, noch wichtiger, x == y für groß- / Kleinschreibung).
In der Tat, je nach Kontext, manchmal ist es besser zu verlassen, die Quelle intakt, aber im Voraus Normalisierung kann auch später-code viel einfacher.
Du hast Recht, es ist nicht immer angebracht; wenn Sie brauchen, um in der Lage sein, um die Ausgabe der original-Quelle, unverändert (z.B., weil Ihnen der Umgang mit Dateinamen unter Linux, wo NKFC und NKFD sind beide erlaubt und ausdrücklich soll anders sein), natürlich kannst du nicht transformieren, das auf input...
Unicode-Standard, Abschnitt 3.13 hat zwei andere Definitionen für caseless comparisons: (D146, kanonische) NFD(toCasefold(NFD(str))) auf beiden Seiten und (D147, Kompatibilität) NFKD(toCasefold(NFKD(toCasefold(NFD(X))))) auf beiden Seiten. Es heißt, die innere NFD ist ausschließlich auf eine bestimmte Griechische Akzent. Ich denke, es ist alles über die Grenzfälle.
Und ein bisschen Spaß haben mit dem Cherokee-alphabet, wo casefold() geht Großbuchstaben:>>> "ᏚᎢᎵᎬᎢᎬᏒ".upper() 'ᏚᎢᎵᎬᎢᎬᏒ' >>> "ᏚᎢᎵᎬᎢᎬᏒ".lower() 'ꮪꭲꮅꭼꭲꭼꮢ' >>> "ᏚᎢᎵᎬᎢᎬᏒ".casefold() 'ᏚᎢᎵᎬᎢᎬᏒ' >>>

InformationsquelleAutor Veedrac
57

Mit Python 2, Aufruf .lower() auf alle string-oder Unicode-Objekt...
```
string1.lower() == string2.lower()
```
...wird die meiste Zeit funktionieren, aber in der Tat nicht die Arbeit in der Situationen, @tchrist beschrieben hat.

Angenommen, wir haben eine Datei namens unicode.txt mit den zwei Saiten Σίσυφος und ΣΊΣΥΦΟΣ. Mit Python 2:
```
>>> utf8_bytes = open("unicode.txt", 'r').read()
>>> print repr(utf8_bytes)
'\xce\xa3\xce\xaf\xcf\x83\xcf\x85\xcf\x86\xce\xbf\xcf\x82\n\xce\xa3\xce\x8a\xce\xa3\xce\xa5\xce\xa6\xce\x9f\xce\xa3\n'
>>> u = utf8_bytes.decode('utf8')
>>> print u
Σίσυφος
ΣΊΣΥΦΟΣ

>>> first, second = u.splitlines()
>>> print first.lower()
σίσυφος
>>> print second.lower()
σίσυφοσ
>>> first.lower() == second.lower()
False
>>> first.upper() == second.upper()
True
```
Dem Σ-Zeichen hat zwei kleine Formen, ς und σ, und .lower() wird nicht helfen, vergleichen Sie Sie Fall-unempfindlich.

Jedoch, wie der Python 3, alle drei Formen aufgelöst wird, ς, und das untere() auf beide strings korrekt funktioniert:
```
>>> s = open('unicode.txt', encoding='utf8').read()
>>> print(s)
Σίσυφος
ΣΊΣΥΦΟΣ

>>> first, second = s.splitlines()
>>> print(first.lower())
σίσυφος
>>> print(second.lower())
σίσυφος
>>> first.lower() == second.lower()
True
>>> first.upper() == second.upper()
True
```
Also wenn Sie um den Rand-Fällen, wie bei den drei sigmas in der griechischen, verwenden Python 3.

(Für Referenz, Python 2.7.3 und Python 3.3.0b1 gezeigt, sind in der interpreter-Ausdrucke oben).

Um den Vergleich noch robuster, beginnend mit Python 3.3 die Sie verwenden können, casefold (z.B., ersten.casefold() == second.casefold()). Für Python 2 können Sie PyICU (siehe auch: icu-project.org/apiref/icu4c/...)

InformationsquelleAutor Nathan Craike
27

Abschnitt 3.13 der Unicode-standard definiert-algorithmen für caseless
das matching.

X.casefold() == Y.casefold() in Python 3 implementiert die "Standard-caseless matching" (D144).

Casefolding nicht die Erhaltung der Normalisierung von strings, die in allen Instanzen und damit die Normalisierung durchgeführt werden muss ('å' vs. 'å'). D145 stellt das "kanonische caseless matching":
```
import unicodedata

def NFD(text):
    return unicodedata.normalize('NFD', text)

def canonical_caseless(text):
    return NFD(NFD(text).casefold())
```
NFD() ist zweimal genannt, für sehr seltene Sonderfälle mit U+0345 Charakter.

Beispiel:
```
>>> 'å'.casefold() == 'å'.casefold()
False
>>> canonical_caseless('å') == canonical_caseless('å')
True
```
Gibt es auch die Kompatibilität caseless matching (D146) für Fälle wie '㎒' (U+3392) und "Bezeichner caseless-matching" zu vereinfachen und zu optimieren caseless matching von Bezeichnern.

Dies ist die beste Antwort für Python 3, da Python 3 verwendet Unicode-Zeichenfolgen und die Antwort, die beschreibt, wie der Unicode-standard definiert caseless string matching.
Leider, wie der Python-3.6, die casefold() Funktion implementiert nicht den speziellen Fall der Behandlung von groß-ich und gepunktete groß-ich, wie beschrieben, in der Case Folding Eigenschaften. Also, der Vergleich mag nicht für Wörter, die aus türkischen Sprachen, enthalten diese Briefe. Zum Beispiel canonical_caseless('LİMANI') == canonical_caseless('limanı') muss zurück True, aber es gibt False. Derzeit ist der einzige Weg, um sich mit diesem in Python zu schreiben casefold wrapper oder die Verwendung eines externen Unicode-Bibliothek, wie PyICU.
verhält sich so, wie es sollte, soweit ich das sagen kann. Aus dem standard: "der Standard-Gehäuse-Operationen sind für den Gebrauch in der Abwesenheit der Schneiderei für bestimmte Sprachen und Umgebungen". Gehäuse Regeln für die Türkisch-gepunktete Kapital I und punktlosen kleine ich sind in SpecialCasing.txt. "Für nicht-türkischen Sprachen, diese Zuordnung ist in der Regel nicht." Von der Unicode-FAQ: Q: Warum gibt es keine extra-Zeichen codiert Unterstützung locale-unabhängigen Gehäuse für türkische?
Ich habe nicht gesagt, dass casefold() falsch verhält. Es wäre einfach praktisch, wenn es implementiert ein optionaler parameter, der aktiviert die spezielle Behandlung von groß-und gepunktete Großbuchstaben I. Zum Beispiel, die Art und Weise die foldCase() in der ICU-Bibliothek bietet it: "Case-folding locale-unabhängigen und nicht-Kontext-Sensitiv, aber es ist eine option für die, ob einschließen oder ausschließen Zuordnungen für punktierte ich und punktlosen ich, die markiert sind mit" T " in CaseFolding.txt."

InformationsquelleAutor jfs

Sah ich diese Lösung hier mit regex.

import re
if re.search('mandy', 'Mandy Pande', re.IGNORECASE):
# is True

Klappt es auch mit Akzenten

In [42]: if re.search("ê","ê", re.IGNORECASE):
....:        print(1)
....:
1

Aber es funktioniert nicht mit unicode-Zeichen, die groß-und Kleinschreibung. Danke @Rhymoid für den Hinweis, das ist mein Verständnis war, dass es muss die genaue symbol, für den Fall, um wahr zu sein. Die Ausgabe ist wie folgt:

In [36]: "ß".lower()
Out[36]: 'ß'
In [37]: "ß".upper()
Out[37]: 'SS'
In [38]: "ß".upper().lower()
Out[38]: 'ss'
In [39]: if re.search("ß","ßß", re.IGNORECASE):
....:        print(1)
....:
1
In [40]: if re.search("SS","ßß", re.IGNORECASE):
....:        print(1)
....:
In [41]: if re.search("ß","SS", re.IGNORECASE):
....:        print(1)
....:

Die Tatsache, dass ß ist nicht innerhalb SS mit groß-und Kleinschreibung in Suche ist der Beweis, dass es funktioniert nicht arbeiten mit Unicode-Zeichen überhaupt.

InformationsquelleAutor Shiwangi

3

Wie etwa die Umwandlung in Kleinbuchstaben zuerst? Sie können string.lower().

Sie können vergleichen, Ihre Kleinbuchstaben Karten: Σίσυφος und ΣΊΣΥΦΟΣ würde nicht test gleichwertig, aber sollte.

InformationsquelleAutor Camilo Díaz Repka
2

Ist die übliche Vorgehensweise ist zu groß-die Saiten-oder Kleinschreibung Sie für die Suchvorgänge und Vergleiche. Zum Beispiel:
```
>>> "hello".upper() == "HELLO".upper()
True
>>> 
```
InformationsquelleAutor Andru Luvisi
0

Dies ist ein weiterer regex, die ich habe gelernt zu lieben/hassen in der letzten Woche so in der Regel zu importieren (in diesem Fall) ja etwas, das widerspiegelt, wie im Gefühl!
eine normale Funktion.... Fragen für die Eingabe, dann verwenden ....etwas = re.compile(r'foo*|spam*', ja.I)...... re.Ich (ja.I unten) ist die gleiche wie IGNORECASE, aber man kann so viele Fehler zu schreiben!

Du dann suchen Sie Ihre Nachricht mithilfe von regex, aber ehrlich gesagt, sollte ein paar Seiten in seiner eigenen , aber der Punkt ist, dass foo oder spam geleitet zusammen und Kleinschreibung wird ignoriert.
Dann, wenn entweder gefunden, dann lost_n_found anzeigen würde einer von Ihnen. wenn weder dann lost_n_found ist gleich None. Wenn Ihr nicht gleich zu keiner Rückkehr der user_input in Kleinschreibung mit "return lost_n_found.lower()"

Dadurch können Sie viel leichter match-up alles, was thats gehen, um groß-und Kleinschreibung werden. Schließlich (NCS) steht für "niemand kümmert sich ernsthaft...!" - oder groß-und Kleinschreibung nicht....je nachdem, was

wenn jemand Fragen hat mich auf diesem..
```
    import re as yes

    def bar_or_spam():

        message = raw_input("\nEnter FoO for BaR or SpaM for EgGs (NCS): ") 

        message_in_coconut = yes.compile(r'foo*|spam*',  yes.I)

        lost_n_found = message_in_coconut.search(message).group()

        if lost_n_found != None:
            return lost_n_found.lower()
        else:
            print ("Make tea not love")
            return

    whatz_for_breakfast = bar_or_spam()

    if whatz_for_breakfast == foo:
        print ("BaR")

    elif whatz_for_breakfast == spam:
        print ("EgGs")
```
InformationsquelleAutor Ali Paul

-1

def insenStringCompare(s1, s2):
    """ Method that takes two strings and returns True or False, based
        on if they are equal, regardless of case."""
    try:
        return s1.lower() == s2.lower()
    except AttributeError:
        print "Please only pass strings into this method."
        print "You passed a %s and %s" % (s1.__class__, s2.__class__)

Sie ersetzen eine Ausnahme mit einer Meldung gedruckt auf stdout, dann wieder Keine, was Falsch ist. Das ist sehr hilfreich in der Praxis.

InformationsquelleAutor Patrick Harrington

-8

Wenn Sie Listen mit strings und vergleichen Sie die Zeichenfolgen in andere Liste mit groß-und Kleinschreibung. Hier ist meine Lösung.
```
list1 = map(lambda each:each.lower(), list1)
list2 = map(lambda each:each.lower(), list2)
```
Nachdem Sie das getan, können Sie string-Vergleich easly.

InformationsquelleAutor caesar
-8

Ich habe diese verwendet werden, um etwas zu erreichen mehr nützlich für den Vergleich von zwei strings:
```
def strings_iequal(first, second):
    try:
        return first.upper() == second.upper()
    except AttributeError:
        if not first:
            if not second:
                return True
```
Update: Wie bereits von gerrit, diese Antwort hat einige bugs. Das ist schon Jahre her ist und ich mich nicht mehr erinnern, was ich benutzt habe. Ich erinnere mich, dass das schreiben von tests, aber was sind Sie nun!

Ich würde gerne eine Diskussion auf, warum diese ständig wird nach unten gestimmt, da es funktioniert. Vielleicht die Tatsache, dass es testet, ob die beiden Zeichenfolgen gibt, ist es nicht genau die Frage?
Diese Lösung versteckt bugs. Stell dir vor, wenn ich einen Fehler haben und zufälligerweise strings_iequal("1", 1). Das Ergebnis wird None. Allerdings, wenn ich den pass strings_iequal("", 0) werden, ist das Ergebnis True. Ich weiß nicht, was Sie wollen, zu erreichen mit der block innerhalb der except-Teil.

InformationsquelleAutor Chris

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.