Ein äquivalent zu string.ascii_letters für unicode-strings in python 2.x?

In der "string" - Modul der standard-Bibliothek,

string.ascii_letters ## Same as string.ascii_lowercase + string.ascii_uppercase

ist

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

Gibt es eine ähnliche Konstante, welche die würde alles beinhalten, was als ein Buchstabe im unicode?

InformationsquelleAutor emm | 2010-01-24

11

Können Sie erstellen Sie Ihre eigene Konstante Unicode groß-und Kleinbuchstaben mit:
```
import unicodedata as ud
all_unicode = ''.join(unichr(i) for i in xrange(65536))
unicode_letters = ''.join(c for c in all_unicode
                          if ud.category(c)=='Lu' or ud.category(c)=='Ll')
```
Dies macht eine string-2153 Zeichen lang sein (schmal Python-Unicode-build). Für code wie letter in unicode_letters es wäre schneller, die Verwendung von einem Satz, statt:
```
unicode_letters = set(unicode_letters)
```
- Gute Antwort auf die Frage wie ich Sie gestellt. Allerdings habe ich eine andere Lösung gefunden, die besser geeignet war für meine Bedürfnisse (siehe meine Antwort unten)
- ud.category.c in ('Lu', 'Ll')
InformationsquelleAutor Mark Tolonen
7

Gibt es keine Zeichenfolge, aber Sie können überprüfen, ob ein Zeichen ein Buchstabe mit der unicodedata - Modul, insbesondere über seine category() Funktion.
```
>>> unicodedata.category(u'a')
'Ll'
>>> unicodedata.category(u'A')
'Lu'
>>> unicodedata.category(u'5')
'Nd'
>>> unicodedata.category(u'ф') # Cyrillic f.
'Ll'
>>> unicodedata.category(u'٢') # Arabic-indic numeral for 2.
'Nd'
```
Ll bedeutet "letter, lowercase". Lu bedeutet "Brief", "Großbuchstaben". Nd bedeutet "numeric", "Ziffer".
- Nur um die Antwort abzuschließen, hier ist eine Liste aller Unicode-Kategorien: fileformat.info/info/unicode/category/index.htm
InformationsquelleAutor Max Shawabkeh
0

Wäre das eine ziemlich massive konstant. Unicode umfasst derzeit über 100.000 verschiedene Charaktere. Die Antwort ist also Nein.

Die Frage ist, warum würden Sie es brauchen? Könnte es eine andere Art und Weise zu lösen, was auch immer Ihr problem ist mit dem Modul unicodedata, zum Beispiel.

Update: Sie können Dateien herunterladen, mit der alle unicode-Datenpunkt-Namen und andere Informationen von ftp://ftp.unicode.org/, und tun lädt interessante Sachen mit, die.

InformationsquelleAutor Lennart Regebro
-1

Wie bereits in früheren Antworten, der string wäre in der Tat Weg zu lange. So haben Sie zum Ziel (eine) Sprache(N).

[EDIT: ich erkannte, es war der Fall für meinen ursprünglichen Verwendungszweck, und für die meisten Anwendungen, die ich Schätze. Aber in der Zwischenzeit, Mark Tolonen gab eine gute Antwort auf die Frage, wie er aufgefordert wurde, so wählte ich seine Antwort, obwohl ich habe folgende Lösung]

Dies ist leicht getan mit der "locale" - Modul:
```
import locale
import string
code = 'fr_FR' ## Do NOT specify encoding (see below)
locale.setlocale(locale.LC_CTYPE, code)
encoding = locale.getlocale()[1]
letters = string.letters.decode(encoding)
```
mit "Buchstaben", ein 117-Zeichen-lange unicode-string.

Anscheinend string.Buchstaben ist abhängig von der Standard-Codierung für die ausgewählte Sprache code, anstatt auf die Sprache selbst. Locale auf de_de oder de_DE oder de_de aktualisieren string.Buchstaben um den gleichen Wert (denn Sie sind alle codiert in ISO8859-1 Standard).

Wenn Sie eine Codierung für den Sprach-code (de_DE.UTF-8), die Standard-Kodierung verwendet werden, statt für string.Briefe. Dazu führen würde, dass ein UnicodeDecodeError, wenn Sie den rest der obige code.

InformationsquelleAutor emm

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.