Wie Konto für die Akzent-Zeichen für regulären Ausdruck in Python?

Derzeit nutze ich wieder.findall zu finden und zu isolieren, Wörter nach dem ' # ' - Zeichen für die hash-tags in einem string:

hashtags = re.findall(r'#([A-Za-z0-9_]+)', str1)

Er sucht str1 und sucht nach allen den hashtags. Dies funktioniert aber nicht Konto für akzentuierte Zeichen wie diese zum Beispiel: áéíóúñü¿.

Wenn eines dieser Zeichen in str1, wird es sparen Sie den hashtag bis die Buchstaben vor. So zum Beispiel #yogenfrüz wäre #yogenfr.

Ich muss in der Lage sein Konto für alle akzentuierte Buchstaben, die im Bereich von Deutsch, Niederländisch, Französisch und Spanisch, so dass ich sparen können hashtags wie #yogenfrüz

Wie kann ich über das tun dies

Verwenden re.UNICODE Flagge.
das UNICODE-flag wird nicht machen Sie den Bereich, die passen nicht-ASCII-Zeichen, keine. Wenn Sie sagen, regex übereinstimmen a-z ist, nimmt es die wörtliche Angebot, und nicht die menschliche Auslegung, die a und á irgendwie sind die gleiche Sache.
also, was wird es tun? 😉
siehe die Antworten unten.

InformationsquelleAutor noahandthewhale | 2013-09-06

24

Versuchen Sie Folgendes:
```
hashtags = re.findall(r'#(\w+)', str1, re.UNICODE)
```
Regex101 Demo

BEARBEITEN
Prüfen Sie die nützlichen Kommentar unten von Martijn Pieters.
- Kleine Einschränkung: \w übereinstimmen, werden nicht kombiniert codepoints, also a und U+0301 COMBINING ACUTE ACCENT nicht abgestimmt werden, auch wenn das Drucke als á. Möchten Sie vielleicht, um die Normalisierung zu NFC, ersten.
- Vielen Dank für das teilen, immer etwas extra zu lernen.
- können Sie implementieren der Korrektur erwähnt von Martijn Pieters zu Ihrer Lösung? Danke.
- Es sei denn, Sie kommen wirklich über die situation, die er beschreibt, dann ist meine Lösung noch funktioniert mit Umlauten. Ich bin ehrlich gesagt, nicht Unicode-Experte und kenne nicht die Einzelheiten genau, aber wenn Sie wollen zu normalisieren, wie er vorschlägt, dann überprüfen Sie die anderen Antwort auf diese Frage. Hoffe, das hilft
- Ich sehe. Danke @IbrahimNajjar
- Interessanterweise, ich denke, bei mir tritt genau das problem @MartijnPieters beschrieben, außer mit é und e. Ich benutzte die Lösung von Berk unten, und dann decodiert bytes-Objekt zurück in einen string. Vielen Dank an alle!
InformationsquelleAutor Ibrahim Najjar
4

Können Sie auch verwenden möchten
```
import unicodedata
output = unicodedata.normalize('NFD', my_unicode).encode('ascii', 'ignore')
```
wie konvertiere ich alle diese escape-Zeichen in Ihre entsprechenden Zeichen wie wenn es eine unicode-à,, wie wandle ich das in einen standard ein?
Angenommen, Sie haben geladen, Ihr unicode in eine variable namens my_unicode... die Normalisierung à in a ist diese einfache...

import unicodedata
Ausgabe = unicodedata.normalisieren('NFD', my_unicode).encode('ascii', 'ignore')
Explizite Beispiel...
```
myfoo = u'àà'
myfoo
u'\xe0\xe0'
unicodedata.normalize('NFD', myfoo).encode('ascii', 'ignore')
'aa'
```
überprüfen Sie diese Antwort es hat mir sehr geholfen: Wie konvertieren von unicode-Zeichen mit Akzent, um reinen ascii-Text ohne Akzente?
- Super Antwort, berk! jemand wird auf jeden Fall diese nützlich finden!
InformationsquelleAutor Berk

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.