entfernen unicode-emoji mit re in python

Ich versucht zu entfernen, die emoji aus einer unicode-tweet-text und drucken Sie das Ergebnis in python 2.7 mit

myre = re.compile(u'[\u1F300-\u1F5FF\u1F600-\u1F64F\u1F680-\u1F6FF\u2600-\u26FF\u2700-\u27BF]+',re.UNICODE)
print myre.sub('', text)

aber es scheint, fast alle Figuren sind im text entfernt. Ich habe mehrere Antworten von anderen Beiträgen, leider keiner von Ihnen arbeiten hier. Habe ich etwas falsch im re.compile()?

hier ist ein Beispiel für die Ausgabe, die alle Zeichen wurden entfernt:

“   '   //./” ! # # # …

Ist dieser Python 2? Python lässt sich aufbauen, mit breiten oder schmalen Unicode-Unterstützung; vermutlich haben Sie eine UCS-2-build anstatt UCS-4, und das wirkt sich auf was Sie tun können, mit regulären Ausdrücken.
Und bitte geben Sie uns eine Eingabe Probe zu.
Ich war in der Lage zu reproduzieren Sie Ihr Problem, und ich sah auch, dass ein UCS-2-build wirft eine Ausnahme, wenn Sie versuchen, kompilieren Sie den Ausdruck sowieso, das ist also nicht das Problem hier.
u'\u1f300' sollte u'\U0001f300'. Die erste ist '\u1f30' und '0'.

InformationsquelleAutor Young | 2014-10-26

26

Sie verwenden nicht das korrekte notation für non-BMP unicode-Punkte, die Sie verwenden möchten \U0001FFFF eine Hauptstadt U - und 8-stellig:
```
myre = re.compile(u'['
    u'\U0001F300-\U0001F5FF'
    u'\U0001F600-\U0001F64F'
    u'\U0001F680-\U0001F6FF'
    u'\u2600-\u26FF\u2700-\u27BF]+', 
    re.UNICODE)
```
Dies kann reduziert werden zu:
```
myre = re.compile(u'['
    u'\U0001F300-\U0001F64F'
    u'\U0001F680-\U0001F6FF'
    u'\u2600-\u26FF\u2700-\u27BF]+', 
    re.UNICODE)
```
als Ihre ersten beiden Bereiche benachbart sind.

Ihre version war die Angabe (mit zusätzlichen Leerzeichen für die Lesbarkeit):
```
[\u1F30 0-\u1F5F F\u1F60 0-\u1F64 F\u1F68 0-\u1F6F F \u2600-\u26FF\u2700-\u27BF]+
```
Das ist, weil die \uxxxx escape-Sequenz, die findet immer nur die 4 hex-Ziffern, nicht 5.

Der größte dieser Bereiche ist 0-\u1F6F (so aus der Ziffer 0 durch Ὧ) umfasst eine sehr großen Schneise der Unicode-standard.

Den korrigierten Ausdruck funktioniert, vorausgesetzt, Sie verwenden eine UCS-4 große Python-executable:
```
>>> import re
>>> myre = re.compile(u'['
...     u'\U0001F300-\U0001F64F'
...     u'\U0001F680-\U0001F6FF'
...     u'\u2600-\u26FF\u2700-\u27BF]+', 
...     re.UNICODE)
>>> myre.sub('', u'Some example text with a sleepy face: \U0001f62a')
u'Some example text with a sleepy face: '
```
UCS-2 äquivalent ist:
```
myre = re.compile(u'('
    u'\ud83c[\udf00-\udfff]|'
    u'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
    u'[\u2600-\u26FF\u2700-\u27BF])+', 
    re.UNICODE)
```
Können Sie kombinieren die zwei in Ihr Skript mit einer exception-handler:
```
try:
    # Wide UCS-4 build
    myre = re.compile(u'['
        u'\U0001F300-\U0001F64F'
        u'\U0001F680-\U0001F6FF'
        u'\u2600-\u26FF\u2700-\u27BF]+', 
        re.UNICODE)
except re.error:
    # Narrow UCS-2 build
    myre = re.compile(u'('
        u'\ud83c[\udf00-\udfff]|'
        u'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
        u'[\u2600-\u26FF\u2700-\u27BF])+', 
        re.UNICODE)
```
Genau das, was ich kommentierte oben, aber ich bekomme sre_constants.error: bad character range auf Python 2 schmal bauen.
ja, Sie können Sie nur verwenden, auf einen breiten bauen, finden Sie unter Python, konvertiert 4-byte-char zu vermeiden MySQL-Fehlermeldung "Fehlerhafte Zeichenfolge-Wert:" für einen Ansatz (Sie müssen übereinstimmen, die UTF-16-Ersatzzeichen Paaren statt).
Hinzugefügt eine UCS-2-version.
Dies ist der Grund, warum ich die Verwendung von Python 3.3+ 🙂
die BMP verwendet codepoints bis zu 0xFFFF. Das sind vier Ziffern. Alles was außerhalb der BMP verwendet more als vier hex-Ziffern, so können Sie die \uhhhh 4-stellige syntax für diejenigen, die Sie verwenden müssen, um die \Uhhhhhhhh 8-stellige syntax statt.

InformationsquelleAutor Martijn Pieters

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.