entfernen unicode-emoji mit re in python

Ich versucht zu entfernen, die emoji aus einer unicode-tweet-text und drucken Sie das Ergebnis in python 2.7 mit

myre = re.compile(u'[\u1F300-\u1F5FF\u1F600-\u1F64F\u1F680-\u1F6FF\u2600-\u26FF\u2700-\u27BF]+',re.UNICODE)
print myre.sub('', text)

aber es scheint, fast alle Figuren sind im text entfernt. Ich habe mehrere Antworten von anderen Beiträgen, leider keiner von Ihnen arbeiten hier. Habe ich etwas falsch im re.compile()?

hier ist ein Beispiel für die Ausgabe, die alle Zeichen wurden entfernt:

   '   //./” ! # # # …
Ist dieser Python 2? Python lässt sich aufbauen, mit breiten oder schmalen Unicode-Unterstützung; vermutlich haben Sie eine UCS-2-build anstatt UCS-4, und das wirkt sich auf was Sie tun können, mit regulären Ausdrücken.
Und bitte geben Sie uns eine Eingabe Probe zu.
Ich war in der Lage zu reproduzieren Sie Ihr Problem, und ich sah auch, dass ein UCS-2-build wirft eine Ausnahme, wenn Sie versuchen, kompilieren Sie den Ausdruck sowieso, das ist also nicht das Problem hier.
u'\u1f300' sollte u'\U0001f300'. Die erste ist '\u1f30' und '0'.

InformationsquelleAutor Young | 2014-10-26

Schreibe einen Kommentar