Wie unquote ein urlencoded unicode-string in python?

Habe ich eine unicode-Zeichenfolge wie "Tanım" codiert ist als "Tan%u0131m" irgendwie. Wie kann ich umwandeln dieser codierte Zeichenfolge zurück zum ursprünglichen unicode.
Anscheinend ist das urllib.unquote unicode nicht unterstützen.

InformationsquelleAutor der Frage hamdiakoguz | 2008-11-18

66

%uXXXX ist ein nicht-standard-encoding schemedie abgelehnt wurde durch das w3c, trotz der Tatsache, dass eine Implementierung lebt weiter Fort, auch im JavaScript-land.

Die mehr gängige Technik zu sein scheint, UTF-8 Kodieren Sie die Zeichenfolge und dann % escape-der resultierende Byte mit %XX. Dieses Schema wird unterstützt durch das urllib.unquote:
```
>>> urllib2.unquote("%0a")
'\n'
```
Leider, wenn Sie wirklich müssen zur Unterstützung %uXXXX, werden Sie wahrscheinlich haben, Rollen Sie Ihre eigenen decoder. Sonst, wahrscheinlich ist es weit mehr vorzuziehen, einfach UTF-8-Kodierung von unicode und dann % escape-der resultierenden bytes.

Ein vollständigeres Beispiel:
```
>>> u"Tanım"
u'Tan\u0131m'
>>> url = urllib.quote(u"Tanım".encode('utf8'))
>>> urllib.unquote(url).decode('utf8')
u'Tan\u0131m'
```
InformationsquelleAutor der Antwort Aaron Maenpaa

def unquote(text):
    def unicode_unquoter(match):
        return unichr(int(match.group(1),16))
    return re.sub(r'%u([0-9a-fA-F]{4})',unicode_unquoter,text)

InformationsquelleAutor der Antwort Markus Jarderot

Dies wird es tun, wenn Sie absolut müssen dieses (ich bin wirklich nicht einverstanden mit dem rufe "nicht-standard"):

from urllib import unquote

def unquote_u(source):
    result = unquote(source)
    if '%u' in result:
        result = result.replace('%u','\\u').decode('unicode_escape')
    return result

print unquote_u('Tan%u0131m')

> Tanım

InformationsquelleAutor der Antwort Ali Afshar

4

es ist ein Fehler in der oben genannten version, wo es freaks Sie heraus, manchmal, wenn es gibt sowohl ascii-kodiert, und unicode-codierte Zeichen in der Zeichenfolge. Ich denke, die speziell, wenn es Zeichen aus der oberen 128 range, wie '\xab' zusätzlich zu unicode.

zB. "%5B%AB%u03E1%BB%5D" verursacht diesen Fehler.

Fand ich, wenn Sie Tat genau das unicode-zunächst, das problem ging Weg:
```
def unquote_u(source):
  result = source
  if '%u' in result:
    result = result.replace('%u','\\u').decode('unicode_escape')
  result = unquote(result)
  return result
```
InformationsquelleAutor der Antwort

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.