Alternative XML-parser für ElementTree zu erleichtern UTF-8 leiden?

Ich bin Parsen von XML mit der elementtree.parse () - Funktion. Es funktioniert, außer für einige utf-8-Zeichen(single-byte-Zeichen über 128). Ich sehe, dass der Standard-parser ist XMLTreeBuilder basierend auf expat.

Gibt es eine alternative-parser, die ich verwenden können, die möglicherweise weniger streng und erlauben utf-8-Zeichen?

Dies ist der Fehler, ich bin immer mit dem default-parser:

ExpatError: not well-formed (invalid token): line 311, column 190

Den Charakter verursacht, dies ist ein Einzel-byte-x92 (in hex). Ich bin nicht sicher, dies ist auch eine gültige utf-8 Zeichen. Aber es wäre schön, es zu handhaben, weil die meisten text-Editoren dies zeigen: í

BEARBEITEN: Der Kontext des Zeichens ist: nicht , wo ich annehme, es soll eine Lust apostraphe, aber in den hex-editor, dass die gleiche Sequenz: 63 61 6E 92 74

InformationsquelleAutor Kekoa | 2009-07-16

Starten werde ich aus der Frage: "gibt es eine alternative-parser, die ich verwenden können, die möglicherweise weniger streng und erlauben utf-8-Zeichen?"

Alle XML-Parser akzeptieren Daten in UTF-8 codiert. In der Tat, UTF-8 ist die Standardkodierung.

Einem XML-Dokument kann mit einer Erklärung wie dieser:

`<?xml version="1.0" encoding="UTF-8"?>`

oder so:
<?xml version="1.0"?>
oder nicht haben eine Erklärung an alle ... in jedem Fall wird der parser entschlüsselt das Dokument mit UTF-8.

Jedoch Ihre Daten NICHT in UTF-8 codiert ... es ist vermutlich Windows-1252 aka cp1252.

Wenn die Kodierung nicht auf UTF-8, dann ist entweder der Schöpfer sollte auch eine Erklärung (oder der Empfänger kann sich voranstellen) oder der Empfänger kann die umcodierung der Daten zu UTF-8. Die folgenden Vitrinen, was funktioniert und was nicht:

>>> import xml.etree.ElementTree as ET
>>> from StringIO import StringIO as sio

>>> raw_text = '<root>can\x92t</root>' # text encoded in cp1252, no XML declaration

>>> t = ET.parse(sio(raw_text))
[tracebacks omitted]
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 1, column 9
# parser is expecting UTF-8

>>> t = ET.parse(sio('<?xml version="1.0" encoding="UTF-8"?>' + raw_text))
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 1, column 47
# parser is expecting UTF-8 again

>>> t = ET.parse(sio('<?xml version="1.0" encoding="cp1252"?>' + raw_text))
>>> t.getroot().text
u'can\u2019t'
# parser was told to expect cp1252; it works

>>> import unicodedata
>>> unicodedata.name(u'\u2019')
'RIGHT SINGLE QUOTATION MARK'
# not quite an apostrophe, but better than an exception

>>> fixed_text = raw_text.decode('cp1252').encode('utf8')
# alternative: we transcode the data to UTF-8

>>> t = ET.parse(sio(fixed_text))
>>> t.getroot().text
u'can\u2019t'
# UTF-8 is the default; no declaration needed

InformationsquelleAutor John Machin

4

Sieht es aus wie Sie haben CP1252 text. Wenn dem so ist, sollte angegeben werden, an den Anfang der Datei, wie zB.:
```
<?xml version="1.0" encoding="CP1252" ?>
```
Dies funktioniert mit ElementTree.

Wenn Sie diese Dateien selbst schreiben nicht, Sie in dieser Codierung. Sparen Sie als UTF-8 und Ihren Teil tun, um zu helfen töten veralteten encodings.

Wenn Sie empfangen CP1252 Daten mit keine codierspezifikation, und Sie wissen sicher, dass es immer CP1252, können Sie einfach konvertieren Sie Sie in UTF-8 vor dem senden an den parser:
```
s.decode("CP1252").encode("UTF-8")
```
- Nicht europäisch, wir sind definitiv in den USA. Das werde ich nicht tun, ich verspreche es 🙂
- Ihre Frage ist verzerrt: Sie haben gesagt, der text ist "nicht", das ist ein kleiner Brief, den ich mit einem akuten (u2019). Ich beschäftige mich mit genug unbekannte Sprachen auf einer regelmäßigen basis, die ich interpretieren als geschrieben. Bitte korrigieren Sie die Frage. Die Antwort ist die gleiche; nur Ersatz CP852 für CP1252. Durch die Art und Weise, 0x92 in CP1252 ist nicht ein Apostroph, es ist ein Recht einfaches 'Zitat'. Ich sollte wohl nicht überrascht sein, dass einige software ist kaputt genug, um Apostrophe falsch. (Nicht dein Fehler-die Fehler von was auch immer software ausgegeben, die die Zeichenfolge.)
- Maynard: (1) Reproduktion von nicht-ASCII-text durch eine OP ist oft verzerrt. Was Sie sehen ist nicht immer das, was Sie haben. the_raw_bytes.repr() ist Ihr Freund und Ihr. Seine "apostraphe" war ein entscheidender Hinweis (2) "kleine Brief, den ich mit einem akuten (u2019)": huh? Gemäß dem Unicode-Standard, U+2019 RICHTIGEN ANFÜHRUNGSZEICHEN, die bei der Codierung in cp1252 ist 0x92 (3) Die Macher der angeblich gebrochen muss die software gelesen haben Sie den Unicode-Standard, der über die U+2019: "dies ist das bevorzugte Zeichen für Apostroph". (4) cp852? Seine 0x92 -> KLEINE BUCHSTABEN " L " (ell, nicht ich Auge) MIT einer AKUTEN
- Ich muss darauf hinweisen, dass, wenn der Unicode-Standard, der sagt, dass das bevorzugte Zeichen für das Apostroph ist ein Angebot schließen, der Unicode-Standard ist falsch. Das verstößt gegen den gesunden Menschenverstand in vielen offensichtlichen Möglichkeiten, und ich kann garantieren, dass 0x27 Apostroph wird auch weiterhin die korrekte Darstellung von einem Apostroph.
- Tut mir Leid für Sie unklar zu sein, aber der text ist wirklich: 63 61 6E 92 74 , unabhängig davon, was es sieht aus wie in einem bestimmten editor.
- Ich bekam, was ich aber interpretiert wurde, dass die byte-Zeichenfolge erschien in den Editoren, um Sie, wie es in der post, die ist, warum ich am Ende bei CP852. Jedenfalls, deine Antwort ist da-nutzen Sie einfach s.decode("CP1252").encode("UTF-8"), oder hinzufügen <?xml version="1.0" encoding="CP1252" ?> an die Spitze der XML-Datei, wenn es Sinn macht, ändern Sie es direkt. (Sie wollen nicht, dass "transparent"--es wird mess up die Zeilennummern bei Fehlern, etc.)
- Maynard: Warum endete an cp852 ist das Geheimnis. Zeichen im post angezeigt werden, U+00ED LATIN SMALL LETTER I (Auge), die MIT AKUTER. 0x92 in cp852 ist U+013A LATIN SMALL LETTER L (ell), MIT AKUTER. Aussehen: ĺí. Andere Kandidaten: mac-roman etc U+00ED (Auge), cp125X U+2019 RECHTEN ANFÜHRUNGSZEICHEN. Abgesehen von Auge problem, es gibt eine a-priori-Wahrscheinlichkeit problem: Prob(Osteuropa mit DOS-Kodierung für XML) weniger als Prob(mac-xxxx-Codierung) viel weniger als Prob(üblichen verdächtigen (cp125X besonders cp1252)). Dann gibt es ein Kontext-problem: kann nicht, kann nicht ... welche Sprache hat eine NLT Konsonanten-cluster??
- Sie sind nur trolling, oder glaubst du wirklich, du sagst alles, was relevant ist? Ich habe da die richtige Antwort zu dieser person in Frage. Hier werde ich noch Bearbeiten meine Antwort mit der trivialen Korrektur habe ich darauf hingewiesen, schon zweimal.
InformationsquelleAutor Glenn Maynard
1

0x92 Byte ist nie gültig, da die erste byte einer UTF-8-Zeichen. Es kann sein, gelten nachfolgende byte, jedoch. Sehen diese UTF-8-Anleitung für eine Tabelle der gültigen byte-Sequenzen.

Könnten Sie uns eine Vorstellung davon, welche bytes sind um 0x92? Funktioniert die XML-Deklaration enthalten ein Zeichensatz?

InformationsquelleAutor Jon Skeet
1

Ah. Das ist "kippe", offensichtlich, und in der Tat, 0x92 ist ein Apostroph, der in vielen Windows-code-pages. Ihr Redakteur meint stattdessen, dass es eine Mac-Datei. 😉

Wenn es ein one-off, Befestigung der Datei ist die richtige Sache zu tun. Aber fast immer, wenn Sie brauchen, um den import anderer Völker XML es gibt eine Menge Dinge, die einfach nicht einverstanden sind mit der angegebenen Kodierung. Ich habe festgestellt, dass die beste Lösung ist, um zu entschlüsseln, mit error-Einstellung 'xmlcharrefreplace', und in schweren Fällen machen Sie Ihre eigenen benutzerdefinierten Zeichen ersetzt und behebt die häufigsten Probleme, die für diesen bestimmten Kunden.

Werde ich auch empfehlen lxml als XML-Bibliothek in Python, aber das ist nicht das problem hier.

InformationsquelleAutor Lennart Regebro

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.