Alternative XML-parser für ElementTree zu erleichtern UTF-8 leiden?

Ich bin Parsen von XML mit der elementtree.parse () - Funktion. Es funktioniert, außer für einige utf-8-Zeichen(single-byte-Zeichen über 128). Ich sehe, dass der Standard-parser ist XMLTreeBuilder basierend auf expat.

Gibt es eine alternative-parser, die ich verwenden können, die möglicherweise weniger streng und erlauben utf-8-Zeichen?

Dies ist der Fehler, ich bin immer mit dem default-parser:

ExpatError: not well-formed (invalid token): line 311, column 190

Den Charakter verursacht, dies ist ein Einzel-byte-x92 (in hex). Ich bin nicht sicher, dies ist auch eine gültige utf-8 Zeichen. Aber es wäre schön, es zu handhaben, weil die meisten text-Editoren dies zeigen: í

BEARBEITEN: Der Kontext des Zeichens ist: nicht , wo ich annehme, es soll eine Lust apostraphe, aber in den hex-editor, dass die gleiche Sequenz: 63 61 6E 92 74

InformationsquelleAutor Kekoa | 2009-07-16
Schreibe einen Kommentar