Java: MalformedByteSequenceException (XML)
Ich versuche, das analysieren von XML mit dieser Klasse. Wenn ich eine einfache Datei, es funktioniert gut.
<testData>
<text>
odp
</text>
</testData>
Hier ist mein main
public static void main(String[] args) {
Xml train = new Xml(args[0], "trainingData");
Xml test = new Xml(args[1], "testData");
}
Jedoch, wenn ich die Datei bekam ich durch kopieren und einfügen von MSFT Office OneNote bekomme ich Fehler:
Exception in thread "main" java.lang.RuntimeException: com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 1 of 1-byte UTF-8 sequence.
at odp.compling.Xml.rootElement(Xml.java:41)
at odp.compling.Xml.<init>(Xml.java:61)
at odp.compling.ParseTreeAnalysis2.main(ParseTreeAnalysis2.java:10)
Caused by: com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 1 of 1-byte UTF-8 sequence.
at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.invalidByte(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.read(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.XMLEntityScanner.load(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.XMLEntityScanner.skipChar(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl$FragmentContentDriver.next(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.XMLDocumentScannerImpl.next(Unknown Source)
at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)
at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(Unknown Source)
at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(Unknown Source)
at com.sun.org.apache.xerces.internal.parsers.XMLParser.parse(Unknown Source)
at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(Unknown Source)
at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(Unknown Source)
at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)
at odp.compling.Xml.rootElement(Xml.java:33)
... 2 more
Was ist die Ursache? Ich bearbeitet die problematischen XML-Datei in Notepad++ geändert und die Codierung UTF-8
. Dies führte zu einer Reihe von seltsamen Zeichen aus den Akzenten/spezielle Anführungszeichen, die ich herausgeschnitten. Bin ich nicht konvertieren, richtig?
(Ich weiß nicht, etwas über die text-encoding-Formate, in Fall, dass Sie nicht sagen konnte.)
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ihre Datei nicht korrekt als UTF-8 kodiert, aber dein parser erwartet UTF-8-Codierung.
Würde es helfen, pin-point-das problem ist, Sie können einen hexdump der Datei.