Wie parse CSV-Datei mit UTF-8-Codierung?

Ich benutze Spark 2.1.

input csv-Datei unicode-Zeichen enthält, wie unten gezeigt

Wie parse CSV-Datei mit UTF-8-Codierung?

Während der Analyse dieser csv-Datei die Ausgabe wird angezeigt, wie unten

Wie parse CSV-Datei mit UTF-8-Codierung?

Nutze ich MS Excel 2010, um Dateien anzuzeigen.

Den Java-code verwendet wird

@Test
public void TestCSV() throws IOException {
    String inputPath = "/user/jpattnaik/1945/unicode.csv";
    String outputPath = "file:\\C:\\Users\\jpattnaik\\ubuntu-bkp\\backup\\bug-fixing\\1945\\output-csv";
    getSparkSession()
      .read()
      .option("inferSchema", "true")
      .option("header", "true")
      .option("encoding", "UTF-8")
      .csv(inputPath)
      .write()
      .option("header", "true")
      .option("encoding", "UTF-8")
      .mode(SaveMode.Overwrite)
      .csv(outputPath);
}

Wie bekomme ich die Ausgabe "same as input"?

Danke @Jacek, ich habe die Datei encoding mit file-Kommando und bekam zu wissen, die Codierung der Datei ist eigentlich ISO-8859-1, Also habe ich analysiert diese Datei entsprechend an und bekam gewünschte Ergebnis.

InformationsquelleAutor Jyoti Ranjan | 2017-05-16

Schreibe einen Kommentar