Das Lesen einer ASCII-Datei mit FileChannel und ByteArrays

Ich habe den folgenden code:

        String inputFile = "somefile.txt";
        FileInputStream in = new FileInputStream(inputFile);
        FileChannel ch = in.getChannel();
        ByteBuffer buf = ByteBuffer.allocateDirect(BUFSIZE);  //BUFSIZE = 256

        /* read the file into a buffer, 256 bytes at a time */
        int rd;
        while ( (rd = ch.read( buf )) != -1 ) {
            buf.rewind();
            for ( int i = 0; i < rd/2; i++ ) {
                /* print each character */
                System.out.print(buf.getChar());
            }
            buf.clear();
        }

Aber die Zeichen angezeigt bekommen ?'s ist. Hat das etwas zu tun mit Java mit Unicode-Zeichen? Wie kann ich das korrigieren?

InformationsquelleAutor Jake | 2008-09-18

Müssen Sie wissen, was die Codierung der Datei ist, und dann decodieren der ByteBuffer in ein CharBuffer mit, Codierung. Vorausgesetzt, die Datei ist ASCII:

import java.util.*;
import java.io.*;
import java.nio.*;
import java.nio.channels.*;
import java.nio.charset.*;

public class Buffer
{
    public static void main(String args[]) throws Exception
    {
        String inputFile = "somefile";
        FileInputStream in = new FileInputStream(inputFile);
        FileChannel ch = in.getChannel();
        ByteBuffer buf = ByteBuffer.allocateDirect(BUFSIZE);  //BUFSIZE = 256

        Charset cs = Charset.forName("ASCII"); //Or whatever encoding you want

        /* read the file into a buffer, 256 bytes at a time */
        int rd;
        while ( (rd = ch.read( buf )) != -1 ) {
            buf.rewind();
            CharBuffer chbuf = cs.decode(buf);
            for ( int i = 0; i < chbuf.length(); i++ ) {
                /* print each character */
                System.out.print(chbuf.get());
            }
            buf.clear();
        }
    }
}

Wenn Sie vermeiden möchten, drucken jedes Zeichen getrennt, Sie konnte einfach buf.flip() statt buf.rewind(), und pass das ganze chbuf zu System.out.print()

InformationsquelleAutor jliszka

3

buf.getChar() erwartet 2 bytes pro Zeichen, aber Sie sind nur die Speicherung von 1. Verwendung:
```
 System.out.print((char) buf.get());
```
Sie haben vergessen, den code zu modifizieren, es immer noch liest .get()

InformationsquelleAutor Craig Day
2

Ändern Ihres print-Anweisung:
```
System.out.print((char)buf.get());
```
Scheint zu helfen.

InformationsquelleAutor jjnguy
2

Je nach Codierung von somefile.txt ein Charakter kann eigentlich nicht sein, aus zwei bytes. Auf dieser Seite gibt mehr Informationen darüber, wie zu Lesen Ströme mit der richtigen Codierung.

Der Mist ist, das Dateisystem nicht sagen, die Codierung der Datei, weil Sie nicht wissen. So weit wie es geht, es ist nur ein Haufen von bytes. Sie müssen entweder einen Weg finden zu kommunizieren, die Kodierung, die das Programm erkennen, das es irgendwie auf, oder (wenn möglich) immer sicherzustellen, dass die Codierung ist die gleiche (wie UTF-8).

InformationsquelleAutor Robert J. Walker
1

Gibt es einen bestimmten Grund, warum Sie Lesen die Datei in der Weise, dass Sie tun?

Wenn Sie Lesen, die in einer ASCII-Datei, die Sie sollte wirklich sein mit einem Reader.

Ich würde es tun, so etwas wie:
```
File inputFile = new File("somefile.txt");
BufferedReader reader = new BufferedReader(new FileReader(inputFile));
```
Und verwenden Sie dann entweder readLine oder ähnlich tatsächlich Lesen der Daten!

Ich habe eine enorme Menge an Daten, und ich bin versucht zu optimieren, Lesen Zeit. Verweis: nadeausoftware.com/articles/2008/02/...
in Ihrem Beispiel Sie bytes Lesen und dann decode, um die chars. Warum gehst du davon aus, dass die schneller ist, als mit einem BufferedReader ? Das interessante benchmarks, Sie zeigen bei Lesen nicht die Zeichen.

InformationsquelleAutor
0

Ja, es ist Unicode.

Wenn Sie haben 14 Zeichen in der Datei, erhalten Sie nur 7 '?'.

Lösung angemeldet. Immer noch denken.

InformationsquelleAutor Burkhard

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.