Parsen einer CSV-Datei für eine eindeutige Zeile mit der neuen Java-8-Streams-API

Ich bin versucht, die neue Java 8 Streams API (für die ich bin ein absoluter Neuling) analysieren für eine bestimmte Zeile (die mit "Neda" in der name-Spalte) in eine CSV-Datei. Anhand der folgenden Artikel für die motivation, die ich geändert und behoben einige Fehler und so konnte ich parse die Datei mit 3 Spalten 'name', 'Alter' und 'Höhe'.

name,age,height
Marianne,12,61
Julie,13,73
Neda,14,66
Julia,15,62
Maryam,18,70

Den Analyse-code ist wie folgt:

@Override
public void init() throws Exception {
    Map<String, String> params = getParameters().getNamed();
    if (params.containsKey("csvfile")) {
        Path path = Paths.get(params.get("csvfile"));
        if (Files.exists(path)){
            //use the new java 8 streams api to read the CSV column headings
            Stream<String> lines = Files.lines(path);
            List<String> columns = lines
                .findFirst()
                .map((line) -> Arrays.asList(line.split(",")))
                .get();
            columns.forEach((l)->System.out.println(l));
            //find the relevant sections from the CSV file
            //we are only interested in the row with Neda's name
            int nameIndex = columns.indexOf("name");
            int ageIndex columns.indexOf("age");
            int heightIndex = columns.indexOf("height");
            //we need to know the index positions of the 
            //have to re-read the csv file to extract the values
            lines = Files.lines(path);
            List<List<String>> values = lines
                .skip(1)
                .map((line) -> Arrays.asList(line.split(",")))
                .collect(Collectors.toList());
            values.forEach((l)->System.out.println(l));
        }
    }        
}

Gibt es eine Möglichkeit, um zu vermeiden, re-Lektüre, die Datei nach der Extraktion der Kopfzeile? Das ist zwar eine sehr kleine Beispiel-Datei, ich werde die Anwendung dieser Logik zu einer großen CSV Datei.

Ist es Technik, die die Verwendung der streams-API zu erstellen, die eine Zuordnung zwischen den extrahierten Spaltennamen (in der ersten überprüfung der Datei), um die Werte in die restlichen Zeilen?

Wie kann ich wieder nur eine Zeile in der form List<String> (statt List<List<String>> mit allen Zeilen). Ich würde lieber nur die Zeile als eine Zuordnung zwischen den Namen der Spalten und Ihre entsprechenden Werte. (ein bisschen wie ein ResultSet in JDBC). Ich sehe ein Sammler.mapMerger-Funktion, die hilfreich sein könnten hier, aber ich habe keine Ahnung, wie es zu benutzen.

Warum nicht speichern Sie die Linien auf der ersten Lesen und stream ab?
Beachten Sie, dass dies nicht funktioniert für einige ansonsten perfekt gültige CSV-Dateien, wie man mit der Linie "Neda",14,66

InformationsquelleAutor johnco3 | 2016-01-06

11

Verwenden BufferedReader ausdrücklich:
```
List<String> columns;
List<List<String>> values;
try(BufferedReader br=Files.newBufferedReader(path)) {
    String firstLine=br.readLine();
    if(firstLine==null) throw new IOException("empty file");
    columns=Arrays.asList(firstLine.split(","));
    values = br.lines()
        .map(line -> Arrays.asList(line.split(",")))
        .collect(Collectors.toList());
}
```
Files.lines(…) auch resorts zu BufferedReader.lines(…). Der einzige Unterschied ist, dass Files.lines konfigurieren der stream so, dass die Schließung der stream wird in der Nähe der Leser, die brauchen wir nicht hier, als das explizite try(…) - Anweisung sorgt bereits für die Schließung der BufferedReader.

Beachten Sie, dass es keine Garantie über den Zustand der Leser nach der stream zurückgegeben lines() verarbeitet worden, aber wir können sicher Zeilen gelesen vor Durchführung der stream-operation.
- Dank der trick, um zu vermeiden, doppelt zu Lesen hat gut geklappt, vielen Dank dafür
InformationsquelleAutor Holger
6

Zuerst, Ihre Sorge, dass dieser code liest die Datei zweimal, ist nicht gegründet. Eigentlich - Dateien.lines gibt einen Stream der Linien, der faul ist-aufgefüllt. So, der erste Teil der code liest nur die erste Zeile und der zweite Teil des Codes liest den rest (es liest die erste Zeile ein zweites mal, obwohl, selbst wenn Sie ignoriert werden). Zitieren seine Dokumentation:

Lesen Sie alle Zeilen aus einer Datei als Stream. Im Gegensatz zu readAllLines diese Methode nicht Lesen Sie alle Zeilen in eine List, sondern füllt träge wie der Strom verbraucht wird.

Auf Ihre zweite Sorge über die Rückkehr nur eine einzelne Zeile. In die funktionale Programmierung, was Sie versuchen zu tun, ist genannt filtern. Die Stream API stellt eine solche Methode mit Hilfe von Stream.- filter. Diese Methode nimmt eine Prädikat als argument, die eine Funktion zurückgibt, die true für alle Elemente, die gehalten werden sollte, und false sonst.

In diesem Fall, wir wollen eine Predicate zurückgeben würde true wenn der name gleich ist "Neda". Dies könnte so geschrieben werden, als den lambda-Ausdruck s -> s.equals("Neda").

Also im zweiten Teil des Codes, die Sie haben könnten:
```
lines = Files.lines(path);
List<List<String>> values = lines
            .skip(1)
            .map(line -> Arrays.asList(line.split(",")))
            .filter(list -> list.get(0).equals("Neda")) //keep only items where the name is "Neda"
            .collect(Collectors.toList());
```
Beachten Sie jedoch, dass dies nicht sicherstellen, dass es gibt nur eine Sache, wo der name ist "Neda" sammelt alle möglichen Gegenstände in eine List<List<String>>. Man könnte hinzufügen, eine gewisse Logik zu finden, die das erste Element bzw. löst eine Ausnahme aus, wenn keine Elemente gefunden werden, je nach Ihren geschäftlichen Anforderungen.

Beachten Sie noch, dass der Aufruf zweimal Files.lines(path) kann vermieden werden, indem direkt eine BufferedReader wie in @Holger ' s Antwort.
- Ich fand die filter sehr nützlich - danke, weißt du, wie ich zurückkehren könnte, nur eine Liste mit<String> statt einer Liste<Liste<String>> da bin ich explizit filtern einer einzigen Zeile, besser noch, eine Zuordnung zwischen dem col Namen und die Werte, die diese gefilterte Zeile
- Dies hängt davon ab, wie viele Reihen wird den Namen "Neda". Nach .filter( können Sie anrufen findFirst() für die Rückgabe des ersten Elements zum Beispiel. Sie haben List<String> dann
- Wie funktioniert es, Lesen Sie die erste Zeile doppelt? überspringen(1) sollten überspringen Sie die erste Zeile und verschieben auf mit dem rest der Linien. Ich bin nicht sicher, ob ich verstehe Ihren Kommentar über diese. Danke!
- sorgt dafür, dass die Elemente nicht verarbeitet die nachfolgenden stream-Operationen, kann aber nicht vermeiden, dass die Quelle zu Lesen/erzeugen Sie zuerst, bevor Sie können, bekommen Sie übersprungen. Ein BufferedReader Lesen der ersten Zeile, um zu wissen, wo die zweite Zeile beginnt; es gibt keinen Weg, um dieses.
- Vielleicht wollen Sie auch zu Lesen Antwort (und das eine), wie es erklärt auch, was passiert mit limit und skip.
- findFirst().get() gibt die Liste<String> danke! Tun Sie vielleicht wissen, wie man ein mapping zwischen den Kopf-und die Werte - als Teil dieser funktionalen stream mapping - ich habe bereits eine Liste von Headern, so vermutlich sollte es eine lambda-magic I I anwenden konnte wie Sammler.toMap - ich kann nicht herausfinden, die syntax
- Ich war versucht, so etwas wie Map<String, String> map = Linien.skip(1).(Karte) ((line) -> Arrays.asList(Zeile.split(","))).filter(list -> Liste.get(0).equals("Neda")).collect(Collectors.toMap(???,????)); Ich kann nicht herausfinden, die 'toMap()' Parameter, die einem JDBC-resultset-Objekt wie könnte ich Abfragen, oder vielleicht eine alternative, die ich verwenden sollten die Kollektoren.mapMerger (...) - Funktion zum Zusammenführen von in den Spalten Werte.
- vielleicht möchten Sie öffnen Sie eine neue Frage?
- Wahrscheinlich eine gute Idee, doch dies ist eigentlich ein Teil der ursprünglichen Frage - im letzten Absatz - die details ab, um sich in den Kommentaren hier aber
- es ist genau die Entwicklung der Fragen in den Kommentar, die vermieden werden sollten. Die bevorzugte Art und Weise auf, SO ist zu Fragen, mehrere Fragen, vielleicht links zu einander, anstatt zu viel in eine Frage. Sie hatten also zwei (oder sogar drei) Fragen hier. Zögern Sie nicht, um Sie zu Spalten.
- Ich Stimme mit Holger, Sie sollten öffnen Sie eine neue Frage. Um Ihnen einen Tipp, es ist aus der Liste, die Sie erhalten, die Sie erstellen sollten Sie die Karte aus (zur Erstellung der Karte benötigen Sie zum Durchlaufen der Elemente der Liste nicht Durchlaufen Zeilen der Dateien 😉 ).
InformationsquelleAutor Tunaki
0

Ich weiß, ich werde Antworten so spät, aber vielleicht hilft es jemand in der Zukunft

Habe ich eine csv-parser/writer , einfach zu bedienen Dank seiner builder pattern

Für Ihren Fall: Sie können filter der Zeilen, die Sie wollen, zu analysieren, mit
```
csvLineFilter(Predicate<String>) 
```
Hoffe, Sie finden es nützlich, hier ist die Quellcode
https://github.com/i7paradise/CsvUtils-Java8/

Ich bin seit einer main-Klasse Demo.java zu zeigen, wie es funktioniert

InformationsquelleAutor Ismail Ferdous

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.