Lesen und Schreiben von CSV-Dateien in eine hadoop-Anwendung

Ich verarbeiten muss, benutzerdefinierte csv-Dateien als Eingabe und schreiben von csv-Dateien zurück auf das HDFS. Kann ich dies direkt innerhalb der Karte zu reduzieren-Klasse, wo die eigentliche aufgestellt?

Zur Bearbeitung der csv-Dateien, ich bin mit opencsv library. Ich habe gesehen, wie einige tutorials, wo Sie inputformat und outputformat flags, um anzugeben, java-Klassen, die sich mit der Benutzer-definierten Formaten. Kann jemand mir einen Rat geben, wie die Arbeit mit csv-Dateien?

Möchte ich stick mit, was hadoop zu bieten hat, sonst meine eigene Implementierung von input-und output-Formate kann meine Verarbeitung langsam.

Können Sie einen link zu den tutorials, die Sie verweisen?
blog.aggregateknowledge.com/2011/08/30/..., ich muss sagen, dass ich nicht finden konnte, die genaue ein, die ich schon erwähnte, räumte mein cache im browser, nicht finden konnten, die genau den blog wieder. Aber etwas ähnliches wie dies

InformationsquelleAutor Bob | 2012-06-04

4

Die Frage ist, wenn Sie multi-line csv-oder nicht.

Wenn Sie es nicht benötigen, können Sie mit Vanille TextInputFormat und TextOutputFormat und verwenden opencsv in Euch mapper zu analysieren Linien. Für die Ausgabe TextOutputFormat ist auch Prima

Wenn Sie brauchen, multiline - es gibt einige hacks, die Sie zu tun haben, montieren Sie den logischen Datensätzen. Können Sie Sie erstellen eigene input-format für Sie, oder tun Sie es im inneren mapper.
- was meinst du mit multi-line-csv? Es ist wie Feld1,Feld2,feld3;1,2,3;4,5,6; etc...
- Eine CSV-Datei ist wie eine große matrix, wobei jedes element getrennt durch Komma oder einen besonderen, spezifischen Charakter. Meinst du mit multi-line-diese Eigenschaft?
- In das CSV-format, wenn die Felder im inneren qoutation markiert haben, können wir EOL-Symbole als Teil des Feld-Inhalts. Es macht die einzelnen CSV-Datensatz über mehrere Zeilen,so kann man nicht davon ausgehen, dass ein Datensatz = eine Zeile. OpenCSV hat spezielle option zur Prozess -, mehrzeiligen csv-Datei.
- im üblichen CSV-Dateien wird jede Zeile ist eine Zeile der matrix, die Sie erwähnen. In multi-line - es ist nicht der Fall.
- es bekam. In meinem Fall, jede Zeile enthält einen bestimmten Datensatz. Also, ich kann die Vanille TextInputFormat und TextOutputFormat oder sogar einen String in Token aufgeteilt, es zu Lesen, Zeile für Zeile. Vielleicht dachte ich zu kompliziert. Danke!
InformationsquelleAutor David Gruzman

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.