Lesen und Schreiben von CSV-Dateien in eine hadoop-Anwendung
Ich verarbeiten muss, benutzerdefinierte csv-Dateien als Eingabe und schreiben von csv-Dateien zurück auf das HDFS. Kann ich dies direkt innerhalb der Karte zu reduzieren-Klasse, wo die eigentliche aufgestellt?
Zur Bearbeitung der csv-Dateien, ich bin mit opencsv library. Ich habe gesehen, wie einige tutorials, wo Sie inputformat und outputformat flags, um anzugeben, java-Klassen, die sich mit der Benutzer-definierten Formaten. Kann jemand mir einen Rat geben, wie die Arbeit mit csv-Dateien?
Möchte ich stick mit, was hadoop zu bieten hat, sonst meine eigene Implementierung von input-und output-Formate kann meine Verarbeitung langsam.
- Können Sie einen link zu den tutorials, die Sie verweisen?
- blog.aggregateknowledge.com/2011/08/30/..., ich muss sagen, dass ich nicht finden konnte, die genaue ein, die ich schon erwähnte, räumte mein cache im browser, nicht finden konnten, die genau den blog wieder. Aber etwas ähnliches wie dies
Du musst angemeldet sein, um einen Kommentar abzugeben.
Die Frage ist, wenn Sie multi-line csv-oder nicht.
Wenn Sie es nicht benötigen, können Sie mit Vanille TextInputFormat und TextOutputFormat und verwenden opencsv in Euch mapper zu analysieren Linien. Für die Ausgabe TextOutputFormat ist auch Prima
Wenn Sie brauchen, multiline - es gibt einige hacks, die Sie zu tun haben, montieren Sie den logischen Datensätzen. Können Sie Sie erstellen eigene input-format für Sie, oder tun Sie es im inneren mapper.