Wie kann ich die Ausgabe hadoop Ergebnis im csv-format

Ich ausgeben muss mein hadoop in Folge .csv-format.
wie mache ich das?
Mein code :https://github.com/studhadoop/xml/blob/master/XmlParser11.java

sollte ich einfach csvoutputFormat in meinem code.
Ich bin mit mapreduce API

myjob.sh

bin/hadoop jar /var/root/ALA/ala_jar/clsperformance.jar ala.clsperf.ClsPerf /user/root/ala_xmlrpt/Amrita\ Vidyalayam\,\ Karwar_Class\ 1\ B_ENG.xml  /user/root/ala_xmlrpt-outputshell4

bin/hadoop fs -get /user/root/ala_xmlrpt-outputshell4/part-r-00000 /Users/jobsubmit


cat /Users/jobsubmit/part-r-00000 /Users/jobsubmit/output.csv

LÖSUNG

ys, die mir fehlte, > in cat

cat /Users/jobsubmit/part-r-00000> /Users/jobsubmit/output.csv

InformationsquelleAutor Unmesha SreeVeni | 2013-05-02

15

Können Sie TextOutputFormat. Der Standard-Schlüssel/Wert-Trennzeichen ist ein Tabulator-Zeichen. Können Sie das Trennzeichen ändern, das durch das setzen der Eigenschaft "mapred.textoutputformat.separatorText" in Ihre Treiber.
```
conf.set("mapred.textoutputformat.separatorText", ",");
```
- Ich muss einfach fügen Sie diesen code in meinem Treiber , hab ich Recht
- Ja. Und Sie shoulde werden mit "TextOutputFormat".
- Watch out-der name der Eigenschaft sollte es sein, "mapred.textoutputformat.separator" nicht "mapred.textoutputformat.separatorText"
- Ja. mapreduce ist gut. Ich habe gerade festgestellt, dass ich erwähnte Eigenschaft name falsch in meiner ersten Antwort. Es sollte "mapred.textoutputformat.separator"
- Aber für CSV-Format - der text wird in doppelte Anführungszeichen und das Komma " und "integer" werden mit out-Zitate. Bin ich im Recht?
- Ich habe geantwortet das header-bezogene Abfrage in der gleichen Abfrage. In Bezug auf das format der CSV-Datei, es wird die Komma-Trennung aber nicht sicher, ob es lege die Daten in Anführungszeichen gesetzt werden. Sie können an einem Beispiel ausprobieren und sehen.
- Eigentlich ist meine intension ist, um die Ausgabe von hadoop Ergebnis .csv.bcoz ich brauche diese Daten visualisieren.So in rapidminer können wir den import der Daten als csv-Datei. Also ich versuche, meine Ausgabe als csv-Datei. ich denke, dass es so sein sollte .csv-Datei.Ich bin mir nicht sicher.Irgendwelche Ideen.
- Gibt es eine Möglichkeit, meinen Teil-00000 als Teil-00000.csv-Datei
- Ich glaube nicht, dass es möglich ist, erstellen Sie eine Datei mit ".csv" - Erweiterung von einem MapReduce-job. Sie müssen ein workflow-script, das wird 1.) Senden Sie den MapReduce-Job 2.) Das extrahieren wird die Ausgabe von HDFS über shell-Befehle 3.) Zusammenfügen, umbenennen ".csv" und in einem Verzeichnis, wo das Visualisierungs-tool kann auf die Letzte Datei.
- oh ..wie, die.
- kann u jst geben Sie mir ein Beispiel, das gleiche zu tun?
- hadoop-jar <Sie job jar>.jar parameter1 parameter2 hadoop fs -get <HDFS Pfad zur job-Ausgabe>/part-r-* <lokale Dateisystem-Pfad> Katze Teil-r-* > <Ausgabe-Datei-Name>.csv
- Haben die obigen drei Zeilen in ein shell-Skript sagen myjob.sh chmod das Skript ausführbar und führen Sie das Skript auf der Linux-Eingabeaufforderung
- hadoop-jar <Sie job jar>.jar yourJobParameter1 yourJobParameter2
- hadoop fs -get <HDFSPathToJobOutput>/part-r-* <LocalFilesystemPath>
- Katze <LocalFilesystemPath>/part-r-* > <zur Verfügung stehen (OutputFileName>.csv
- ys ausgeführt ohne Fehler, aber wenn ich überprüft, die Datei in meinem lokalen Dateisystem es ist zu zeigen, "Die CSV-Datei leer war und konnte nicht importiert werden.", warum es so ist.
- whwn das shell-Skript ausgeführt wird, es zeigt den Ausgang, bt-Ausgabe.csv-Datei leer ist. meine Ausgabe ist wie comma seperated value.ist das der Grund.
- Teilen Sie Ihr Skript. Ich werde überprüfen, wenn es irgendein Problem.
- ys eingefügt oben.
- Umleitung fehlt in der Dritten Befehl cat /Users/jobsubmit/part-r-00000 > /Users/jobsubmit/output.csv Hinweis ">" in die Befehlszeile, welche die std-Ausgabe in die Datei. Auch "Teil-r -*", so dass, wenn mehrere Dateien da sind, werden alle Dateien berücksichtigt.
- ja, ich verpasst, dass
- Vielen Dank für Ihre große Zeit.
- u r Willkommen. Froh, dass es geholfen hat. Markieren Sie diese als Antwort zu helfen, andere Boarder mit ähnlichen Abfragen.
- Bin ich in der Lage, snd diese Datei zu rapidminer für die Visualisierung:stackoverflow.com/questions/16352004/...
- Die details sind nicht klar. Können Sie erklären, etwas mehr
- lassen Sie uns weiter, diese Diskussion im chat
- Ich will plot-Diagramm für diese Daten.wie werde ich dies tun(Rapidminer) irgendeine Idee
- wie Visualisierungs-tool kann auf die Letzte Datei.
- stackoverflow.com/questions/16381446/...
- Ja, Sie können definieren Sie Ihre Ausgabe-Erweiterung! In Ihrem reducer verwenden MultipleOutputs. Diese write-Methode ist, was Sie brauchen. (Ich bin mit es in der Produktion!): hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapreduce/...
- aber Sie am Ende noch in r0000
- ja, Sie können nicht loswerden mehrere rxxx Dateien, weil jeder reducer erstellt auf eigene. Sie können jedoch sicher zusammenfassen dieser Dateien, nachdem der Auftrag abgeschlossen ist
InformationsquelleAutor Rags

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.