Gelesen von Kafka und schreiben auf hdfs in Parkett

Ich bin neu in der BigData-eco-system und die Art der Vorbereitungen.

Habe ich gelesen mehrere Artikel, die über das Lesen einer kafka-Thema der Verwendung von spark-streaming, aber würde gerne wissen, ob es möglich ist, zu Lesen von kafka mit einem spark-job statt streaming ?
Wenn ja, könnte Ihr Jungs mir helfen und wies auf einige Artikel und code-snippets können Sie mich.

Mein zweiter Teil der Frage ist das schreiben auf hdfs in Parkett-format.
Ich Las einmal von Kafka , von dem ich annehme, haben Sie eine rdd.
Konvertieren Sie diese rdd in ein dataframe und dann schreiben Sie das dataframe wie eine Parkett-Datei.
Ist das der richtige Ansatz.

Jede Hilfe dankbar.

Dank

InformationsquelleAutor Henosis | 2017-08-22
Schreibe einen Kommentar