Was ist eine optimierte Möglichkeit der Verbindung von großen Tabellen in Spark SQL

Habe ich gebraucht, die das verknüpfen von Tabellen mit Spark SQL oder Dataframe API. Müssen wissen, was hätte optimiert werden, so erreichen wir es.

Szenario ist:

  1. Alle Daten in Hive in ORC-format (Base-Dataframe-und Referenz-Dateien).
  2. Ich brauche um an einem Base-Datei (Dataframe) Lesen von Hive mit 11-13 anderen Referenz-Datei zu erstellen, die eine große in-memory-Struktur (400 Spalten) (etwa 1 TB)

Was kann man am besten Vorgehen um dies zu erreichen? Bitte teilen Sie Ihre Erfahrungen, wenn jemand hat, treten ähnliche problem.

InformationsquelleAutor S. K | 2016-06-15
Schreibe einen Kommentar