Wie eine Verbindung zu Amazon Redshift oder andere DB ' s in Apache Spark?

Ich versuche, die Verbindung zu Amazon Redshift über die Funke, damit ich beitreten kann, Daten, die wir haben auf S3 mit Daten über den RS-cluster. Ich fand einige sehr spartanische Dokumentation hier für die Fähigkeit der Verbindung zu JDBC:

https://spark.apache.org/docs/1.3.1/sql-programming-guide.html#jdbc-to-other-databases

Dem load-Befehl scheint ziemlich einfach (obwohl ich nicht weiß, wie ich den eingeben für AWS-Anmeldeinformationen hier, vielleicht in den Optionen?).

df = sqlContext.load(source="jdbc", url="jdbc:postgresql:dbserver", dbtable="schema.tablename")

Und ich bin mir nicht ganz sicher, wie man mit der SPARK_CLASSPATH variable. Ich bin mit Spark lokal für jetzt durch eine iPython-notebook (als Teil der Funke-Verteilung). Wo definiere ich, dass so der Funke geladen?

Sowieso, denn wenn ich jetzt versuche, die folgenden Befehle ausführen, bekomme ich einen Haufen Fehler nicht mehr zu entziffern, so bin ich irgendwie stecken jetzt. Jede Hilfe oder Verweise auf ausführliche tutorials, die sind geschätzt.

InformationsquelleAutor Evan Zamir | 2015-07-14
Schreibe einen Kommentar