Wie eine Verbindung zu Amazon Redshift oder andere DB ' s in Apache Spark?

Ich versuche, die Verbindung zu Amazon Redshift über die Funke, damit ich beitreten kann, Daten, die wir haben auf S3 mit Daten über den RS-cluster. Ich fand einige sehr spartanische Dokumentation hier für die Fähigkeit der Verbindung zu JDBC:

https://spark.apache.org/docs/1.3.1/sql-programming-guide.html#jdbc-to-other-databases

Dem load-Befehl scheint ziemlich einfach (obwohl ich nicht weiß, wie ich den eingeben für AWS-Anmeldeinformationen hier, vielleicht in den Optionen?).

df = sqlContext.load(source="jdbc", url="jdbc:postgresql:dbserver", dbtable="schema.tablename")

Und ich bin mir nicht ganz sicher, wie man mit der SPARK_CLASSPATH variable. Ich bin mit Spark lokal für jetzt durch eine iPython-notebook (als Teil der Funke-Verteilung). Wo definiere ich, dass so der Funke geladen?

Sowieso, denn wenn ich jetzt versuche, die folgenden Befehle ausführen, bekomme ich einen Haufen Fehler nicht mehr zu entziffern, so bin ich irgendwie stecken jetzt. Jede Hilfe oder Verweise auf ausführliche tutorials, die sind geschätzt.

InformationsquelleAutor Evan Zamir | 2015-07-14

Obwohl dies scheint eine sehr alte post, wer ist noch auf der Suche nach Antwort, unten die Schritte für mich gearbeitet!

Starten der shell, einschließlich die jar.

bin/pyspark --driver-class-path /path_to_postgresql-42.1.4.jar --jars /path_to_postgresql-42.1.4.jar

Erstellen df, indem Sie die entsprechenden details:

myDF = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:redshift://host:port/db_name") \
    .option("dbtable", "table_name") \
    .option("user", "user_name") \
    .option("password", "password") \
    .load()

Spark Version: 2.2

InformationsquelleAutor Sumit

4

Es stellt sich heraus, Sie müssen nur einen Benutzernamen/pwd zugreifen Rotverschiebung in der Funke, und es wird getan, wie folgt (mit Hilfe der Python-API):
```
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.load(source="jdbc", 
                     url="jdbc:postgresql://host:port/dbserver?user=yourusername&password=secret", 
                     dbtable="schema.table"
)
```
Hoffe, das jemand hilft!
- Kann u zeigen ein Beispiel, das gleiche zu tun in Scala ?
- Ich glaube nicht, verwenden Sie die Scala-api, aber ich nehme an, es ist gar nicht so Verschieden.
InformationsquelleAutor Evan Zamir
3

Wenn Sie der Verwendung von Spark-Version 1.4.0 oder neuer, check-out spark-redshift, eine Bibliothek, die unterstützt laden von Daten aus der Rotverschiebung in Spark SQL DataFrames und speichern DataFrames zurück zu Rotverschiebung. Wenn Sie das Abfragen von großen Datenmengen, dieser Ansatz sollte performanter als JDBC, da es in der Lage zu entladen und die Abfrage der Daten parallel.

Wenn Sie noch verwenden möchten, JDBC, schauen Sie sich die neue built-in-JDBC-Datenquelle in Spark 1.4+.

Offenlegung: ich bin einer der Autoren von spark-redshift.
- Darf ich wissen, wenn Funke-redshift unterstützt die Aktualisierung ein paar Zeilen? Was ist der beste Weg, um zu aktualisieren, nur ein paar Zeilen in einer Rotverschiebung?
- unterstützt derzeit nicht upserts; siehe github.com/databricks/spark-redshift/issues/195
- Hinweis: spark-redshift wird nicht mehr gewartet öffentlich. Databricks hat entschieden, dass ein ausschließlich privater und nicht veröffentlichen alle weiteren updates, die außerhalb Ihres Clusters Bilder. Siehe die Antwort von @Sumit für eine aktuelle Methode mit der Postgres-Treiber.
InformationsquelleAutor Josh Rosen
2

Als erstes müssen Sie downloaden Postgres-JDBC-Treiber. Sie können es hier finden: https://jdbc.postgresql.org/

Können Sie entweder definieren Sie Ihre Umgebungsvariable SPARK_CLASSPATH in .bashrc, conf/spark-env.sh oder einer ähnlichen Datei, oder geben Sie es in das Skript vor dem ausführen Ihre IPython notebook.

Können Sie auch definieren es in Ihrem conf/Funke-defaults.conf in der folgenden Art und Weise:
```
spark.driver.extraClassPath  /path/to/file/postgresql-9.4-1201.jdbc41.jar
```
Stellen Sie sicher, es spiegelt sich in der Registerkarte "Umgebung" Ihrer Spark-WebUI.

Müssen Sie auch die entsprechenden AWS-Anmeldeinformationen, die in der folgenden Weise:
```
sparkContext.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "***")
sparkContext.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "***")
```
- Danke! Ich bin in der Lage, um zu sehen, die postgres-Klasse in der Registerkarte "Umgebung" nun, also das scheint geklappt zu haben. Aber ich erhalte die folgende Fehlermeldung nach dem Versuch, führen Sie die AWS-seetings: "AttributeError: 'SparkContext' - Objekt hat kein Attribut 'hadoopConfiguration'" --- gibt es eine neuere Einstellung vielleicht?
- So, nach einigen Forschung, fand ich, dass hadoopConfiguration ist nur in der Scala-API. Ich bin mit Python. Abhilfe?
- Es ist allgemein gute Idee zu halten SparkContext unveränderlich, so vergehen alle Ihre Konfiguration beim erstellen SparkContext. In Ipython-notebooks, allerdings möchten Sie vielleicht, um es zu ändern, denn der sc wurde für Sie erstellt. In diesem Fall können Sie den Zugriff auf die java-Methoden von sc durch sc._jsc. HTH
InformationsquelleAutor Maksud

The simplest way to make a jdbc connection to Redshift using python is as follows:

# -*- coding: utf-8 -*-
from pyspark.sql import SparkSession

jdbc_url = "jdbc:redshift://xxx.xxx.redshift.amazonaws.com:5439/xxx"
jdbc_user = "xxx"
jdbc_password = "xxx"
jdbc_driver = "com.databricks.spark.redshift"

spark = SparkSession.builder.master("yarn") \
.config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory") \
.enableHiveSupport().getOrCreate()

# Read data from a query
df = spark.read \
    .format(jdbc_driver) \
    .option("url", jdbc_url + "?user="+ jdbc_user +"&password="+ jdbc_password) \
    .option("query", "your query") \
    .load()

Funktioniert nicht ohne Authentifizierung (IAM).

InformationsquelleAutor Anxo P

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.