Wie Sie den Pfad angeben, wo saveAsTable Dateien abspeichert?

Ich bin versucht zu retten, ein DataFrame S3 in pyspark in Spark1.4 mit DataFrameWriter

df = sqlContext.read.format("json").load("s3a://somefile")
df_writer = pyspark.sql.DataFrameWriter(df)
df_writer.partitionBy('col1')\
         .saveAsTable('test_table', format='parquet', mode='overwrite')

Parkett-Dateien ging an "/tmp/hive/warehouse/...." das ist ein lokales tmp-Verzeichnis auf meinen Fahrer.

Habe ich die setup-Struktur.metastore.Lager.dir in hive-site.xml zu einem "s3a://...." Lage, aber Funke nicht zu respektieren scheinen, um meine hive-warehouse-Einstellung.

  • Es speichert den Pfad der Datei mit der Spalte "name =" like-s3a://bucket/foo/col1=1/,s3a://bucket/foo/col1=2/,s3a://bucket/foo/col1=3/,..... Gibt es eine Möglichkeit zu vermeiden, indem der Spaltenname? wie s3a://bucket/foo/1/,s3a://bucket/foo/2/
InformationsquelleAutor ChromeHearts | 2015-06-16
Schreibe einen Kommentar