Wie Sie den Pfad angeben, wo saveAsTable Dateien abspeichert?

Ich bin versucht zu retten, ein DataFrame S3 in pyspark in Spark1.4 mit DataFrameWriter

df = sqlContext.read.format("json").load("s3a://somefile")
df_writer = pyspark.sql.DataFrameWriter(df)
df_writer.partitionBy('col1')\
         .saveAsTable('test_table', format='parquet', mode='overwrite')

Parkett-Dateien ging an "/tmp/hive/warehouse/...." das ist ein lokales tmp-Verzeichnis auf meinen Fahrer.

Habe ich die setup-Struktur.metastore.Lager.dir in hive-site.xml zu einem "s3a://...." Lage, aber Funke nicht zu respektieren scheinen, um meine hive-warehouse-Einstellung.

Es speichert den Pfad der Datei mit der Spalte "name =" like-s3a://bucket/foo/col1=1/,s3a://bucket/foo/col1=2/,s3a://bucket/foo/col1=3/,..... Gibt es eine Möglichkeit zu vermeiden, indem der Spaltenname? wie s3a://bucket/foo/1/,s3a://bucket/foo/2/

InformationsquelleAutor ChromeHearts | 2015-06-16

Verwenden path.

df_writer.partitionBy('col1')\
         .saveAsTable('test_table', format='parquet', mode='overwrite',
                      path='s3a://bucket/foo')

InformationsquelleAutor ChromeHearts

0

können Sie insertInto(tablename) zum überschreiben einer vorhandenen Tabelle, da 1.4

InformationsquelleAutor tintin

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.