speichern Funke dataframe zu Hive: Tabelle nicht lesbar, da "Parkett nicht SequenceFile"

Ich würde gerne zum speichern von Daten in einer Spark (v 1.3.0) dataframe, um eine Hive-Tabelle mit PySpark.

"der Funke.sql.hive.convertMetastoreParquet: Wenn auf false gesetzt, Spark SQL verwenden Sie die Hive-SerDe für Parkett-Tabellen anstelle der eingebauten Unterstützung."

Blick auf die Spark tutorial, scheint es, dass diese Eigenschaft kann eingestellt werden:

from pyspark.sql import HiveContext

sqlContext = HiveContext(sc)
sqlContext.sql("SET spark.sql.hive.convertMetastoreParquet=false")

# code to create dataframe

my_dataframe.saveAsTable("my_dataframe")

Jedoch, wenn ich versuche, die Abfrage der gespeicherten Tabelle in Hive gibt es:

hive> select * from my_dataframe;
OK
Failed with exception java.io.IOException:java.io.IOException: 
hdfs://hadoop01.woolford.io:8020/user/hive/warehouse/my_dataframe/part-r-00001.parquet
not a SequenceFile

Wie Speichere ich die Tabelle so, dass es sofort lesbar auf Hive?

InformationsquelleAutor Alex Woolford | 2015-07-17

16

Hab ich schon da...

Die API ist ein bisschen irreführend auf diese ein.

DataFrame.saveAsTable hat nicht erstellen einer Hive-Tabelle, sondern eine interne Spark-Tabelle source.

Es speichert auch etwas in den Hive-metastore, aber nicht das, was Sie wollen.

Diese Bemerkung wurde von spark-Anwender-mailing-Liste in Bezug auf Funke-1.3.

Wenn Sie möchten, erstellen Sie eine Hive-Tabelle, aus Funken, können Sie diesen Ansatz verwenden:

1. Verwenden Create Table ... über SparkSQL für Hive-metastore.

2. Verwenden DataFrame.insertInto(tableName, overwriteMode) für die eigentlichen Daten (Funke 1.3)

InformationsquelleAutor Leet-Falcon

Ich dieses Problem Letzte Woche und war in der Lage einen workaround finden

Hier ist die Geschichte:
Ich kann sehen, dass die Tabelle in Hive-wenn ich die Tabelle erstellt ohne partitionBy:

spark-shell>someDF.write.mode(SaveMode.Overwrite)
                  .format("parquet")
                  .saveAsTable("TBL_HIVE_IS_HAPPY")

hive> desc TBL_HIVE_IS_HAPPY;
      OK
      user_id                   string                                      
      email                     string                                      
      ts                        string

Aber Hive nicht verstehen kann, ist die Tabelle, schema(schema leer ist...), wenn ich dies tun:

spark-shell>someDF.write.mode(SaveMode.Overwrite)
                  .format("parquet")
                  .saveAsTable("TBL_HIVE_IS_NOT_HAPPY")

hive> desc TBL_HIVE_IS_NOT_HAPPY;
      # col_name                data_type               from_deserializer

[Lösung]:

spark-shell>sqlContext.sql("SET spark.sql.hive.convertMetastoreParquet=false")
spark-shell>df.write
              .partitionBy("ts")
              .mode(SaveMode.Overwrite)
              .saveAsTable("Happy_HIVE")//Suppose this table is saved at /apps/hive/warehouse/Happy_HIVE


hive> DROP TABLE IF EXISTS Happy_HIVE;
hive> CREATE EXTERNAL TABLE Happy_HIVE (user_id string,email string,ts string)
                                       PARTITIONED BY(day STRING)
                                       STORED AS PARQUET
                                       LOCATION '/apps/hive/warehouse/Happy_HIVE';
hive> MSCK REPAIR TABLE Happy_HIVE;

Das problem ist, dass die datasource-Tabelle erstellt, durch Dataframe API(partitionBy+saveAsTable) ist nicht kompatibel mit Bienenkorb.(siehe diese link). Durch die Einstellung Funken.sql.hive.convertMetastoreParquet false wie vorgeschlagen, in der doc, Spark stellt nur Daten auf HDFS,aber nicht Tabelle anlegen auf Hive. Und dann können Sie es manuell gehen in die hive-shell erstellen Sie eine externe Tabelle mit der richtigen schema&partition definition verweist auf den Ablageort der Daten.
Getestet hab ich das in der Funke 1.6.1 und es funktionierte für mich. Ich hoffe, das hilft!

Die Sie gebucht haben, genau die gleiche Antwort here. wenn Sie denken, die Frage ist ein Duplikat, markieren Sie Sie als solche und nicht die post zweimal die gleiche Antwort imo.
Es sieht aus wie der code für TBL_HIVE_IS_NOT_HAPPY und TBL_HIVE_IS_HAPPY, ist genau das gleiche. Bin ich etwas fehlt?
vielleicht hat er gedacht TBL_HIVE_IS_NOT_HAPPY Beispiel werden geschrieben von spark mit .partitionBy("ts")

InformationsquelleAutor Yuan Zhao

0

Habe ich getan in pyspark, spark version 2.3.0 :

erstellen Sie eine leere Tabelle, wo wir brauchen, um zu speichern/überschreiben der Daten wie:
```
create table databaseName.NewTableName like databaseName.OldTableName;
```
führen Sie dann die unten Befehl:
```
df1.write.mode("overwrite").partitionBy("year","month","day").format("parquet").saveAsTable("databaseName.NewTableName");
```
Das Problem ist das Sie nicht Lesen können, diese Tabelle mit den hive-aber Lesen Sie mit spark.

InformationsquelleAutor dinesh rajput
0

Metadaten nicht bereits vorhanden ist. In anderen Worten, es werden alle Partitionen, die es gibt auf HDFS aber nicht im metastore, den hive-metastore.

InformationsquelleAutor Tutu Kumari

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.