Wie zum Anhängen von Daten an eine vorhandene Parkett-Datei

Ich bin mit dem folgenden code zu erstellen ParquetWriter und schreiben von Datensätzen.

ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);

final GenericRecord record = new GenericData.Record(avroSchema);

parquetWriter.write(record);

Sondern es nur ermöglicht das erstellen neuer Dateien(im angegebenen Pfad).
Gibt es eine Möglichkeit zum Anhängen von Daten an eine vorhandene Parkett-Datei (Pfad)? Caching parquetWriter ist nicht möglich in meinem Fall.

InformationsquelleAutor Krishas | 2016-08-30

4

Gibt es eine Spark-API SaveMode namens append: https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html denen ich glaube, dass löst Ihr problem.

Anwendungsbeispiel:
```
df.write.mode('append').parquet('parquet_data_file')
```
Da der Parkett-client-API unterstützt keine Append-Wie kann der Funke ?
diesen code schreiben zu Parkett-Ordner, indem Sie eine neue Datei, es bewirkt nicht vorhandene Dateien

InformationsquelleAutor bluszcz
0

Parkett ist ein säulenartiger-Datei, optimiert Sie schreiben alle Spalten zusammen. Wenn jeder es Bearbeiten, erfordert ein umschreiben der Datei.

Vom Wiki

Eine spaltenorientierte Datenbank serialisiert alle Werte einer Spalte zusammen, dann werden die Werte der nächsten Spalte, und so weiter. Für unsere Beispiel-Tabelle, die Daten würden gespeichert, die in dieser Weise:
```
10:001,12:002,11:003,22:004;
Smith:001,Jones:002,Johnson:003,Jones:004;
Joe:001,Mary:002,Cathy:003,Bob:004;
40000:001,50000:002,44000:003,55000:004;
```
Einige links

https://en.wikipedia.org/wiki/Column-oriented_DBMS

https://parquet.apache.org/

Obige Antwort ist ungenau. Parkett-Scheiben, Spalten in Stücke und ermöglicht es, Teile einer Spalte gespeichert werden, in mehrere Stücke innerhalb einer einzigen Datei, also Anhängen ist möglich. Wenn Sie Lesen, die design-Philosophie hinter dem Parkett - es ist ganz klar, dass format wurde entwickelt zum Anhängen, die Beurteilung durch die block-footer strukturiert.
spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/...
Ich denke, append nicht unterstützt Parkett-client-API, ich weiß, dass es dort war in der Funke, aber ich habe Zweifel an der Spalte Speicher, die unterstützen, Lesen Sie die erforderlichen Abschnitte nur. In diesem Fall, wie das Anhängen funktioniert, kann es sein, Möglichkeit zum Anhängen in die bestehende Spalte chunk. Haben Sie einen link, die architektonischen details.

InformationsquelleAutor vgunnu

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.