Wie zum Anhängen von Daten an eine vorhandene Parkett-Datei
Ich bin mit dem folgenden code zu erstellen ParquetWriter und schreiben von Datensätzen.
ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);
final GenericRecord record = new GenericData.Record(avroSchema);
parquetWriter.write(record);
Sondern es nur ermöglicht das erstellen neuer Dateien(im angegebenen Pfad).
Gibt es eine Möglichkeit zum Anhängen von Daten an eine vorhandene Parkett-Datei (Pfad)? Caching parquetWriter ist nicht möglich in meinem Fall.
InformationsquelleAutor Krishas | 2016-08-30
Du musst angemeldet sein, um einen Kommentar abzugeben.
Gibt es eine Spark-API SaveMode namens append: https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html denen ich glaube, dass löst Ihr problem.
Anwendungsbeispiel:
diesen code schreiben zu Parkett-Ordner, indem Sie eine neue Datei, es bewirkt nicht vorhandene Dateien
InformationsquelleAutor bluszcz
Parkett ist ein säulenartiger-Datei, optimiert Sie schreiben alle Spalten zusammen. Wenn jeder es Bearbeiten, erfordert ein umschreiben der Datei.
Vom Wiki
Eine spaltenorientierte Datenbank serialisiert alle Werte einer Spalte zusammen, dann werden die Werte der nächsten Spalte, und so weiter. Für unsere Beispiel-Tabelle, die Daten würden gespeichert, die in dieser Weise:
Einige links
https://en.wikipedia.org/wiki/Column-oriented_DBMS
https://parquet.apache.org/
spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/...
Ich denke, append nicht unterstützt Parkett-client-API, ich weiß, dass es dort war in der Funke, aber ich habe Zweifel an der Spalte Speicher, die unterstützen, Lesen Sie die erforderlichen Abschnitte nur. In diesem Fall, wie das Anhängen funktioniert, kann es sein, Möglichkeit zum Anhängen in die bestehende Spalte chunk. Haben Sie einen link, die architektonischen details.
InformationsquelleAutor vgunnu