Gewusst wie: anzeigen von Apache Parkett-Datei in Windows?

Konnte ich nicht finden keine plain-Englisch Erklärungen zu Apache Parkett-Dateien. Wie:

Was sind Sie?
Brauche ich HDFS-Hadoop oder zum anzeigen/erstellen/speichern?
Wie kann ich erstellen, Parkett-Dateien?
Wie kann ich Parkett-Dateien?

Jede Hilfe in Bezug auf diese Fragen sehr geschätzt wird.

Windows utility zum öffnen und anzeigen von Parkett-Dateien: github.com/mukunku/ParquetViewer

InformationsquelleAutor Sal | 2018-06-19

12

Was ist Apache Parkett?

Apache Parkett ist ein binäres Dateiformat, das Daten speichert in einer säulenartigen Mode.
Daten innerhalb einer Parkett-Datei ist ähnlich wie ein RDBMS-Stil Tabelle, wo Sie die Spalten und Zeilen. Aber statt den Zugriff auf die Daten einer Zeile in einer Zeit, die Sie in der Regel zugreifen, es eine Spalte zu einem Zeitpunkt.

Apache Parkett ist einer der modernen big-data-Speicher-Formate. Es hat mehrere Vorteile, von denen einige sind:
- Columnar storage: effiziente Datenbeschaffung, effiziente Komprimierung, etc...
- Metadaten am Ende der Datei: ermöglicht Parkett-Dateien werden erzeugt aus einem Strom von Daten. (Häufig in big-data-Szenarien)
- Unterstützt von allen Apache-big-data-Produkte
Brauche ich HDFS-Hadoop oder?

Nicht. Parkett-Dateien können gespeichert werden, in irgendeiner Datei system, nicht nur HDFS. Wie oben erwähnt ist es eine Datei-format. So ist es einfach wie jede andere Datei, wo Sie einen Namen und eine .Parkett Erweiterung. Was wird passieren meist in big-data-Umgebungen ist jedoch, dass ein Datensatz aufgeteilt werden soll (oder partitioniert) in mehrere Parkett-Dateien für noch mehr Effizienz.

Alle Apache-big-data-Produkte unterstützen Parkett-Dateien standardmäßig. So, dass ist der Grund, warum es könnte scheinen, wie es nur existieren kann in der Apache-ökosystem.

Wie kann ich das erstellen/Lesen Parkett-Dateien?

Wie bereits erwähnt, alle aktuellen Apache-big-data-Produkte wie Hadoop, Hive, Spark, etc. Unterstützung Parkett-Dateien standardmäßig.

So ist es möglich zu nutzen, diese Systeme zu generieren oder Lesen Parkett-Daten. Aber dies ist weit entfernt von der Praxis. Vorstellen, dass, um zu Lesen oder erstellen Sie eine CSV-Datei, die Sie installieren musste Hadoop/HDFS + Hive und konfigurieren Sie Sie. Zum Glück gibt es andere Lösungen.

Erstellen Sie Ihre eigenen Parkett-Dateien:
- In Java finden Sie in meinem folgenden post: Generieren Parkett-Datei mit Java
- In .NET finden Sie die folgende Bibliothek: Parkett-dotnet
Anzeigen Parkett-Datei Inhalt:
- Bitte versuchen Sie die folgenden Windows-Dienstprogramm: https://github.com/mukunku/ParquetViewer
Gibt es andere Methoden?

Evtl. Aber es gibt nicht viele und meist sind Sie nicht gut dokumentiert. Dies ist aufgrund der Parkett wird eine sehr komplizierte Datei-format (konnte ich noch nicht finden, eine formale definition). Die, die ich aufgeführt habe sind die einzigen, die ich bewusst bin, wie ich Schreibe diese Antwort

InformationsquelleAutor Sal

Zusätzlich zu @sal umfangreiche Antwort es gibt eine weitere Frage, die mir begegnet in diesem Zusammenhang:

Wie kann ich den Zugriff auf die Daten im Parkett-Datei mit SQL?

Als wir noch in den Windows-Kontext hier, ich kenne nicht so viele Möglichkeiten, dass. Die besten Ergebnisse wurden erreicht, indem Spark wie die SQL-engine, mit Python als Schnittstelle zu Funken. Aber ich gehe davon aus, dass die Zeppelin Umgebung so gut funktioniert, aber nicht versuchen, dass aus mir noch.

Es ist sehr gut gemacht-Ratgeber von Michael Garlanyk Orientierungshilfe durch den Einbau des Funke - /Python-Kombination.

Einmal, ich bin in der Lage zu interagieren mit Parkett durch:

from os import walk
from pyspark.sql import SQLContext

sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)

parquetdir = r'C:\PATH\TO\YOUR\PARQUET\FILES'

# Getting all parquet files in a dir as spark contexts.
# There might be more easy ways to access single parquets, but I had nested dirs
dirpath, dirnames, filenames = next(walk(parquetdir), (None, [], []))

# for each parquet file, i.e. table in our database, spark creates a tempview with
# the respective table name equal the parquet filename
print('New tables available: \n')

for parquet in filenames:
    print(parquet[:-8])
    spark.read.parquet(parquetdir+'\\'+parquet).createOrReplaceTempView(parquet[:-8])

Einmal geladen dein Parkett diese Weise können Sie die Interaktion mit der Pyspark API z.B. über:

my_test_query = spark.sql("""
select
  field1,
  field2
from parquetfilename1
where
  field1 = 'something'
""")

my_test_query.show()

InformationsquelleAutor nirolo

0

Dies ist nun möglich durch Apache Pfeil, die hilft, um die Kommunikation zu vereinfachen/- transfer zwischen den verschiedenen Daten-Formaten, siehe meine Antwort hier oder die offiziellen docs im Fall von Python.

Grundsätzlich dies ermöglicht Ihnen, schnell Lesen/schreiben Parkett-Dateien in ein pandas DataFrame wie die Mode-geben Sie die Vorteile der Verwendung von notebooks zum anzeigen und verarbeiten diese Dateien, wie es eine regelmäßige csv Datei.

InformationsquelleAutor meow

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Was ist Apache Parkett?

Brauche ich HDFS-Hadoop oder?

Wie kann ich das erstellen/Lesen Parkett-Dateien?

Wie kann ich den Zugriff auf die Daten im Parkett-Datei mit SQL?