Gewusst wie: anzeigen von Apache Parkett-Datei in Windows?
Konnte ich nicht finden keine plain-Englisch Erklärungen zu Apache Parkett-Dateien. Wie:
- Was sind Sie?
- Brauche ich HDFS-Hadoop oder zum anzeigen/erstellen/speichern?
- Wie kann ich erstellen, Parkett-Dateien?
- Wie kann ich Parkett-Dateien?
Jede Hilfe in Bezug auf diese Fragen sehr geschätzt wird.
- Windows utility zum öffnen und anzeigen von Parkett-Dateien: github.com/mukunku/ParquetViewer
Du musst angemeldet sein, um einen Kommentar abzugeben.
Was ist Apache Parkett?
Apache Parkett ist ein binäres Dateiformat, das Daten speichert in einer säulenartigen Mode.
Daten innerhalb einer Parkett-Datei ist ähnlich wie ein RDBMS-Stil Tabelle, wo Sie die Spalten und Zeilen. Aber statt den Zugriff auf die Daten einer Zeile in einer Zeit, die Sie in der Regel zugreifen, es eine Spalte zu einem Zeitpunkt.
Apache Parkett ist einer der modernen big-data-Speicher-Formate. Es hat mehrere Vorteile, von denen einige sind:
Brauche ich HDFS-Hadoop oder?
Nicht. Parkett-Dateien können gespeichert werden, in irgendeiner Datei system, nicht nur HDFS. Wie oben erwähnt ist es eine Datei-format. So ist es einfach wie jede andere Datei, wo Sie einen Namen und eine .Parkett Erweiterung. Was wird passieren meist in big-data-Umgebungen ist jedoch, dass ein Datensatz aufgeteilt werden soll (oder partitioniert) in mehrere Parkett-Dateien für noch mehr Effizienz.
Alle Apache-big-data-Produkte unterstützen Parkett-Dateien standardmäßig. So, dass ist der Grund, warum es könnte scheinen, wie es nur existieren kann in der Apache-ökosystem.
Wie kann ich das erstellen/Lesen Parkett-Dateien?
Wie bereits erwähnt, alle aktuellen Apache-big-data-Produkte wie Hadoop, Hive, Spark, etc. Unterstützung Parkett-Dateien standardmäßig.
So ist es möglich zu nutzen, diese Systeme zu generieren oder Lesen Parkett-Daten. Aber dies ist weit entfernt von der Praxis. Vorstellen, dass, um zu Lesen oder erstellen Sie eine CSV-Datei, die Sie installieren musste Hadoop/HDFS + Hive und konfigurieren Sie Sie. Zum Glück gibt es andere Lösungen.
Erstellen Sie Ihre eigenen Parkett-Dateien:
Anzeigen Parkett-Datei Inhalt:
Gibt es andere Methoden?
Evtl. Aber es gibt nicht viele und meist sind Sie nicht gut dokumentiert. Dies ist aufgrund der Parkett wird eine sehr komplizierte Datei-format (konnte ich noch nicht finden, eine formale definition). Die, die ich aufgeführt habe sind die einzigen, die ich bewusst bin, wie ich Schreibe diese Antwort
Zusätzlich zu @sal umfangreiche Antwort es gibt eine weitere Frage, die mir begegnet in diesem Zusammenhang:
Wie kann ich den Zugriff auf die Daten im Parkett-Datei mit SQL?
Als wir noch in den Windows-Kontext hier, ich kenne nicht so viele Möglichkeiten, dass. Die besten Ergebnisse wurden erreicht, indem Spark wie die SQL-engine, mit Python als Schnittstelle zu Funken. Aber ich gehe davon aus, dass die Zeppelin Umgebung so gut funktioniert, aber nicht versuchen, dass aus mir noch.
Es ist sehr gut gemacht-Ratgeber von Michael Garlanyk Orientierungshilfe durch den Einbau des Funke - /Python-Kombination.
Einmal, ich bin in der Lage zu interagieren mit Parkett durch:
Einmal geladen dein Parkett diese Weise können Sie die Interaktion mit der Pyspark API z.B. über:
Dies ist nun möglich durch Apache Pfeil, die hilft, um die Kommunikation zu vereinfachen/- transfer zwischen den verschiedenen Daten-Formaten, siehe meine Antwort hier oder die offiziellen docs im Fall von Python.
Grundsätzlich dies ermöglicht Ihnen, schnell Lesen/schreiben Parkett-Dateien in ein pandas
DataFrame
wie die Mode-geben Sie die Vorteile der Verwendung vonnotebooks
zum anzeigen und verarbeiten diese Dateien, wie es eine regelmäßigecsv
Datei.